2021EACL/NAACL論文紹介_Multilingual-LAMA-Investigating-Knowledge-in-Multilingual-Pretrained-Language-Models

紹介者：⼭下郁海 (TMU M2 ⼩町研究室) 2021/07/12 @ EACL/NAACL 論⽂紹介2021

Overview • EACL 2021 best short paper • 事前学習モデルの持つ知識を分析する⼿法 LAMA
の多⾔語版 Ø 英語コーパスの翻訳による多⾔語コーパスの作成 Ø LAMA の既存の問題点の改善 Ø 多⾔語モデル (mBERT) でも knowledge base としての使い⽅が可能 Ø ⾔語に依存したバイアスがあることも確認

Background • LAMA (LAnguage Model Analysis [Petroni et al., EMNLP2019])
Ø fine-tuning 前の純粋な事前学習モデルの持つ知識を分析するための⼿法 Ø ⽳埋め形式の簡単な質問を⽤意して正しい答えが出せるかを⾒る例 Q: Francesco Bartolomeo Conti was born in ___. A: Florence Q: English bulldog is subclass of ___. A: dog Q: iPod Touch is produced by ___. A: Apple Q: Ravens can ___. A: fly Q: Sometimes virus causes ___. A: infection Q: Birds have ___. A: feathers

Questions • LAMA は事前学習モデルを knowledge base として使えることを⽰しているが，多⾔語モデルでも同じことが⾔えるのかは明らかではない • 多⾔語モデルの持つ知識は⾔語に依存しないものになっているのか，それと
も⾔語依存の知識なのか • mBERT は多⾔語のデータで事前学習しているため当然 BERT よりもデーや量は多いがこの利点を活かすことは可能か？

Datasets: mLAMA • 英語版 LAMA のデータを Google 翻訳を⽤いて多⾔語に翻訳 Ø 後々翻訳の質の評価の話も出てくる
(ドイツ語，ヒンディー語，⽇本語については) • 翻訳可能な⾔語かつ元の英⽂が翻訳可能であるもののみを使⽤

Experiments • Model Ø mBERT を使⽤ Ø (当初は XLM-R を使⽤していたが性能が伸びなかった)
• Typed and Untyped Querying Ø 従来の LAMA は MASK した単語を予測する → 答えは語彙に含まれている必要があり，type の指定もできない Ø 新しい設定として，指定された type の candidate set から最も適切なものを選ぶランキング問題に変更

Results • UnTyQ vs. TyQ Ø type 指定の query を⽤いた⽅が性能
が良く，multi token に対してもうまく機能する • Translation Quality Ø ⼈⼿で翻訳のミスを修正 Ø 結果に⼤きな影響はなく機械翻訳の出⼒を使うことでも⼗分である

Results • Multilingual performance Ø 翻訳されたデータの数が⾔語によって異なるため，mBERT[en] との性能⽐較で各⾔語を⽐較 Ø 21
の⾔語はある程度の性能を有しているが，残りの 32 ⾔語は 60% 未満の performance しか出ない → mBERT 中での表現は⾔語依存だろう

Results • Bias Ø 出⼒には⾔語依存のバイアスが乗っている • Pooling Ø ⾔語間で pooling
を⾏うことによって単⼀の BERT のスコアを上回ることができる Ø mBERT が多⾔語で学習されていることをうまく引き出すことも可能

Conclusion • fine-tuning 前の多⾔語モデルの性能分析のために mLAMA を提案 Ø 機械翻訳を⽤いてデータを作成，⼈⼿で作ったデータとの性能差が⼤きくなく有⽤なデータであることを⽰した Ø
type 指定の query を⽤いることでモデルの持つ知識の分析に注⼒しやすくなった • mBERT の持つ知識は⾔語依存であることを⽰した • mBERT の持つ多⾔語のデータで学習しているという利点を pooling によって引き出すことが可能であることも⽰した

2021EACL/NAACL論文紹介_Multilingual-LAMA-Investigat...

2021EACL/NAACL論文紹介_Multilingual-LAMA-Investigating-Knowledge-in-Multilingual-Pretrained-Language-Models

Ikumi Yamashita

More Decks by Ikumi Yamashita

Other Decks in Research

Featured

Transcript

紹介者：⼭下郁海 (TMU M2 ⼩町研究室) 2021/07/12 @ EACL/NAACL 論⽂紹介2021

Overview • EACL 2021 best short paper • 事前学習モデルの持つ知識を分析する⼿法 LAMA

Background • LAMA (LAnguage Model Analysis [Petroni et al., EMNLP2019])

Questions • LAMA は事前学習モデルを knowledge base として使えることを⽰しているが，多⾔語モデルでも同じことが⾔えるのかは明らかではない • 多⾔語モデルの持つ知識は⾔語に依存しないものになっているのか，それと

Datasets: mLAMA • 英語版 LAMA のデータを Google 翻訳を⽤いて多⾔語に翻訳 Ø 後々翻訳の質の評価の話も出てくる

Experiments • Model Ø mBERT を使⽤ Ø (当初は XLM-R を使⽤していたが性能が伸びなかった)

Results • UnTyQ vs. TyQ Ø type 指定の query を⽤いた⽅が性能

Results • Multilingual performance Ø 翻訳されたデータの数が⾔語によって異なるため，mBERT[en] との性能⽐較で各⾔語を⽐較 Ø 21

Results • Bias Ø 出⼒には⾔語依存のバイアスが乗っている • Pooling Ø ⾔語間で pooling

Conclusion • fine-tuning 前の多⾔語モデルの性能分析のために mLAMA を提案 Ø 機械翻訳を⽤いてデータを作成，⼈⼿で作ったデータとの性能差が⼤きくなく有⽤なデータであることを⽰した Ø