Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2021EACL/NAACL論文紹介_Multilingual-LAMA-Investigating-Knowledge-in-Multilingual-Pretrained-Language-Models

 2021EACL/NAACL論文紹介_Multilingual-LAMA-Investigating-Knowledge-in-Multilingual-Pretrained-Language-Models

0e0827af3bb7bc58fc1db4c215f579d9?s=128

Ikumi Yamashita

July 12, 2021
Tweet

Transcript

  1. 紹介者:⼭下郁海 (TMU M2 ⼩町研究室) 2021/07/12 @ EACL/NAACL 論⽂紹介2021

  2. Overview • EACL 2021 best short paper • 事前学習モデルの持つ知識を分析する⼿法 LAMA

    の多⾔語版 Ø 英語コーパスの翻訳による多⾔語コーパスの作成 Ø LAMA の既存の問題点の改善 Ø 多⾔語モデル (mBERT) でも knowledge base としての使い⽅が可能 Ø ⾔語に依存したバイアスがあることも確認
  3. Background • LAMA (LAnguage Model Analysis [Petroni et al., EMNLP2019])

    Ø fine-tuning 前の純粋な事前学習モデルの持つ知識を分析するための⼿法 Ø ⽳埋め形式の簡単な質問を⽤意して正しい答えが出せるかを⾒る 例 Q: Francesco Bartolomeo Conti was born in ___. A: Florence Q: English bulldog is subclass of ___. A: dog Q: iPod Touch is produced by ___. A: Apple Q: Ravens can ___. A: fly Q: Sometimes virus causes ___. A: infection Q: Birds have ___. A: feathers
  4. Questions • LAMA は事前学習モデルを knowledge base として使えることを⽰している が,多⾔語モデルでも同じことが⾔えるのかは明らかではない • 多⾔語モデルの持つ知識は⾔語に依存しないものになっているのか,それと

    も⾔語依存の知識なのか • mBERT は多⾔語のデータで事前学習しているため当然 BERT よりもデーや 量は多いがこの利点を活かすことは可能か?
  5. Datasets: mLAMA • 英語版 LAMA のデータを Google 翻訳を⽤いて多⾔語に翻訳 Ø 後々翻訳の質の評価の話も出てくる

    (ドイツ語,ヒンディー語,⽇本語に ついては) • 翻訳可能な⾔語かつ元の英⽂が翻訳可能であるもののみを使⽤
  6. Experiments • Model Ø mBERT を使⽤ Ø (当初は XLM-R を使⽤していたが性能が伸びなかった)

    • Typed and Untyped Querying Ø 従来の LAMA は MASK した単語を予測する → 答えは語彙に含まれている必要があり,type の指定もできない Ø 新しい設定として,指定された type の candidate set から最も適切なも のを選ぶランキング問題に変更
  7. Results • UnTyQ vs. TyQ Ø type 指定の query を⽤いた⽅が性能

    が良く,multi token に対してもうま く機能する • Translation Quality Ø ⼈⼿で翻訳のミスを修正 Ø 結果に⼤きな影響はなく機械翻訳の 出⼒を使うことでも⼗分である
  8. Results • Multilingual performance Ø 翻訳されたデータの数が⾔語によって異なるため,mBERT[en] との性能 ⽐較で各⾔語を⽐較 Ø 21

    の⾔語はある程度の性能を有しているが,残りの 32 ⾔語は 60% 未満 の performance しか出ない → mBERT 中での表現は⾔語依存だろう
  9. Results • Bias Ø 出⼒には⾔語依存のバイアスが乗っている • Pooling Ø ⾔語間で pooling

    を⾏うことによって単⼀の BERT のスコアを上回ること ができる Ø mBERT が多⾔語で学習されていることをうまく引き出すことも可能
  10. Conclusion • fine-tuning 前の多⾔語モデルの性能分析のために mLAMA を提案 Ø 機械翻訳を⽤いてデータを作成,⼈⼿で作ったデータとの性能差が⼤き くなく有⽤なデータであることを⽰した Ø

    type 指定の query を⽤いることでモデルの持つ知識の分析に注⼒しやす くなった • mBERT の持つ知識は⾔語依存であることを⽰した • mBERT の持つ多⾔語のデータで学習しているという利点を pooling によっ て引き出すことが可能であることも⽰した