Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2021EACL/NAACL論文紹介_Multilingual-LAMA-Investigating-Knowledge-in-Multilingual-Pretrained-Language-Models

 2021EACL/NAACL論文紹介_Multilingual-LAMA-Investigating-Knowledge-in-Multilingual-Pretrained-Language-Models

Ikumi Yamashita

July 12, 2021
Tweet

More Decks by Ikumi Yamashita

Other Decks in Research

Transcript

  1. Overview • EACL 2021 best short paper • 事前学習モデルの持つ知識を分析する⼿法 LAMA

    の多⾔語版 Ø 英語コーパスの翻訳による多⾔語コーパスの作成 Ø LAMA の既存の問題点の改善 Ø 多⾔語モデル (mBERT) でも knowledge base としての使い⽅が可能 Ø ⾔語に依存したバイアスがあることも確認
  2. Background • LAMA (LAnguage Model Analysis [Petroni et al., EMNLP2019])

    Ø fine-tuning 前の純粋な事前学習モデルの持つ知識を分析するための⼿法 Ø ⽳埋め形式の簡単な質問を⽤意して正しい答えが出せるかを⾒る 例 Q: Francesco Bartolomeo Conti was born in ___. A: Florence Q: English bulldog is subclass of ___. A: dog Q: iPod Touch is produced by ___. A: Apple Q: Ravens can ___. A: fly Q: Sometimes virus causes ___. A: infection Q: Birds have ___. A: feathers
  3. Datasets: mLAMA • 英語版 LAMA のデータを Google 翻訳を⽤いて多⾔語に翻訳 Ø 後々翻訳の質の評価の話も出てくる

    (ドイツ語,ヒンディー語,⽇本語に ついては) • 翻訳可能な⾔語かつ元の英⽂が翻訳可能であるもののみを使⽤
  4. Experiments • Model Ø mBERT を使⽤ Ø (当初は XLM-R を使⽤していたが性能が伸びなかった)

    • Typed and Untyped Querying Ø 従来の LAMA は MASK した単語を予測する → 答えは語彙に含まれている必要があり,type の指定もできない Ø 新しい設定として,指定された type の candidate set から最も適切なも のを選ぶランキング問題に変更
  5. Results • UnTyQ vs. TyQ Ø type 指定の query を⽤いた⽅が性能

    が良く,multi token に対してもうま く機能する • Translation Quality Ø ⼈⼿で翻訳のミスを修正 Ø 結果に⼤きな影響はなく機械翻訳の 出⼒を使うことでも⼗分である
  6. Results • Multilingual performance Ø 翻訳されたデータの数が⾔語によって異なるため,mBERT[en] との性能 ⽐較で各⾔語を⽐較 Ø 21

    の⾔語はある程度の性能を有しているが,残りの 32 ⾔語は 60% 未満 の performance しか出ない → mBERT 中での表現は⾔語依存だろう
  7. Results • Bias Ø 出⼒には⾔語依存のバイアスが乗っている • Pooling Ø ⾔語間で pooling

    を⾏うことによって単⼀の BERT のスコアを上回ること ができる Ø mBERT が多⾔語で学習されていることをうまく引き出すことも可能
  8. Conclusion • fine-tuning 前の多⾔語モデルの性能分析のために mLAMA を提案 Ø 機械翻訳を⽤いてデータを作成,⼈⼿で作ったデータとの性能差が⼤き くなく有⽤なデータであることを⽰した Ø

    type 指定の query を⽤いることでモデルの持つ知識の分析に注⼒しやす くなった • mBERT の持つ知識は⾔語依存であることを⽰した • mBERT の持つ多⾔語のデータで学習しているという利点を pooling によっ て引き出すことが可能であることも⽰した