Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2020論文紹介_Finding-Universal-Grammatical-Relations-in-Multilingual-BERT

 2020論文紹介_Finding-Universal-Grammatical-Relations-in-Multilingual-BERT

Ikumi Yamashita

June 03, 2020
Tweet

More Decks by Ikumi Yamashita

Other Decks in Technology

Transcript

  1. Finding Universal Grammatical Relations in Multilingual BERT Ethan A. Chi,

    John Hewitt, and Christopher D. Manning Department of Computer Science Stanford University 紹介者:⼭下郁海 (TMU M1 ⼩町研究室) 2020/06/03 @ 論⽂紹介2020
  2. 概要 • 多⾔語の BERT で⽂法知識 (構⽂知識) がどのように蓄積されているかを 調べた研究 • 各⾔語の⽂法知識が潜在領域で共有されており、ある⾔語の学習で他⾔

    語の⽂法知識の復元が可能であることを⽰した • 潜在領域の状態が Universal Dependency に近いことを⽰した
  3. 先⾏研究 [Hewitt et.al., 2019] • structural probe を提案 Ø BERT

    や ELMo などの⽂脈埋め込みベクトルの潜在表現を線形変換す ることで、係り受け解析の距離が得られる空間に転写 : ℓ 番⽬の⽂の i 番⽬の単語の潜在表現 : ℓ 番⽬の⽂の解析⽊ T における i 番⽬と j 番⽬の単語の距離 : ℓ 番⽬の⽂ s の⻑さ (単語数)
  4. 実験設定 • Data : Universal Dependencies v2 [Nivre et.al., 2020]

    • Model : Multilingual BERT (Google-research, pre-trained) 104 languages, 12-layer, 768-hidden, 12-heads, 110M parameters • Baselines : MBERTAND : ランダム初期化された Multilingual BERT LINEAR : 全ての単語の依存構造が左から右に連なっていると仮定 したモデル • 評価⼿法 : UUAS (Unlabeled Undirected Attachment Score) : 各⽂の各単語間に正しい辺が貼られているものの割合 DSpr. : スピアマンの相関係数
  5. 構⽂知識の復元 • IN-LANG : 評価する⾔語のデータで structural probe を学習したもの • pre-trained

    BERT モデルから依存構造が復元できていることがわかる
  6. 構⽂知識の復元 • 線形変換⾏列 の次元数 は 64 以上にしても結果は変わらない → 構⽂知識の部分空間は BERT

    の持つ 768 次元の空間の⼀部分である • 依存構造の復元が最もよくできるのは第 7 層
  7. Cross-lingual probing

  8. Cross-lingual probing • 各⾔語間の部分空間⾓度を計算、転移の結果と⽐較した結果、強い正の 相関が⾒られた → 部分空間の類似度が⾼いほど転移した時良い結果が出る

  9. Cross-lingual probing • フランス語 (形容詞の位置が不定 : 69.7% が前置形容詞) prenominal な⾔語でも

    postnominal な⾔語でも noun-adjective 間の辺の 復元の精度は⼤きな差はない
  10. 依存構造の可視化 • 依存構造の head と dependent のペアに対して k-dimensional head- dependent

    vector を次の式で定義 t-SNE を⽤いて⼆次元に可視化 ü 英語で学習した structural probe の部分空 間に英語とフランス語の !"## を可視化 ü スペイン語以外で学習した structural probe の部分空間にスペイン語の !"## を 可視化
  11. 依存構造の可視化 • 依存構造の head と dependent のペアに対して k-dimensional head- dependent

    vector を次の式で定義 t-SNE を⽤いて⼆次元に可視化 ü 英語で学習した structural probe の部分空 間に英語とフランス語の !"## を可視化 ü スペイン語以外で学習した structural probe の部分空間にスペイン語の !"## を 可視化
  12. 依存構造の可視化 ü 全⾔語で学習した部分空間に 100,000 の !"## を可視化

  13. Discussion • 多⾔語 BERT は構⽂レベルで⾒ると⾔語間で知識を共有している Ø BERT は明⽰的に構⽂の知識がタグつけされたデータで学習すること なく構⽂の知識をある程度得ている •

    UUAS だけでは structural probe の正しい評価はできない Ø 正しい距離を再現するのではなく単語同⼠が辺で繋がっている場合は $ を⼩さく、そうでない場合は⼤きくするようなモデルでも UUAS のスコアは上がる • 今回の研究では t-SNE を⽤いて可視化したグラフの定性的な分析しか⾏ なっていない
  14. まとめ • Multilingual BERT の潜在領域は依存構造の知識を持っている • 依存構造の知識空間は⾔語間である程度共有されており、そのためある ⾔語で学習した structural probe

    を⽤いて他の⾔語の依存構造の復元が可 能である • Multilingual BERT が持つ依存構造の知識は Universal Dependencies に近 い状態である