2020論文紹介_Finding-Universal-Grammatical-Relations-in-Multilingual-BERT

Finding Universal Grammatical Relations in Multilingual BERT Ethan A. Chi,
John Hewitt, and Christopher D. Manning Department of Computer Science Stanford University 紹介者：⼭下郁海 (TMU M1 ⼩町研究室) 2020/06/03 @ 論⽂紹介2020

概要 • 多⾔語の BERT で⽂法知識 (構⽂知識) がどのように蓄積されているかを調べた研究 • 各⾔語の⽂法知識が潜在領域で共有されており、ある⾔語の学習で他⾔
語の⽂法知識の復元が可能であることを⽰した • 潜在領域の状態が Universal Dependency に近いことを⽰した

先⾏研究 [Hewitt et.al., 2019] • structural probe を提案 Ø BERT
や ELMo などの⽂脈埋め込みベクトルの潜在表現を線形変換することで、係り受け解析の距離が得られる空間に転写 : ℓ 番⽬の⽂の i 番⽬の単語の潜在表現 : ℓ 番⽬の⽂の解析⽊ T における i 番⽬と j 番⽬の単語の距離 : ℓ 番⽬の⽂ s の⻑さ (単語数)

実験設定 • Data : Universal Dependencies v2 [Nivre et.al., 2020]
• Model : Multilingual BERT (Google-research, pre-trained) 104 languages, 12-layer, 768-hidden, 12-heads, 110M parameters • Baselines : MBERTAND : ランダム初期化された Multilingual BERT LINEAR : 全ての単語の依存構造が左から右に連なっていると仮定したモデル • 評価⼿法 : UUAS (Unlabeled Undirected Attachment Score) : 各⽂の各単語間に正しい辺が貼られているものの割合 DSpr. : スピアマンの相関係数

構⽂知識の復元 • IN-LANG : 評価する⾔語のデータで structural probe を学習したもの • pre-trained
BERT モデルから依存構造が復元できていることがわかる

構⽂知識の復元 • 線形変換⾏列の次元数は 64 以上にしても結果は変わらない → 構⽂知識の部分空間は BERT
の持つ 768 次元の空間の⼀部分である • 依存構造の復元が最もよくできるのは第 7 層

Cross-lingual probing

Cross-lingual probing • 各⾔語間の部分空間⾓度を計算、転移の結果と⽐較した結果、強い正の相関が⾒られた → 部分空間の類似度が⾼いほど転移した時良い結果が出る

Cross-lingual probing • フランス語 (形容詞の位置が不定 : 69.7% が前置形容詞) prenominal な⾔語でも
postnominal な⾔語でも noun-adjective 間の辺の復元の精度は⼤きな差はない

依存構造の可視化 • 依存構造の head と dependent のペアに対して k-dimensional head- dependent
vector を次の式で定義 t-SNE を⽤いて⼆次元に可視化 ü 英語で学習した structural probe の部分空間に英語とフランス語の !"## を可視化 ü スペイン語以外で学習した structural probe の部分空間にスペイン語の !"## を可視化

依存構造の可視化 ü 全⾔語で学習した部分空間に 100,000 の !"## を可視化

Discussion • 多⾔語 BERT は構⽂レベルで⾒ると⾔語間で知識を共有している Ø BERT は明⽰的に構⽂の知識がタグつけされたデータで学習することなく構⽂の知識をある程度得ている •
UUAS だけでは structural probe の正しい評価はできない Ø 正しい距離を再現するのではなく単語同⼠が辺で繋がっている場合は $ を⼩さく、そうでない場合は⼤きくするようなモデルでも UUAS のスコアは上がる • 今回の研究では t-SNE を⽤いて可視化したグラフの定性的な分析しか⾏なっていない

まとめ • Multilingual BERT の潜在領域は依存構造の知識を持っている • 依存構造の知識空間は⾔語間である程度共有されており、そのためある⾔語で学習した structural probe
を⽤いて他の⾔語の依存構造の復元が可能である • Multilingual BERT が持つ依存構造の知識は Universal Dependencies に近い状態である

2020論文紹介_Finding-Universal-Grammatical-Relation...

2020論文紹介_Finding-Universal-Grammatical-Relations-in-Multilingual-BERT

Ikumi Yamashita

More Decks by Ikumi Yamashita

Other Decks in Technology

Featured

Transcript

Finding Universal Grammatical Relations in Multilingual BERT Ethan A. Chi,

概要 • 多⾔語の BERT で⽂法知識 (構⽂知識) がどのように蓄積されているかを調べた研究 • 各⾔語の⽂法知識が潜在領域で共有されており、ある⾔語の学習で他⾔

先⾏研究 [Hewitt et.al., 2019] • structural probe を提案 Ø BERT

実験設定 • Data : Universal Dependencies v2 [Nivre et.al., 2020]

構⽂知識の復元 • IN-LANG : 評価する⾔語のデータで structural probe を学習したもの • pre-trained

構⽂知識の復元 • 線形変換⾏列の次元数は 64 以上にしても結果は変わらない → 構⽂知識の部分空間は BERT

Cross-lingual probing

Cross-lingual probing • 各⾔語間の部分空間⾓度を計算、転移の結果と⽐較した結果、強い正の相関が⾒られた → 部分空間の類似度が⾼いほど転移した時良い結果が出る

Cross-lingual probing • フランス語 (形容詞の位置が不定 : 69.7% が前置形容詞) prenominal な⾔語でも

依存構造の可視化 • 依存構造の head と dependent のペアに対して k-dimensional head- dependent

依存構造の可視化 • 依存構造の head と dependent のペアに対して k-dimensional head- dependent

依存構造の可視化 ü 全⾔語で学習した部分空間に 100,000 の !"## を可視化

Discussion • 多⾔語 BERT は構⽂レベルで⾒ると⾔語間で知識を共有している Ø BERT は明⽰的に構⽂の知識がタグつけされたデータで学習することなく構⽂の知識をある程度得ている •

まとめ • Multilingual BERT の潜在領域は依存構造の知識を持っている • 依存構造の知識空間は⾔語間である程度共有されており、そのためある⾔語で学習した structural probe