2020COLING読み会_Linguistic-Profiling-of-a-Neural-Language-Model

紹介者：⼭下郁海 (TMU M1 ⼩町研究室) 2020/01/19 @ COLING2020 読み会 1

• BERT の内部表現に対して詳細な分析を⾏った論⽂ Ø 様々な⾔語特性を反映した 68 のサブタスクを⽤いた分析 • Fine-tuning 前後での変化を確認
Ø 各⾔語での NLI での Fine-tuning により広範囲な⾔語特性をカバーする能⼒が失われることを確認 Ø 代わりによりタスク固有の知識を獲得している • BERT の持つ⾔語知識が下流タスクにどのような影響を与えるのかの調査 Ø より広範な⾔語特性をカバーしていれば、下流タスクの性能も向上することを確認 Overview 2

Settings 3

Probing tasks • Profiling-UD: a Tool for Linguistic Profiling Text
[Brunato et al., 2020] に基づく 4

Models • NLM Ø pre-trained English BERT (12 layers, 768
hiddens) Ø ⽂レベルの表現を得るために CLS トークンを使⽤ • Probing Model Ø LinearSVR Ø BERT の CLS トークンを⼊⼒に、各 probing task の値を計算例：⽂⻑、type token ration、POS タグの分布、など 5

Profiling BERT 6

Profiling BERT • 各グループの probing task に対する各層ごとのスピアマンの順位相関係数 ( スコア) を計算、平均をとったもの
Ø ベースライン：⽂⻑との相関で順位相関係数を計算したもの • 各層ごとのスコアのグラフ 7

Layerwise scores • 各 probing task に対する各層ごとのスピアマンの順位相関係数 ( スコア) Ø
ベースライン (B)：⽂⻑との相関で順位相関係数を計算したもの 8

Hierarchical clustering • スコアによる階層クラスタリング (括弧内の数字は⽂⻑との相関による順位) 9

Impact of fine-tuning 10

NLI fine-tuning • NLI (Native Language Identification) Ø (Natural Language
Inference ではない) Ø 第⼆⾔語で書かれたエッセイから⺟国語を当てるタスク Ø 今回はイタリア語と各別⾔語の⼆値分類 Ø ベースラインは zero rule algorithm • 結果から BERT はどの⾔語でも性能が⾼いことがわかる Ø イタリア語から遠い⾔語ほど性能が⾼く、近い⾔語ほど性能が低い 11

Impact of fine-tuning • 各モデルのレイヤーごとのスコア Ø fine-tuning 後のモデルが⼀般的な⾔語知識を犠牲にしてタスク固有の能⼒を得ていることが⽰唆されている
(特に近い⾔語対や出⼒層に近い層で顕著) 12

Impact of fine-tuning • 出⼒層における各モデルと BERT-base モデルのスコアの差 13

Are BERT’s linguistic knowledge useful for downstream task? 14

Are linguistic features useful? • NLI のデータを正しく分類できたセットと正しく分類できなかったセットに分割、各⽂に対して probing task
を実⾏ Ø 各セットにおいて probing task の予測値と実際の値の誤差を Wilcoxon Rank-sum test を⽤いて同⼀の分布であるか判定 → ⼤きく異なる分布であることを確認 Ø これは正しく分類できた⽂とできなかった⽂に対する BERT の能⼒が異なることを⽰唆している 15

Are linguistic features useful? • NLI で正しく分類できた⽂の probing task の
MSE が分類できなかった⽂ probing task の MSE より低い feature の割合のグラフ Ø 正しく分類できた⽂に対しての⽅が、よく把握できている⾔語現象の割合を⾒ている Ø この割合が⾼い = 正しく⾔語現象が把握できている⽂は下流タスクでも正しく分類できており、⾔語現象がうまく把握できない⽂は下流タスクでも正しく分類できない → BERT の⾔語知識は下流タスクにも重要な役割 16

Are linguistic features useful? • NLI で正しく分類できた⽂は他の⽂に⽐べて⽂⻑が⻑い • ⽂⻑のみを⼊⼒として probing
task を⾏う LinearSVR を新たに学習、NLI で正しく分類できた⽂とできなかった⽂のそれぞれのセットで probing task スコアを計算 Ø ⽂⻑のみで分類しているのではないか？という点の確認 • NLI で正しく分類できた⽂よりもできなかった⽂の probing task スコアの⽅が⾼い Ø 正しく分類するには BERT の持つ複雑な⾔語能⼒が必要 17

Conclusion • BERT に対して probing task を⽤いて詳細な分析を実⾏ Ø BERT が広範な⾔語知識を獲得していることを確認
• fine-tuning 前後で⽐較することによって、元々持っていた⾔語知識の多くを失い、代わりにタスク固有の知識を持つことを確認 • BERT の持つ⾔語知識が下流タスクを解く上で重要な役割を果たしていることを確認 Ø 特定の⽂に対して BERT の持つ⾔語知識が優れていれば、下流タスクの性能も良い可能性 18

2020COLING読み会_Linguistic-Profiling-of-a-Neural-...

2020COLING読み会_Linguistic-Profiling-of-a-Neural-Language-Model

Ikumi Yamashita

More Decks by Ikumi Yamashita

Other Decks in Technology

Featured

Transcript

紹介者：⼭下郁海 (TMU M1 ⼩町研究室) 2020/01/19 @ COLING2020 読み会 1

• BERT の内部表現に対して詳細な分析を⾏った論⽂ Ø 様々な⾔語特性を反映した 68 のサブタスクを⽤いた分析 • Fine-tuning 前後での変化を確認

Settings 3

Probing tasks • Profiling-UD: a Tool for Linguistic Profiling Text

Models • NLM Ø pre-trained English BERT (12 layers, 768

Profiling BERT 6

Profiling BERT • 各グループの probing task に対する各層ごとのスピアマンの順位相関係数 ( スコア) を計算、平均をとったもの

Layerwise scores • 各 probing task に対する各層ごとのスピアマンの順位相関係数 ( スコア) Ø

Hierarchical clustering • スコアによる階層クラスタリング (括弧内の数字は⽂⻑との相関による順位) 9

Impact of fine-tuning 10

NLI fine-tuning • NLI (Native Language Identification) Ø (Natural Language

Impact of fine-tuning • 各モデルのレイヤーごとのスコア Ø fine-tuning 後のモデルが⼀般的な⾔語知識を犠牲にしてタスク固有の能⼒を得ていることが⽰唆されている

Impact of fine-tuning • 出⼒層における各モデルと BERT-base モデルのスコアの差 13

Are BERT’s linguistic knowledge useful for downstream task? 14

Are linguistic features useful? • NLI のデータを正しく分類できたセットと正しく分類できなかったセットに分割、各⽂に対して probing task

Are linguistic features useful? • NLI で正しく分類できた⽂の probing task の

Are linguistic features useful? • NLI で正しく分類できた⽂は他の⽂に⽐べて⽂⻑が⻑い • ⽂⻑のみを⼊⼒として probing

Conclusion • BERT に対して probing task を⽤いて詳細な分析を実⾏ Ø BERT が広範な⾔語知識を獲得していることを確認