UnNatural Language Inference

UnNatural Language Inference Koustuv Sinha, Prasanna Parthasarathi, Joelle Pineau, Adina
Williams ACL 2021: Outstanding papers 読む⼈︓丹⽻彩奈（東⼯⼤岡崎研） 2021-9-17 第13回最先端NLP勉強会スライド中の図表・数式は,特に注釈のないかぎり本論⽂からの引⽤です⼀部Notationを変更しています

どんな論⽂︖ 2 • 「最近の⾼性能なモデルはある程度構⽂を理解している」という主張に対する検証論⽂ • 構⽂を理解している ⟹ 語順にsensitiveである •
⼈間にとっては … 語順は重要．⾔語は単なるBoWではない • モデルにとっては … ︖︖︖ • 語順に対するモデルのsensitivityを評価する指標を提案し，複数のモデルや⾔語，ドメインに適⽤．モデルが語順をどのように捉えているのか調査正しい語順並び替え後 ︖︖︖ NLIタスク出⼒はどう変わる︖

Transformerベースのモデル×構⽂知識 3 [Wu et al., 2020] [John Hewitt et al.,
2019] Transformerベースのモデルはある程度構⽂を獲得できている︖ • 内部表現から構⽂チックな特徴が読み取れる • 同様の議論はTransformerだけではなくRNN , CNNでも⾏われてきたしかし実際に構⽂を理解できているかは疑問 • ⼀般的に⾔語現象によって性能にムラがある • Transformerモデルの含意認識はヒューリスティックなルールに依存 • The 𝑁! 𝑃 the 𝑁" 𝑉. ↛ The 𝑁" 𝑉. • The lawyer by the actor ran. ↛ The actor ran. • ⽂法的に正しいか否かを判定するタスクでの性能は⼈間に遠く及ばない [Tom McCoy et al., 2019] [Warstadt et al., 2019b]

本研究のアイディア 4 モデルが構⽂を理解しているなら語順にsensitiveなはず • 語順は⽂の意味を理解する上で重要なファクター語順に対するsensitivityを⾃然⾔語推論タスク (NLI)で調査 • 前提⽂ (Premise)
が仮説⽂ (Hypothesis) を含意するか/否か/ニュートラルかを判定前提⽂（Premise）仮説⽂（Hypothesis）含意関係⽝が庭に⽳を掘る。⽝は昼寝をしています contradict ⽝は外で掘っている entailment ⽝は⾻を隠そうとしている neutral ⽇本語SNLI(JSNLI)データセットの例⽝が⾍を追いかける⾍が⽝を追いかける前提⽂や仮説⽂の語順を⼊れ替えたらどうなるだろうか︖

今回取り組むタスク 5 モデルの語順に対するsensitivityを調べるため，NLIタスクの⼊⼒⽂の単語をランダムに並び替えたUNLI (UnNatural Language Inference) タスクでモデルの挙動を調べる正しい語順 (NLI)
並び替え後 (UNLI) ︖︖︖ 出⼒はどう変わる︖

想定されるモデルの挙動３パターン 6 モデル A 並び替え⽂ neutral neutral neutral 並び替えられた⽂は意味をなさない Ø
全てのラベルにneutralを振るモデル B contradict ?? entailment ?? contradict ?? 理解しようとするが難しい Ø 全てのラベルにほぼ同じ確率を振るモデル C contradict entailment contradict 語順を⼀切⾒ない（＝BoW） Ø 並び替え前の事例と同じラベルを振る

想定されるモデルの挙動３パターン 7 モデル A 並び替え⽂ neutral neutral neutral 並び替えられた⽂は意味をなさない Ø
全てのラベルにneutralを振るモデル B contradict ?? entailment ?? contradict ?? 理解しようとするが難しい Ø 全てのラベルにほぼ同じ確率を振るモデル C contradict entailment contradict 語順を⼀切⾒ない（＝BoW） Ø 並び替え前の事例と同じラベルを振る実際のところ，並び替え事例に対する挙動は A,B,Cどれにも当てはまらなかった強いて⾔えばCに最も近いが，並び替え前の性能を超えることすらあるでは並び替え事例に正解してしまう要因となる⾔語的特徴は︖…などを調べる論⽂

本研究の３つの貢献 8 ① 語順に対するsensitivityを測る指標 Permutation Acceptanceを提案 ② 実験により，NLIモデルの語順に対する sensitivityを明らかにする ③
単語を並び替えた⽂sensitiveになるためのシンプルな最⼤エントロピーベースの⼿法を提案

Permutation Acceptance 事例(𝒑𝒊, 𝒉𝒊) に対して: q個の並び替えにモデルMが正しいラベル𝑦! を割り当てる確率Pr(&) (sat The on
cat mat the, The was cat fat) (mat the on The sat cat, fat The cat was) (cat mat the The sat on, cat was fat The) 𝑞 = 3の場合 Pr( ( 𝑃+, * 𝐻+),-.= 1 𝑞 / ( 0 1!"∈ 3 4!,6 7!"∈6 8!) ((𝑀 ̂ 𝑝+:, ( ℎ+: = 𝑦+) → 1) M 𝑗 ∈ [1, 𝑞] neutral entailment neutral Pr & = 2 3 出⼒ラベル 9 モデルM neutral (The cat sat on the mat, The cat was fat) 仮説⽂𝒉𝒊 前提⽂𝒑𝒊 モデルM

Permutation Acceptance 10 ΩB = 1 𝓓 / (1!,7!)∈𝓓 ((Pr
( 𝑃+, * 𝐻+ ,-. > 𝑥) → 1) M 𝑥 : 事前に設定した閾値 (0 < 𝑥 < 1) 全事例𝓓に対して（＝モデルの評価値）: • 並び替え後の事例のPr(&)が𝑥を超えた事例の割合Ω" 実験で使う２設定 Ω#$% Maximum Accuracy 少なくとも⼀つの並び替え事例に正解ラベルを振った割合 Ω&$'( Random Baseline Accuracy クラス数𝑚のbalanced-分類のとき（今回は３値なので𝑥 =0.333…）

Permutation Acceptanceの具体的な挙動 11 6つの事例 1事例につき 6つの並び替えモデルが正解してしまった並び替え事例閾値xを超え，指標の計算に⽤いられたもの
６事例中３事例が正解

ラベルの反転に関する評価 12 クラシックなBoWモデルでは語順は関係ないので𝒫$ = 1.00, 𝒫% = 0.00 並び
替え前不正解正解正解不正解並び替え後 𝐷%: 該当する事例リスト 𝒫% = 1 |𝐷%| K &'( |*!| 𝑀( 3 𝑃& , 6 𝐻& )+,- さらに細かく挙動を調べるため，並び替え前に不正解だった事例にもかかわらず並び替え後に正解した事例の割合の平均も調べる 𝐷$: 該当する事例リスト 𝒫$ = 1 |𝐷$| K &'( |*"| 𝑀( 3 𝑃& , 6 𝐻& )+,-

単語を並び替えた⽂sensitiveになるためのシンプルな最⼤エントロピーベースの⼿法を提案

実験設定 14 モデル 1. Transformerベースのモデル • RoBERTa-Large, BART-Large, DistilBERT 2.
⾮Transformerベースのモデル • InferSent, Bi-LSTM, ConvNet データセット学習時: MNLI 評価時: [in-distribution] SNLI, MNLI [out-of-distribution] Adversarial NLI (ANLI) • ⽂の⻑さやドメインが異なる３通りのデータ (A1, A2, A3)を含む並び替えプロセス 1事例につき𝑞 =100個の並び替え事例をサンプリング 6トークン以下の事例は除外

Permutedデータセットの構築 15 (𝑝& , ℎ& , 𝑦& ) ∈ 𝒟./0.
3 𝑃& , 6 𝐻& ∈ 6 𝒟./0. 並べ替え 𝓕 • ⼀事例につきq個の並び替え（q: ハイパラ） • 全ての単語を並べ替える • 同じ位置に並べ替えることはない 6 𝒟./0. = 𝒟./0. ×𝑞 学習データ 𝒟.-123 モデルテストデータ 𝒟.456 テストデータ 6 𝒟./0. そのまま⽤いる並べ替え ℱ

In-distributionに対する結果 16 モデルは多くの並び替え事例に対しても正解してしまう • ほぼ全ての事例（MNLI_m_devだと98.7%）に対して，少なくとも１つの並び替え事例に正解ラベルを振ってしまっている⼈が解いた場合は約92% 並び替え前並び替え後 In
distribution Out-of distribution

Out-of-distributionに対する結果 17 特に並び替え前→後の性能向上の差分が⼤きい • 並び替えによって解けるようになるケースが⾒られた < < < BoW 1.000
0.000 全てのデータセットで𝓟𝒇 ≪ 𝓟𝒄 • [復習] 𝓟𝒇: ラベルが反転している並び替え事例の割合 • BoW-likeな振る舞い︖ 並び替え前並び替え後 In distribution Out-of distribution

ただ，当てずっぽうに予測しているわけではなさそう 18 Transformerベースのモデル⾮Transformerベースのモデル当てずっぽうなら予測確率はchances rate に近いはず（モデルBの設定）．しかし… In-distribution（左4bin）においてはエントロピーが低い．つまり⾃信を持って正解
している • 何かしらの根拠に基づいている︖︖ ⾮Transformerベースのモデルより Transformerベースのモデルの⽅が並び替え事例に⾃信を持って予測している • Overthinking問題に起因︖ 各データセット（横軸）における平均エントロピー（縦軸）を調べた

ではどのような並び替えにより正解しているのか︖ 19 可能性①単語同⼠の相対的な語順︖ 今までは完全ランダムに並び替えてきたので，ローカルな単語間の関係性はほぼ保持されていないローカルな語順を保持することが重要︖ 可能性②近傍の単語のPOS Tagの分布︖（可能性①より抽象的）個々の単語や形態素は、どの単語と結合できるかを⽰す構⽂的特徴を持つ
• Kim bought cheese • Lee bought Logan cheese NLIモデルはPOS Tagsのような単語に関連づけられた情報から元の⽂を再構築している︖ 上記２項⽬とPermutation Acceptanceの⾼さとの相関を調べる

①単語同⼠の相対的な語順 20 ある程度相関はあるが，overlapがほぼない事例（BLEU-2 0〜0.15）でも想定より正解率が⾼い Ø つまりローカルな語順を保持するだけではPermutation Acceptance
Scoresの⾼さを⼗分に説明できない bigramの単語のoverlapが⼤きく並び替え前と後のbigramの単語のoverlapと正しいと判定される並び替え事例の割合を⽐較

②近傍のPos Tagの分布 21 • 並び替えの前後でPOS Tagの分布のoverlapが⼤きいほど正解率が増加 Ø 抽象的な構⽂情報は扱える
学習事例とある事例𝑆& 内のtop-𝑘 Pos Tagの分布の類似度を表すmini-tree overlap score 𝛽{9#} ; を考える（単語ごとに近傍のPos Tagの分布を求め，overlap scoreを計算し，⽂内の単語のスコアの平均値をとる） • Mini Tree Ratio < {% &#} ( <{&#} ( が⼤きいほど並び替え前後のPOS Tagの分布が近いと考えて良い⾮Transformerベース Transformerベース • ほとんど関係ない（むしろ悪化） • 推論時にPOS neighbor relationsのようなローカルな抽象的構⽂構造が保持されていないことを⽰唆詳細は割愛

アノテーションの専⾨家でも並び替え事例は解くのが難しい 22 対象は，RoBERTaが正解ラベルを予測した並び替え後の事例200件 • うち100件は並び替え前に正解した事例で，100件は不正解だった事例結果，RoBERTaよりずっと低い値を⽰した RoBERTa 1.000 ⼈間に解けない事例を解いている．
⼈間は語順にsensitive．今回検証したモデルはinsensitive．

単語を並び替えた⽂にsensitiveになるためのシンプルな最⼤エントロピーベースの⼿法を提案

考えられるシンプルな対応策 24 理想はランダムに語順を並び替えた⾮⽂法的な⽂は扱えないモデル今回の分析でわかったこと︓並び替え後の⽂はエントロピーが低い Fine-tuning時に並⾏して𝑛個のランダムな並び替え事例に対してエントロピー最⼤化を⾏う

エントロピー最⼤化による効果 25 ≒ > シンプルながら⼤変効果的 • ⽂法的な⽂への性能は維持しつつ⾮⽂法的な⽂への性能を⼤きく下げた 𝜴𝒎𝒂𝒙 は0には近付かないので，改善の余地はある V:
Vanilla ME: Maximum Entropy 並び替え前並び替え後

まとめ 26 NLIモデルは元の構⽂を壊すような単語の並び替えにinsensitive．ラベルは反転することもあるある程度の構⽂情報は捉えているように⾒えるが，さらなる検証が必要⼈間はUNLIが解けないのにモデルは解けてしまっていることからも，現在のモデルは⼈間らしい⾔語理解はできていないと⾔える「ベンチマークタスクで最先端の数値を追うだけでなく、⼈間の⾔語の詳細（どのように学習・処理され、変化するのか）を考慮すべき [Manning
2015]」という主張に⼀つのアンサー「破損した⼊⼒に対して過度に⼀般化しないようにすることが重要」モデルが語順を捉える能⼒について従来より⼀歩踏み込んだ議論 • 細かい分析 & 具体的な対応策「何ができていないか」ではなく「何ができてしまっているのか」に着⽬

UnNatural Language Inference

UnNatural Language Inference

Ayana Niwa

More Decks by Ayana Niwa

Other Decks in Research

Featured

Transcript

UnNatural Language Inference Koustuv Sinha, Prasanna Parthasarathi, Joelle Pineau, Adina

どんな論⽂︖ 2 • 「最近の⾼性能なモデルはある程度構⽂を理解している」という主張に対する検証論⽂ • 構⽂を理解している ⟹ 語順にsensitiveである •

Transformerベースのモデル×構⽂知識 3 [Wu et al., 2020] [John Hewitt et al.,

本研究のアイディア 4 モデルが構⽂を理解しているなら語順にsensitiveなはず • 語順は⽂の意味を理解する上で重要なファクター語順に対するsensitivityを⾃然⾔語推論タスク (NLI)で調査 • 前提⽂ (Premise)

今回取り組むタスク 5 モデルの語順に対するsensitivityを調べるため，NLIタスクの⼊⼒⽂の単語をランダムに並び替えたUNLI (UnNatural Language Inference) タスクでモデルの挙動を調べる正しい語順 (NLI)

想定されるモデルの挙動３パターン 6 モデル A 並び替え⽂ neutral neutral neutral 並び替えられた⽂は意味をなさない Ø

想定されるモデルの挙動３パターン 7 モデル A 並び替え⽂ neutral neutral neutral 並び替えられた⽂は意味をなさない Ø

本研究の３つの貢献 8 ① 語順に対するsensitivityを測る指標 Permutation Acceptanceを提案 ② 実験により，NLIモデルの語順に対する sensitivityを明らかにする ③

Permutation Acceptance 事例(𝒑𝒊, 𝒉𝒊) に対して: q個の並び替えにモデルMが正しいラベル𝑦! を割り当てる確率Pr(&) (sat The on

Permutation Acceptance 10 ΩB = 1 𝓓 / (1!,7!)∈𝓓 ((Pr

Permutation Acceptanceの具体的な挙動 11 6つの事例 1事例につき 6つの並び替えモデルが正解してしまった並び替え事例閾値xを超え，指標の計算に⽤いられたもの

ラベルの反転に関する評価 12 クラシックなBoWモデルでは語順は関係ないので𝒫$ = 1.00, 𝒫% = 0.00 並び

本研究の３つの貢献 13 ① 語順に対するsensitivityを測る指標 Permutation Acceptanceを提案 ② 実験により，NLIモデルの語順に対する sensitivityを明らかにする ③

実験設定 14 モデル 1. Transformerベースのモデル • RoBERTa-Large, BART-Large, DistilBERT 2.

Permutedデータセットの構築 15 (𝑝& , ℎ& , 𝑦& ) ∈ 𝒟./0.

Out-of-distributionに対する結果 17 特に並び替え前→後の性能向上の差分が⼤きい • 並び替えによって解けるようになるケースが⾒られた < < < BoW 1.000

①単語同⼠の相対的な語順 20 ある程度相関はあるが，overlapがほぼない事例（BLEU-2 0〜0.15）でも想定より正解率が⾼い Ø つまりローカルな語順を保持するだけではPermutation Acceptance

②近傍のPos Tagの分布 21 • 並び替えの前後でPOS Tagの分布のoverlapが⼤きいほど正解率が増加 Ø 抽象的な構⽂情報は扱える

本研究の３つの貢献 23 ① 語順に対するsensitivityを測る指標 Permutation Acceptanceを提案 ② 実験により，NLIモデルの語順に対する sensitivityを明らかにする ③

エントロピー最⼤化による効果 25 ≒ > シンプルながら⼤変効果的 • ⽂法的な⽂への性能は維持しつつ⾮⽂法的な⽂への性能を⼤きく下げた 𝜴𝒎𝒂𝒙 は0には近付かないので，改善の余地はある V: