Slide 1

Slide 1 text

UnNatural Language Inference Koustuv Sinha, Prasanna Parthasarathi, Joelle Pineau, Adina Williams ACL 2021: Outstanding papers 読む⼈︓丹⽻彩奈 (東⼯⼤ 岡崎研) 2021-9-17 第13回最先端NLP勉強会 スライド中の図表・数式は,特に注釈のないかぎり本論⽂からの引⽤です ⼀部Notationを変更しています

Slide 2

Slide 2 text

どんな論⽂︖ 2 • 「最近の⾼性能なモデルはある程度構⽂を理解している」という主 張に対する検証論⽂ • 構⽂を理解している ⟹ 語順にsensitiveである • ⼈間にとっては … 語順は重要.⾔語は単なるBoWではない • モデルにとっては … ︖︖︖ • 語順に対するモデルのsensitivityを評価する指標を提案し,複数のモ デルや⾔語,ドメインに適⽤.モデルが語順をどのように捉えてい るのか調査 正しい語順 並び替え後 ︖︖︖ NLIタスク 出⼒は どう変わる︖

Slide 3

Slide 3 text

Transformerベースのモデル×構⽂知識 3 [Wu et al., 2020] [John Hewitt et al., 2019] Transformerベースのモデルはある程度構⽂を獲得できている︖ • 内部表現から構⽂チックな特徴が読み取れる • 同様の議論はTransformerだけではなくRNN , CNNでも⾏われてきた しかし実際に構⽂を理解できているかは疑問 • ⼀般的に⾔語現象によって性能にムラがある • Transformerモデルの含意認識はヒューリスティックなルールに依存 • The 𝑁! 𝑃 the 𝑁" 𝑉. ↛ The 𝑁" 𝑉. • The lawyer by the actor ran. ↛ The actor ran. • ⽂法的に正しいか否かを判定するタスクでの性能は⼈間に遠く及ばない [Tom McCoy et al., 2019] [Warstadt et al., 2019b]

Slide 4

Slide 4 text

本研究のアイディア 4 モデルが構⽂を理解しているなら語順にsensitiveなはず • 語順は⽂の意味を理解する上で重要なファクター 語順に対するsensitivityを⾃然⾔語推論タスク (NLI)で調査 • 前提⽂ (Premise) が仮説⽂ (Hypothesis) を含意するか/否か/ニュートラルか を判定 前提⽂(Premise) 仮説⽂(Hypothesis) 含意関係 ⽝が庭に⽳を掘る。 ⽝は昼寝をしています contradict ⽝は外で掘っている entailment ⽝は⾻を隠そうとしている neutral ⽇本語SNLI(JSNLI)データセットの例 ⽝が⾍を追いかける ⾍が⽝を追いかける 前提⽂や仮説⽂の語順を⼊れ替えたらどうなるだろうか︖

Slide 5

Slide 5 text

今回取り組むタスク 5 モデルの語順に対するsensitivityを調べるため,NLIタスクの⼊ ⼒⽂の単語をランダムに並び替えたUNLI (UnNatural Language Inference) タスクでモデルの挙動を調べる 正しい語順 (NLI) 並び替え後 (UNLI) ︖︖︖ 出⼒は どう変わる︖

Slide 6

Slide 6 text

想定されるモデルの挙動3パターン 6 モデル A 並び替え⽂ neutral neutral neutral 並び替えられた⽂は意味をなさない Ø 全てのラベルにneutralを振る モデル B contradict ?? entailment ?? contradict ?? 理解しようとするが難しい Ø 全てのラベルにほぼ同じ確率を振る モデル C contradict entailment contradict 語順を⼀切⾒ない(=BoW) Ø 並び替え前の事例と同じラベルを振る

Slide 7

Slide 7 text

想定されるモデルの挙動3パターン 7 モデル A 並び替え⽂ neutral neutral neutral 並び替えられた⽂は意味をなさない Ø 全てのラベルにneutralを振る モデル B contradict ?? entailment ?? contradict ?? 理解しようとするが難しい Ø 全てのラベルにほぼ同じ確率を振る モデル C contradict entailment contradict 語順を⼀切⾒ない(=BoW) Ø 並び替え前の事例と同じラベルを振る 実際のところ,並び替え事例に対する挙動は A,B,Cどれにも当てはまらなかった 強いて⾔えばCに最も近いが, 並び替え前の性能を超えることすらある では並び替え事例に正解してしまう要因となる ⾔語的特徴は︖…などを調べる論⽂

Slide 8

Slide 8 text

本研究の3つの貢献 8 ① 語順に対するsensitivityを測る指標 Permutation Acceptanceを提案 ② 実験により,NLIモデルの語順に対する sensitivityを明らかにする ③ 単語を並び替えた⽂sensitiveになるための シンプルな最⼤エントロピーベースの⼿法を提案

Slide 9

Slide 9 text

Permutation Acceptance 事例(𝒑𝒊, 𝒉𝒊) に対して: q個の並び替えにモデルMが正しいラベル𝑦! を割り当てる確率Pr(&) (sat The on cat mat the, The was cat fat) (mat the on The sat cat, fat The cat was) (cat mat the The sat on, cat was fat The) 𝑞 = 3の場合 Pr( ( 𝑃+, * 𝐻+),-.= 1 𝑞 / ( 0 1!"∈ 3 4!,6 7!"∈6 8!) ((𝑀 ̂ 𝑝+:, ( ℎ+: = 𝑦+) → 1) M 𝑗 ∈ [1, 𝑞] neutral entailment neutral Pr & = 2 3 出⼒ ラベル 9 モデルM neutral (The cat sat on the mat, The cat was fat) 仮説⽂𝒉𝒊 前提⽂𝒑𝒊 モデルM

Slide 10

Slide 10 text

Permutation Acceptance 10 ΩB = 1 𝓓 / (1!,7!)∈𝓓 ((Pr ( 𝑃+, * 𝐻+ ,-. > 𝑥) → 1) M 𝑥 : 事前に設定した閾値 (0 < 𝑥 < 1) 全事例𝓓に対して(=モデルの評価値): • 並び替え後の事例のPr(&)が𝑥を超えた事例の割合Ω" 実験で使う2設定 Ω#$% Maximum Accuracy 少なくとも⼀つの並び替え事例に 正解ラベルを振った割合 Ω&$'( Random Baseline Accuracy クラス数𝑚のbalanced-分類のとき (今回は3値なので𝑥 =0.333…)

Slide 11

Slide 11 text

Permutation Acceptanceの具体的な挙動 11 6つの 事例 1事例につき 6つの並び替え モデルが正解してしまった並び替え事例 閾値xを超え,指標の 計算に⽤いられたもの 6事例中3事例が正解

Slide 12

Slide 12 text

ラベルの反転に関する評価 12 クラシックなBoWモデルでは語順は関係ないので𝒫$ = 1.00, 𝒫% = 0.00 並 び 替 え 前 不正解 正解 正解 不正解 並び替え後 𝐷%: 該当する事例リスト 𝒫% = 1 |𝐷%| K &'( |*!| 𝑀( 3 𝑃& , 6 𝐻& )+,- さらに細かく挙動を調べるため,並び替え前に不正解だった事例 にもかかわらず並び替え後に正解した事例の割合の平均も調べる 𝐷$: 該当する事例リスト 𝒫$ = 1 |𝐷$| K &'( |*"| 𝑀( 3 𝑃& , 6 𝐻& )+,-

Slide 13

Slide 13 text

本研究の3つの貢献 13 ① 語順に対するsensitivityを測る指標 Permutation Acceptanceを提案 ② 実験により,NLIモデルの語順に対する sensitivityを明らかにする ③ 単語を並び替えた⽂sensitiveになるための シンプルな最⼤エントロピーベースの⼿法を提案

Slide 14

Slide 14 text

実験設定 14 モデル 1. Transformerベースのモデル • RoBERTa-Large, BART-Large, DistilBERT 2. ⾮Transformerベースのモデル • InferSent, Bi-LSTM, ConvNet データセット 学習時: MNLI 評価時: [in-distribution] SNLI, MNLI [out-of-distribution] Adversarial NLI (ANLI) • ⽂の⻑さやドメインが異なる3通りのデータ (A1, A2, A3)を含む 並び替えプロセス 1事例につき𝑞 =100個の並び替え事例をサンプリング 6トークン以下の事例は除外

Slide 15

Slide 15 text

Permutedデータセットの構築 15 (𝑝& , ℎ& , 𝑦& ) ∈ 𝒟./0. 3 𝑃& , 6 𝐻& ∈ 6 𝒟./0. 並べ替え 𝓕 • ⼀事例につきq個の並び替え(q: ハイパラ) • 全ての単語を並べ替える • 同じ位置に並べ替えることはない 6 𝒟./0. = 𝒟./0. ×𝑞 学習データ 𝒟.-123 モデル テストデータ 𝒟.456 テストデータ 6 𝒟./0. そのまま⽤いる 並べ替え ℱ

Slide 16

Slide 16 text

In-distributionに対する結果 16 モデルは多くの並び替え事例に対しても正解してしまう • ほぼ全ての事例(MNLI_m_devだと98.7%)に対して,少なくとも1 つの並び替え事例に正解ラベルを振ってしまっている ⼈が解いた場合は約92% 並び替え前 並び替え後 In distribution Out-of distribution

Slide 17

Slide 17 text

Out-of-distributionに対する結果 17 特に並び替え前→後の性能向上の差分が⼤きい • 並び替えによって解けるようになるケースが⾒られた < < < BoW 1.000 0.000 全てのデータセットで𝓟𝒇 ≪ 𝓟𝒄 • [復習] 𝓟𝒇: ラベルが反転している並び替え事例の割合 • BoW-likeな振る舞い︖ 並び替え前 並び替え後 In distribution Out-of distribution

Slide 18

Slide 18 text

ただ,当てずっぽうに 予測しているわけではなさそう 18 Transformerベースのモデル ⾮Transformerベースのモデル 当てずっぽうなら予測確率はchances rate に近いはず(モデルBの設定).しかし… In-distribution(左4bin)においてはエント ロピーが低い.つまり⾃信を持って正解 している • 何かしらの根拠に基づいている︖︖ ⾮Transformerベースのモデルより Transformerベースのモデルの⽅が並び替 え事例に⾃信を持って予測している • Overthinking問題に起因︖ 各データセット(横軸)における平均 エントロピー(縦軸)を調べた

Slide 19

Slide 19 text

ではどのような並び替えにより 正解しているのか︖ 19 可能性①単語同⼠の相対的な語順︖ 今までは完全ランダムに並び替えてきたので,ローカルな単語間の関係性は ほぼ保持されていない ローカルな語順を保持することが重要︖ 可能性②近傍の単語のPOS Tagの分布︖(可能性①より抽象的) 個々の単語や形態素は、どの単語と結合できるかを⽰す構⽂的特徴を持つ • Kim bought cheese • Lee bought Logan cheese NLIモデルはPOS Tagsのような単語に関連づけられた情報から元の⽂を再構築 している︖ 上記2項⽬とPermutation Acceptanceの⾼さとの相関を調べる

Slide 20

Slide 20 text

①単語同⼠の相対的な語順 20 ある程度相関はあるが,overlapが ほぼない事例(BLEU-2 0〜0.15)で も想定より正解率が⾼い Ø つまりローカルな語順を保持す るだけではPermutation Acceptance Scoresの⾼さを⼗分 に説明できない bigramの単語のoverlapが⼤きく 並び替え前と後のbigramの単語のoverlapと 正しいと判定される並び替え事例の割合を⽐較

Slide 21

Slide 21 text

②近傍のPos Tagの分布 21 • 並び替えの前後でPOS Tagの 分布のoverlapが⼤きいほど 正解率が増加 Ø 抽象的な構⽂情報は扱える 学習事例とある事例𝑆& 内のtop-𝑘 Pos Tagの分布の類似度を表すmini-tree overlap score 𝛽{9#} ; を考える(単語ごとに近傍のPos Tagの分布を求め,overlap scoreを計算し,⽂内 の単語のスコアの平均値をとる) • Mini Tree Ratio < {% &#} ( <{&#} ( が⼤きいほど並び替え前後のPOS Tagの分布が近いと考えて良い ⾮Transformerベース Transformerベース • ほとんど関係ない(むしろ 悪化) • 推論時にPOS neighbor relationsのようなローカルな 抽象的構⽂構造が保持され ていないことを⽰唆 詳細は割愛

Slide 22

Slide 22 text

アノテーションの専⾨家でも 並び替え事例は解くのが難しい 22 対象は,RoBERTaが正解ラベルを予測した並び替え後の事例200件 • うち100件は並び替え前に正解した事例で,100件は不正解だった事例 結果,RoBERTaよりずっと低い値を⽰した RoBERTa 1.000 ⼈間に解けない事例を解いている. ⼈間は語順にsensitive.今回検証したモデルはinsensitive.

Slide 23

Slide 23 text

本研究の3つの貢献 23 ① 語順に対するsensitivityを測る指標 Permutation Acceptanceを提案 ② 実験により,NLIモデルの語順に対する sensitivityを明らかにする ③ 単語を並び替えた⽂にsensitiveになるための シンプルな最⼤エントロピーベースの⼿法を提案

Slide 24

Slide 24 text

考えられるシンプルな対応策 24 理想はランダムに語順を並び替えた⾮⽂法的な⽂は扱えないモデル 今回の分析でわかったこと︓並び替え後の⽂はエントロピーが低い Fine-tuning時に並⾏して𝑛個のランダムな並び替え事例に対 してエントロピー最⼤化を⾏う

Slide 25

Slide 25 text

エントロピー最⼤化による効果 25 ≒ > シンプルながら⼤変効果的 • ⽂法的な⽂への性能は維持しつつ⾮⽂法的な⽂への性能を⼤きく下げた 𝜴𝒎𝒂𝒙 は0には近付かないので,改善の余地はある V: Vanilla ME: Maximum Entropy 並び替え前 並び替え後

Slide 26

Slide 26 text

まとめ 26 NLIモデルは元の構⽂を壊すような単語の並び替えにinsensitive.ラベル は反転することもある ある程度の構⽂情報は捉えているように⾒えるが,さらなる検証が必要 ⼈間はUNLIが解けないのにモデルは解けてしまっていることからも,現 在のモデルは⼈間らしい⾔語理解はできていないと⾔える 「ベンチマークタスクで最先端の数値を追うだけでなく、⼈間の⾔語の 詳細(どのように学習・処理され、変化するのか)を考慮すべき [Manning 2015]」という主張に⼀つのアンサー「破損した⼊⼒に対して過度に⼀般 化しないようにすることが重要」 モデルが語順を捉える能⼒について従来より⼀歩踏み込んだ議論 • 細かい分析 & 具体的な対応策 「何ができていないか」ではなく「何ができてしまっているのか」に着⽬