Upgrade to Pro — share decks privately, control downloads, hide ads and more …

UnNatural Language Inference

Ayana Niwa
September 09, 2021

UnNatural Language Inference

2021-9-17 第13回最先端NLP勉強会 発表資料

Ayana Niwa

September 09, 2021
Tweet

More Decks by Ayana Niwa

Other Decks in Research

Transcript

  1. UnNatural Language Inference Koustuv Sinha, Prasanna Parthasarathi, Joelle Pineau, Adina

    Williams ACL 2021: Outstanding papers 読む⼈︓丹⽻彩奈 (東⼯⼤ 岡崎研) 2021-9-17 第13回最先端NLP勉強会 スライド中の図表・数式は,特に注釈のないかぎり本論⽂からの引⽤です ⼀部Notationを変更しています
  2. どんな論⽂︖ 2 • 「最近の⾼性能なモデルはある程度構⽂を理解している」という主 張に対する検証論⽂ • 構⽂を理解している ⟹ 語順にsensitiveである •

    ⼈間にとっては … 語順は重要.⾔語は単なるBoWではない • モデルにとっては … ︖︖︖ • 語順に対するモデルのsensitivityを評価する指標を提案し,複数のモ デルや⾔語,ドメインに適⽤.モデルが語順をどのように捉えてい るのか調査 正しい語順 並び替え後 ︖︖︖ NLIタスク 出⼒は どう変わる︖
  3. Transformerベースのモデル×構⽂知識 3 [Wu et al., 2020] [John Hewitt et al.,

    2019] Transformerベースのモデルはある程度構⽂を獲得できている︖ • 内部表現から構⽂チックな特徴が読み取れる • 同様の議論はTransformerだけではなくRNN , CNNでも⾏われてきた しかし実際に構⽂を理解できているかは疑問 • ⼀般的に⾔語現象によって性能にムラがある • Transformerモデルの含意認識はヒューリスティックなルールに依存 • The 𝑁! 𝑃 the 𝑁" 𝑉. ↛ The 𝑁" 𝑉. • The lawyer by the actor ran. ↛ The actor ran. • ⽂法的に正しいか否かを判定するタスクでの性能は⼈間に遠く及ばない [Tom McCoy et al., 2019] [Warstadt et al., 2019b]
  4. 本研究のアイディア 4 モデルが構⽂を理解しているなら語順にsensitiveなはず • 語順は⽂の意味を理解する上で重要なファクター 語順に対するsensitivityを⾃然⾔語推論タスク (NLI)で調査 • 前提⽂ (Premise)

    が仮説⽂ (Hypothesis) を含意するか/否か/ニュートラルか を判定 前提⽂(Premise) 仮説⽂(Hypothesis) 含意関係 ⽝が庭に⽳を掘る。 ⽝は昼寝をしています contradict ⽝は外で掘っている entailment ⽝は⾻を隠そうとしている neutral ⽇本語SNLI(JSNLI)データセットの例 ⽝が⾍を追いかける ⾍が⽝を追いかける 前提⽂や仮説⽂の語順を⼊れ替えたらどうなるだろうか︖
  5. 想定されるモデルの挙動3パターン 6 モデル A 並び替え⽂ neutral neutral neutral 並び替えられた⽂は意味をなさない Ø

    全てのラベルにneutralを振る モデル B contradict ?? entailment ?? contradict ?? 理解しようとするが難しい Ø 全てのラベルにほぼ同じ確率を振る モデル C contradict entailment contradict 語順を⼀切⾒ない(=BoW) Ø 並び替え前の事例と同じラベルを振る
  6. 想定されるモデルの挙動3パターン 7 モデル A 並び替え⽂ neutral neutral neutral 並び替えられた⽂は意味をなさない Ø

    全てのラベルにneutralを振る モデル B contradict ?? entailment ?? contradict ?? 理解しようとするが難しい Ø 全てのラベルにほぼ同じ確率を振る モデル C contradict entailment contradict 語順を⼀切⾒ない(=BoW) Ø 並び替え前の事例と同じラベルを振る 実際のところ,並び替え事例に対する挙動は A,B,Cどれにも当てはまらなかった 強いて⾔えばCに最も近いが, 並び替え前の性能を超えることすらある では並び替え事例に正解してしまう要因となる ⾔語的特徴は︖…などを調べる論⽂
  7. Permutation Acceptance 事例(𝒑𝒊, 𝒉𝒊) に対して: q個の並び替えにモデルMが正しいラベル𝑦! を割り当てる確率Pr(&) (sat The on

    cat mat the, The was cat fat) (mat the on The sat cat, fat The cat was) (cat mat the The sat on, cat was fat The) 𝑞 = 3の場合 Pr( ( 𝑃+, * 𝐻+),-.= 1 𝑞 / ( 0 1!"∈ 3 4!,6 7!"∈6 8!) ((𝑀 ̂ 𝑝+:, ( ℎ+: = 𝑦+) → 1) M 𝑗 ∈ [1, 𝑞] neutral entailment neutral Pr & = 2 3 出⼒ ラベル 9 モデルM neutral (The cat sat on the mat, The cat was fat) 仮説⽂𝒉𝒊 前提⽂𝒑𝒊 モデルM
  8. Permutation Acceptance 10 ΩB = 1 𝓓 / (1!,7!)∈𝓓 ((Pr

    ( 𝑃+, * 𝐻+ ,-. > 𝑥) → 1) M 𝑥 : 事前に設定した閾値 (0 < 𝑥 < 1) 全事例𝓓に対して(=モデルの評価値): • 並び替え後の事例のPr(&)が𝑥を超えた事例の割合Ω" 実験で使う2設定 Ω#$% Maximum Accuracy 少なくとも⼀つの並び替え事例に 正解ラベルを振った割合 Ω&$'( Random Baseline Accuracy クラス数𝑚のbalanced-分類のとき (今回は3値なので𝑥 =0.333…)
  9. ラベルの反転に関する評価 12 クラシックなBoWモデルでは語順は関係ないので𝒫$ = 1.00, 𝒫% = 0.00 並 び

    替 え 前 不正解 正解 正解 不正解 並び替え後 𝐷%: 該当する事例リスト 𝒫% = 1 |𝐷%| K &'( |*!| 𝑀( 3 𝑃& , 6 𝐻& )+,- さらに細かく挙動を調べるため,並び替え前に不正解だった事例 にもかかわらず並び替え後に正解した事例の割合の平均も調べる 𝐷$: 該当する事例リスト 𝒫$ = 1 |𝐷$| K &'( |*"| 𝑀( 3 𝑃& , 6 𝐻& )+,-
  10. 実験設定 14 モデル 1. Transformerベースのモデル • RoBERTa-Large, BART-Large, DistilBERT 2.

    ⾮Transformerベースのモデル • InferSent, Bi-LSTM, ConvNet データセット 学習時: MNLI 評価時: [in-distribution] SNLI, MNLI [out-of-distribution] Adversarial NLI (ANLI) • ⽂の⻑さやドメインが異なる3通りのデータ (A1, A2, A3)を含む 並び替えプロセス 1事例につき𝑞 =100個の並び替え事例をサンプリング 6トークン以下の事例は除外
  11. Permutedデータセットの構築 15 (𝑝& , ℎ& , 𝑦& ) ∈ 𝒟./0.

    3 𝑃& , 6 𝐻& ∈ 6 𝒟./0. 並べ替え 𝓕 • ⼀事例につきq個の並び替え(q: ハイパラ) • 全ての単語を並べ替える • 同じ位置に並べ替えることはない 6 𝒟./0. = 𝒟./0. ×𝑞 学習データ 𝒟.-123 モデル テストデータ 𝒟.456 テストデータ 6 𝒟./0. そのまま⽤いる 並べ替え ℱ
  12. Out-of-distributionに対する結果 17 特に並び替え前→後の性能向上の差分が⼤きい • 並び替えによって解けるようになるケースが⾒られた < < < BoW 1.000

    0.000 全てのデータセットで𝓟𝒇 ≪ 𝓟𝒄 • [復習] 𝓟𝒇: ラベルが反転している並び替え事例の割合 • BoW-likeな振る舞い︖ 並び替え前 並び替え後 In distribution Out-of distribution
  13. ただ,当てずっぽうに 予測しているわけではなさそう 18 Transformerベースのモデル ⾮Transformerベースのモデル 当てずっぽうなら予測確率はchances rate に近いはず(モデルBの設定).しかし… In-distribution(左4bin)においてはエント ロピーが低い.つまり⾃信を持って正解

    している • 何かしらの根拠に基づいている︖︖ ⾮Transformerベースのモデルより Transformerベースのモデルの⽅が並び替 え事例に⾃信を持って予測している • Overthinking問題に起因︖ 各データセット(横軸)における平均 エントロピー(縦軸)を調べた
  14. ①単語同⼠の相対的な語順 20 ある程度相関はあるが,overlapが ほぼない事例(BLEU-2 0〜0.15)で も想定より正解率が⾼い Ø つまりローカルな語順を保持す るだけではPermutation Acceptance

    Scoresの⾼さを⼗分 に説明できない bigramの単語のoverlapが⼤きく 並び替え前と後のbigramの単語のoverlapと 正しいと判定される並び替え事例の割合を⽐較
  15. ②近傍のPos Tagの分布 21 • 並び替えの前後でPOS Tagの 分布のoverlapが⼤きいほど 正解率が増加 Ø 抽象的な構⽂情報は扱える

    学習事例とある事例𝑆& 内のtop-𝑘 Pos Tagの分布の類似度を表すmini-tree overlap score 𝛽{9#} ; を考える(単語ごとに近傍のPos Tagの分布を求め,overlap scoreを計算し,⽂内 の単語のスコアの平均値をとる) • Mini Tree Ratio < {% &#} ( <{&#} ( が⼤きいほど並び替え前後のPOS Tagの分布が近いと考えて良い ⾮Transformerベース Transformerベース • ほとんど関係ない(むしろ 悪化) • 推論時にPOS neighbor relationsのようなローカルな 抽象的構⽂構造が保持され ていないことを⽰唆 詳細は割愛