Stress Test Evaluation for Natural Language Inference

7f4b04d4f609255390ad84a1b6bceac2?s=47 Ayumu
January 30, 2019

Stress Test Evaluation for Natural Language Inference

長岡技術科学大学
自然言語処理研究室 守谷歩
Stress Test Evaluation for Natural Language Inference 文献紹介

文献発表後に表現がおかしい、誤字があったので以下に示します。
p.13 誤「名前付きで実態を含まない文」
   正「固有名詞」
p.15 誤 ストレス精度の式
   正 " } "が抜けてました(literatureを参考に   してください)
p.23以降のページ番号が小さい
p.24 誤「制度が大幅に低下」
   正「精度が大幅に低下」

7f4b04d4f609255390ad84a1b6bceac2?s=128

Ayumu

January 30, 2019
Tweet

Transcript

  1. Stress Test Evaluation for Natural Language Inference 2019/01/30 長岡技術科学大学 自然言語処理研究室

    守谷歩 1
  2. Literature ⚫“Stress Test Evaluation for Natural Language Inference” ⚫Aakanksha Naik,

    Abhilasha Ravichander, Norman Sadeh, Carolyn Rose, Graham Neubig ⚫Proceedings of the 27th International Conference on Computational Linguistics, pages 2340–2353 Santa Fe, New Mexico, USA, August 20-26, 2018. 2
  3. Abstract ⚫自然言語推論(NLI)は言語理解のためのベンチマークタス クとして提案された。 ⚫既存のモデルはNLIの標準データセットでうまく機能してい るが、モデルの意味的理解の程度に関しては不明である。 ⚫システムの推論決定能力を確かめるため、自動生成され た「ストレステスト」による評価法を提案。 3

  4. 導入 NLI ⚫ベンチマークタスクとして提案されているCooperらのモデ ルでは、相互参照や定量化、語彙のあいまいさなどといっ た難しい言語情報を推論する必要がある。 ⚫Daganらの研究では、このベンチマークタスクのための データセットとモデルの開発に焦点を当てており、 SNLI(Stanford NLI)やMulti-genre NLIなどのデータセットで実

    装されている。 4
  5. 導入 機械学習型NLI ⚫ベンチマークデータセットの中でもNieandらのディープ ラーニングベースのセンテンスエンコーダモデルは高い精 度を達成している。 ⚫機械学習モデルは、データの特異性を利用してパターン マッチングなどの行動を模倣していることがLavesqueらに よってわかっている。 5

  6. 導入 問題点 ⚫NLIでは、テストセットに多くの簡単な例があり、言 語情報がどのくらい必要なのかについて、今までの 評価では公になっていない。 ⚫そのため、NLIベンチマークにおけるモデル性能は、 パターンマッチによる模倣の結果なのか、言語理解 に使えるだけの能力の持つかがわからない。 6

  7. 導入 ⚫そのため、Jia and Lingの研究による「ストレステスト」と いった、段落の最後に読解を紛らわせる文を追加し、評価 をする手法をNLIに適用させる。 7

  8. 導入 ストレステストの適用に当たって ストレステストをNLIに適用するにあたって以下の問題が出 る。 1. 作成された敵対的語は注釈がついていない 2. 敵対的語はシステムの性能を低下させる可能性がある 3. 推論ベースの前提と仮説のペアは通常1つの文から構

    成されるが、敵対的語を追加すると、この仮説が適用で きない。 8
  9. 導入 State of the art NLIの弱み検出 ⚫敵対的語を作成する前にシステムがどの言語情報を処す ることが難しいかどうかについて検討する。 ⚫そのため、MultiNLIでState of

    the art のセンテンスエン コーダモデルのエラー分析を行う。 ⚫分析によってジャンルが一致したセット100個と不一致下 セット100個の例をサンプリングし、原因を分析し、その理 由を分類する。 9
  10. ジャンル不一致の原因 1. 単語の重複 (29%) 2. 否定 (13%) 3. 反意語 (5%)

    4. 数値推論 (4%) 5. 長さの不一致 (3%) 6. 文法性 (3%) 7. 実社会の知識 (12%) 8. あいまいさ (6%) 9. その他 (26%) 10
  11. ストレステストセットの構成 ⚫Nie and Bansalによるとすべてのシステムに対してエラー 分析は有益だが行うことはスケーラブルでないとあった ⚫NLIモデルを「単語重複」、「否定」、「長さの不一致」、「反 意語」、「スペルミス」、「数値推論」の項目で自動的にテス トする大規模なストレステストを構築する 11

  12. ストレステスト構成 ⚫モデルの認識辛さについてストレステストを3クラスに分類 する。 1. コンピテンステスト 2. ディストラクションテスト 3. ノイズテスト 12

  13. コンピテンステスト(適任テスト) ⚫反意語:Leskアルゴリズム(1986)を用いて文中の各形容詞と名詞に対し て単語意味の曖昧性を解消する。その後、WordNetから単語の反意語を サンプリングする。仮説では、単語がこの反意語に置換されたものを使う。 ⚫数値推論:データセットであるAQuA-RAT(2017)より、最初に数値的な答え のない、または、3文以上の論理的根拠を持つ問題を発見する。その後、 すべての問題を個々の文に分割し、数字のない文を破棄すると約40000 文程度の集合となる。この集合から名前付きで実態を含まない文を破棄 する。これにより、2500個の前提の文章に対して次の3規則より矛盾する 仮説を生成する。

    1. 含意 2. 矛盾 3. ニュートラル 13
  14. 14

  15. ディストラクションテスト(注意散漫テスト) 命題論理:NLIにおける前提をp,仮説をhとすると含意関係は(p^True=p)より (p⇒h)⇒(p^True⇒h)となる。矛盾関係では(p≠h)⇒(p^True≠h)となる。中立関係 ではpとhはそのまま中立である。よって、NLIのストレステストの精度は以下の ように定義される。 = 1 || σ∈ 1{

    , ℎ, = この時aは関係を変えることなく前提、仮説に接続できる敵対トートロジーであ る。 このフレームワークにより「単語重複」,「否定」,「長さの不一致」に対してディス トラクションテスト(注意を散漫させるテスト)を行う。 15
  16. ディストラクションテスト ⚫単語重複: MultiNLIのセットのすべての例に対して”and true is true”といったトートロジーを仮説の最後に追加する。 ⚫否定: MultiNLIのセットのすべての例に対して”and false is

    not true”といったトートロジーを仮説の最後に追加する。 ⚫長さ不一致: MultiNLIのセットのすべての例に対して”and false is not true”といったトートロジーを前提の最後に追加 する。 16
  17. 17

  18. ノイズテスト スペルミスに対するモデルのロバスト性をテストする敵対的語のサ ンプルセットを構成する。 Turkersのnoisy source textは、MultiNLIデータに対してスペルミスを 多発させる。そのため、仮説からランダムにサンプリングされた単 語に対して2通りの文法性のストレステストを構築する 1. 隣接する文字をランダムに単語内で移動させる。例”I

    saw Tipper with him at teh movie” 2. 英字キーボードの隣にある文字に置き換える。例”Agencies have been further restricted and given less choice in selecting contractimg method” 18
  19. 19

  20. 結果 ストレステストでの評価 20

  21. コンピテンステストの評価 ⚫反意語:すべてのモデルが反意語に対して不十分な機能 性であるとの評価となった。RCはマッチセット(Mat)とミス マッチセット(Mis)の2つで最高のパフォーマンスとなった。こ の結果から、モデルが含意関係を予測しすぎる傾向がある ことが考えられる。 ⚫数値推論:すべてのモデルが数値推論でパフォーマンス が大幅に低下していた。また、いずれのモデルもランダム ベースライン精度(33%)を達成していない。これらはモデル が含意関係を予測しすぎていることが原因と考えられる。

    21
  22. ディストラクションテストの評価 ディストラクションテストは 1. 前提と仮定の語彙の類似性を減らす 2. 文のペアに強い否定の単語を入れる ことによってモデルのロバスト性をチェックする。 単語重複、長さ不一致:これらは手法としてトートロジー追 加によって語彙類似性低下がモデルのパフォーマンスに及 ぼす影響を確認している。

    22
  23. ディストラクションテスト ⚫否定:強い否定語を導入した結果、すべてのモデルに対 して各セットは平均25%程度の精度低下がみられる。 また、その特徴として、すべてのモデルにおいて、ニュート ラルの時にエラーが増加していることが確認された。 ⚫ディストラクションテストの結果として語彙類似性減少は、 否定の導入よりもモデルに強い影響を与えることが確認さ れた。 23

  24. ノイズテスト ノイズテストの結果からNB,ISはどちらも埋め込みに依存し ているため、制度が大幅に低下することが確認された。 他のモデルではパフォーマンスの低下がほとんどないため、 スペルミスに対するロバスト性が確認された。 24

  25. Conclusion ⚫様々な最先端のNLIモデルのエラーを分析し、NLIシステムを評価 するストレステストセットを構築した。 ⚫ストレステストの手法では、Jia and Liangの研究に対し、言語情報 についてのモデルのパフォーマンスを調べることができる。 25