Stress Test Evaluation for Natural Language Inference

Stress Test Evaluation for Natural Language Inference 2019/01/30 長岡技術科学大学自然言語処理研究室
守谷歩 1

Literature ⚫“Stress Test Evaluation for Natural Language Inference” ⚫Aakanksha Naik,
Abhilasha Ravichander, Norman Sadeh, Carolyn Rose, Graham Neubig ⚫Proceedings of the 27th International Conference on Computational Linguistics, pages 2340–2353 Santa Fe, New Mexico, USA, August 20-26, 2018. 2

Abstract ⚫自然言語推論(NLI)は言語理解のためのベンチマークタスクとして提案された。 ⚫既存のモデルはNLIの標準データセットでうまく機能しているが、モデルの意味的理解の程度に関しては不明である。 ⚫システムの推論決定能力を確かめるため、自動生成された「ストレステスト」による評価法を提案。 3

導入 NLI ⚫ベンチマークタスクとして提案されているCooperらのモデルでは、相互参照や定量化、語彙のあいまいさなどといった難しい言語情報を推論する必要がある。 ⚫Daganらの研究では、このベンチマークタスクのためのデータセットとモデルの開発に焦点を当てており、 SNLI(Stanford NLI)やMulti-genre NLIなどのデータセットで実
装されている。 4

導入機械学習型NLI ⚫ベンチマークデータセットの中でもNieandらのディープラーニングベースのセンテンスエンコーダモデルは高い精度を達成している。 ⚫機械学習モデルは、データの特異性を利用してパターンマッチングなどの行動を模倣していることがLavesqueらによってわかっている。 5

導入問題点 ⚫NLIでは、テストセットに多くの簡単な例があり、言語情報がどのくらい必要なのかについて、今までの評価では公になっていない。 ⚫そのため、NLIベンチマークにおけるモデル性能は、パターンマッチによる模倣の結果なのか、言語理解に使えるだけの能力の持つかがわからない。 6

導入 ⚫そのため、Jia and Lingの研究による「ストレステスト」といった、段落の最後に読解を紛らわせる文を追加し、評価をする手法をNLIに適用させる。 7

導入ストレステストの適用に当たってストレステストをNLIに適用するにあたって以下の問題が出る。 1. 作成された敵対的語は注釈がついていない 2. 敵対的語はシステムの性能を低下させる可能性がある 3. 推論ベースの前提と仮説のペアは通常1つの文から構
成されるが、敵対的語を追加すると、この仮説が適用できない。 8

導入 State of the art NLIの弱み検出 ⚫敵対的語を作成する前にシステムがどの言語情報を処することが難しいかどうかについて検討する。 ⚫そのため、MultiNLIでState of
the art のセンテンスエンコーダモデルのエラー分析を行う。 ⚫分析によってジャンルが一致したセット100個と不一致下セット100個の例をサンプリングし、原因を分析し、その理由を分類する。 9

ジャンル不一致の原因 1. 単語の重複 (29%) 2. 否定 (13%) 3. 反意語 (5%)
4. 数値推論 (4%) 5. 長さの不一致 (3%) 6. 文法性 (3%) 7. 実社会の知識 (12%) 8. あいまいさ (6%) 9. その他 (26%) 10

ストレステストセットの構成 ⚫Nie and Bansalによるとすべてのシステムに対してエラー分析は有益だが行うことはスケーラブルでないとあった ⚫NLIモデルを「単語重複」、「否定」、「長さの不一致」、「反意語」、「スペルミス」、「数値推論」の項目で自動的にテストする大規模なストレステストを構築する 11

ストレステスト構成 ⚫モデルの認識辛さについてストレステストを3クラスに分類する。 1. コンピテンステスト 2. ディストラクションテスト 3. ノイズテスト 12

コンピテンステスト（適任テスト） ⚫反意語：Leskアルゴリズム(1986)を用いて文中の各形容詞と名詞に対して単語意味の曖昧性を解消する。その後、WordNetから単語の反意語をサンプリングする。仮説では、単語がこの反意語に置換されたものを使う。 ⚫数値推論：データセットであるAQuA-RAT(2017)より、最初に数値的な答えのない、または、3文以上の論理的根拠を持つ問題を発見する。その後、すべての問題を個々の文に分割し、数字のない文を破棄すると約40000 文程度の集合となる。この集合から名前付きで実態を含まない文を破棄する。これにより、2500個の前提の文章に対して次の3規則より矛盾する仮説を生成する。
1. 含意 2. 矛盾 3. ニュートラル 13

ディストラクションテスト（注意散漫テスト）命題論理：NLIにおける前提をp,仮説をhとすると含意関係は(p^True=p)より (p⇒h)⇒(p^True⇒h)となる。矛盾関係では(p≠h)⇒(p^True≠h)となる。中立関係ではpとhはそのまま中立である。よって、NLIのストレステストの精度は以下のように定義される。 = 1 || σ∈ 1{
, ℎ, = この時aは関係を変えることなく前提、仮説に接続できる敵対トートロジーである。このフレームワークにより「単語重複」,「否定」,「長さの不一致」に対してディストラクションテスト（注意を散漫させるテスト）を行う。 15

ディストラクションテスト ⚫単語重複: MultiNLIのセットのすべての例に対して”and true is true”といったトートロジーを仮説の最後に追加する。 ⚫否定: MultiNLIのセットのすべての例に対して”and false is
not true”といったトートロジーを仮説の最後に追加する。 ⚫長さ不一致: MultiNLIのセットのすべての例に対して”and false is not true”といったトートロジーを前提の最後に追加する。 16

ノイズテストスペルミスに対するモデルのロバスト性をテストする敵対的語のサンプルセットを構成する。 Turkersのnoisy source textは、MultiNLIデータに対してスペルミスを多発させる。そのため、仮説からランダムにサンプリングされた単語に対して2通りの文法性のストレステストを構築する 1. 隣接する文字をランダムに単語内で移動させる。例”I
saw Tipper with him at teh movie” 2. 英字キーボードの隣にある文字に置き換える。例”Agencies have been further restricted and given less choice in selecting contractimg method” 18

結果ストレステストでの評価 20

コンピテンステストの評価 ⚫反意語：すべてのモデルが反意語に対して不十分な機能性であるとの評価となった。RCはマッチセット（Mat)とミスマッチセット(Mis)の2つで最高のパフォーマンスとなった。この結果から、モデルが含意関係を予測しすぎる傾向があることが考えられる。 ⚫数値推論：すべてのモデルが数値推論でパフォーマンスが大幅に低下していた。また、いずれのモデルもランダムベースライン精度(33%)を達成していない。これらはモデルが含意関係を予測しすぎていることが原因と考えられる。
21

ディストラクションテストの評価ディストラクションテストは 1. 前提と仮定の語彙の類似性を減らす 2. 文のペアに強い否定の単語を入れることによってモデルのロバスト性をチェックする。単語重複、長さ不一致：これらは手法としてトートロジー追加によって語彙類似性低下がモデルのパフォーマンスに及ぼす影響を確認している。
22

ディストラクションテスト ⚫否定：強い否定語を導入した結果、すべてのモデルに対して各セットは平均25%程度の精度低下がみられる。また、その特徴として、すべてのモデルにおいて、ニュートラルの時にエラーが増加していることが確認された。 ⚫ディストラクションテストの結果として語彙類似性減少は、否定の導入よりもモデルに強い影響を与えることが確認された。 23

ノイズテストノイズテストの結果からNB,ISはどちらも埋め込みに依存しているため、制度が大幅に低下することが確認された。他のモデルではパフォーマンスの低下がほとんどないため、スペルミスに対するロバスト性が確認された。 24

Conclusion ⚫様々な最先端のNLIモデルのエラーを分析し、NLIシステムを評価するストレステストセットを構築した。 ⚫ストレステストの手法では、Jia and Liangの研究に対し、言語情報についてのモデルのパフォーマンスを調べることができる。 25

Stress Test Evaluation for Natural Language Inf...

Stress Test Evaluation for Natural Language Inference

Ayumu

More Decks by Ayumu

Other Decks in Technology

Featured

Transcript