Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Stress Test Evaluation for Natural Language Inference

Ayumu
January 30, 2019

Stress Test Evaluation for Natural Language Inference

長岡技術科学大学
自然言語処理研究室 守谷歩
Stress Test Evaluation for Natural Language Inference 文献紹介

文献発表後に表現がおかしい、誤字があったので以下に示します。
p.13 誤「名前付きで実態を含まない文」
   正「固有名詞」
p.15 誤 ストレス精度の式
   正 " } "が抜けてました(literatureを参考に   してください)
p.23以降のページ番号が小さい
p.24 誤「制度が大幅に低下」
   正「精度が大幅に低下」

Ayumu

January 30, 2019
Tweet

More Decks by Ayumu

Other Decks in Technology

Transcript

  1. Literature ⚫“Stress Test Evaluation for Natural Language Inference” ⚫Aakanksha Naik,

    Abhilasha Ravichander, Norman Sadeh, Carolyn Rose, Graham Neubig ⚫Proceedings of the 27th International Conference on Computational Linguistics, pages 2340–2353 Santa Fe, New Mexico, USA, August 20-26, 2018. 2
  2. 導入 State of the art NLIの弱み検出 ⚫敵対的語を作成する前にシステムがどの言語情報を処す ることが難しいかどうかについて検討する。 ⚫そのため、MultiNLIでState of

    the art のセンテンスエン コーダモデルのエラー分析を行う。 ⚫分析によってジャンルが一致したセット100個と不一致下 セット100個の例をサンプリングし、原因を分析し、その理 由を分類する。 9
  3. ジャンル不一致の原因 1. 単語の重複 (29%) 2. 否定 (13%) 3. 反意語 (5%)

    4. 数値推論 (4%) 5. 長さの不一致 (3%) 6. 文法性 (3%) 7. 実社会の知識 (12%) 8. あいまいさ (6%) 9. その他 (26%) 10
  4. 14

  5. ディストラクションテスト(注意散漫テスト) 命題論理:NLIにおける前提をp,仮説をhとすると含意関係は(p^True=p)より (p⇒h)⇒(p^True⇒h)となる。矛盾関係では(p≠h)⇒(p^True≠h)となる。中立関係 ではpとhはそのまま中立である。よって、NLIのストレステストの精度は以下の ように定義される。 = 1 || σ∈ 1{

    , ℎ, = この時aは関係を変えることなく前提、仮説に接続できる敵対トートロジーであ る。 このフレームワークにより「単語重複」,「否定」,「長さの不一致」に対してディス トラクションテスト(注意を散漫させるテスト)を行う。 15
  6. ディストラクションテスト ⚫単語重複: MultiNLIのセットのすべての例に対して”and true is true”といったトートロジーを仮説の最後に追加する。 ⚫否定: MultiNLIのセットのすべての例に対して”and false is

    not true”といったトートロジーを仮説の最後に追加する。 ⚫長さ不一致: MultiNLIのセットのすべての例に対して”and false is not true”といったトートロジーを前提の最後に追加 する。 16
  7. 17

  8. 19