Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Beyond Accuracy: Behavioral Testing of NLP Models with CheckList

Obi
August 17, 2020

Beyond Accuracy: Behavioral Testing of NLP Models with CheckList

nlpaper.challenge LT on 8/17

Obi

August 17, 2020
Tweet

Other Decks in Technology

Transcript

  1. Beyond Accuracy: Behavioral Testing of NLP Models with CHECKLIST Marco

    Tulio Ribeiro1, Tongshuang Wu2, Carlos Guestrin2, Sameer Singh3 1Microsoft Research, 2University of Washington, 3University of California, Irvine ⼤⽇⽅ 孝輝 (Koki Obinata) 1
  2. ACL 2020 テーマ(ACL 2020 Calls より) Taking Stock of Where

    Weʼve Been and Where Weʼre Going (⾃然⾔語処理界隈の)これまでの歩みとこれからの⾏く末を把握する 重視されていた視点 • Reflect on the progress of the field or a sub-topic area from a larger spectrum and make connections and/or comparisons between the past and the present to provide a holistic view on where we stand today with respect to the past; • Examine, analyze, and interpret SOTA models and results to shed light on limitations as well as key advances that may have lasting impact; • Bring novel ideas for advancing the field, e.g., to enable and measure a machineʼs ability in language processing beyond laboratory benchmarks; 3
  3. ACL 2020 テーマ(ACL 2020 Calls より) Taking Stock of Where

    Weʼve Been and Where Weʼre Going (⾃然⾔語処理界隈の)これまでの歩みとこれからの⾏く末を把握する 重視されていた視点(ざっくり訳すと) • 過去と⽐較し、昨今の⾃然⾔語処理がどこまで成⻑したかを概観してまとめた論⽂ • SOTAのモデルや結果を検証、分析、解釈し、今後影響を与える限界点や鍵となる成⻑を指摘した論⽂ • ベンチマーク以外の評価⽅法など、分野に発展をもたらすような論⽂ 発表論⽂は下2つの項⽬に合致 4
  4. 問題背景 ⾃然⾔語処理モデルの評価 → ホールドアウトデータでの精度 • SOTAモデルのリーダーボード例 : Browse State-of-the-Art リーダーボード評価の懸念点

    • 訓練データと同様のバイアスが存在しうる • SQuAD1.1:解答可能な質問しか存在しない → SQuAD2.0 • Accuracy等の統計量からは、特定パターンにおける失敗の検出が難しい • 誤字脱字、否定表現など 6
  5. 問題背景 統計量以外の評価指標の提案 • ノイズへの頑健性 • 敵対的な変化 • 公平性 ⁝ これらの内容を体系的に検証する枠組み

    CHECKLIST の提案 • モデルの内部構造には踏み込まないため、あらゆるモデルに適⽤可能 • ソフトウェア開発のBehavioral Testing (Black-box Testing)に着想を得ている 7
  6. 1. 必要な⾔語能⼒ (Capabilities) タスクに必要な⾔語能⼒を特定する • 語彙と品詞 • 同義語、対義語 • 頑健性

    • 固有表現 • 否定表現 ⁝ これらの⾔語能⼒は、多くのタスクに共通で必要となる能⼒ 9
  7. 2. テストタイプ (Test Types) • 最⼩機能テスト (Minimum Functionality test, MFT)

    • 不変性テスト (Invariance test, INV) • 単⽅向期待テスト (Directional Expectation test, DIR) 10
  8. 2-1. 最⼩機能テスト(Minimum Functionality test) ユニットテストに着想を得たテストであり、最低限通過して欲しいテストケース を作成しテスト 例:感情分析 • 「否定表現の理解」を「最⼩機能テスト」タイプでテスト •

    “I {NEGATION} {POS_VERB} the {THING}.” というテンプレートに対して、以下のような 単語集合の全組合せをテスト • {NEGATION} = {didn’t, can’t say I, ...} • {POS_VERB} = {love, like, ...} • {THING} = {food, flight, service, ...} 11
  9. 検証 • 感情分析 (Sentiment Analysis) • Microsoft Text Analytics(サービスページ) •

    Google Cloudʼs Natural Language(サービスページ) • Amazon Comprehend(サービスページ) • BERT-base (Devlin et al., 2018) finetuned on SST-2 • RoBERTa-base (Liu et al., 2019) finetuned on SST-2 • 重複検知 (Duplicate Question Detection) • BERT-base finetuned on QQP dataset • RoBERTa-base finetuned on QQP dataset • 機械読解 (Machine Comprehension, SQuAD) • BERT-base finetuned on SQuAD 14
  10. 結果 • 3つのタスクを通して、どのモデルについても多くの⽋点が発⾒された • 統計量に集約しないテストなので、表の⼀覧を吟味する必要あり • 特に顕著だった⽋点 • 時系列の正しい把握 •

    否定表現 • 主語 / 述語, 能動態 / 受動態, ⽐較級のような⽂法的内容の理解 • 感情分析タスクにおいては、商業⽤モデルよりもBERT, RoBERTaの⽅が 全体的にテスト通過率が良い(少し意外) • 公平性に関する最⼩機能テストに対して、商業⽤モデルは100%中⽴と予測 16
  11. 補⾜事項(注:主観的解釈あり) Q. これまでのベンチマークデータセットとの関係性は? A. 相補的な⽴ち位置、と書かれております。CHECKLISTで洗い出された⽋点を もとに、対処すべき⾔語能⼒を特定し、学習データを追加するのが実⽤的な流れ になるかと思います。 Q. 感情分析以外の分類タスクでもこの枠組みは適⽤可能? A.

    論⽂内では多くのタスクに適⽤可能と記述されていますが、難しい点も多いと 思います。例えば、トピック分類の場合、固有表現⾃体に意味があることも多い ため、適切に単語置換する必要があると思います。また、多クラス分類の場合は 否定表現の分類先を決めるのは難しいことも多いと思います。 17
  12. データセット作成 CHECKLISTの枠組みで、タスクに必要な⾔語能⼒を3つの観点からテストする ことの有⽤性は確認出来た では、それぞれのテストケースはどうやって作成する? • ⼈⼿でゼロから作成 ▲ クオリティが⾼い ▼ 多様なテストケースを作成するには想像⼒が必要(Coverageが落ちる原因)

    ▼ 多くのテストケースを作成するにはコストがかかる • 摂動を与える関数から作成 ▲ 多くのテストケースを作成できる ▼ 関数の設計が難しい → ツールによるサポートで解決(Githubで公開) 19
  13. ツール機能① ⼀般化によるテンプレート作成 • テストケースや摂動の与え⽅は⼤抵⼀般化することが出来る • “I didn’t love the food”

    →【⼀般化】 ”I {NEGATION} {POS_VERB} the {THING}.“ • 変数化した箇所について、それぞれの表現の全組合せをテスト • {NEGATION} = {didn’t, can’t say I, ...} • {POS_VERB} = {love, like, ...} • {THING} = {food, flight, service, ...} 20
  14. ツール機能② テンプレート内の表現の拡張 • 変数化した箇所の表現を考えるにあたって、発想⼒が必要となる • ⾃⼒で肯定的な表現をどれだけ思いつけるか… • Masked Language Modelのmask予測を活⽤

    • “I really {mask} the flight.” の {mask} の 部分について、RoBERTaのmask予測で候補を提⽰ • WordNet内の同義語と、⾔語モデルの予測を もとにして⽂脈における適切な同義語を抽出 • ⼈名、地名、公平性に関わる表現等は 著者らが準備 21
  15. ツールのユーザー評価② モデルのテスト経験が無いユーザーを対象に調査 • 3つのコントロールグループで⽐較 i. 何も枠組み・ツールについて教えないグループ ii. テストすると良い⾔語能⼒のみ知らせるグループ iii. テストすると良い⾔語能⼒とテンプレートを与えるグループ

    • QQPタスクのMFTテストタイプに絞り、2hで検証 • 結果 • 枠組みについて教えることで、より多くの⾔語能⼒を思いついた(Group ii., iii. vs Group i.) • データ作成テンプレートを与えることで、多くのテストケースを作成出来た(Group iii. vs Group i., ii.) 23
  16. まとめ • ベンチマークでの精度とは別の観点でモデルの⽋点を洗い出すCHECKLIST という枠組みを提案 • タスクを解く上で必要な「⾔語能⼒」と、その能⼒をテストする3つのテストタイプという観点で テストを作成することで、モデルの⽋点を洗い出す • モデルの内部構造には触れないため、あらゆる⾔語モデルに適⽤可能 •

    ⾔語能⼒には幅広く共通して必要な能⼒もあるため、幅広いタスクへの適⽤が期待 • 商⽤モデルや⼈間と同等の精度と⾔われているモデルについても、様々な⽋点を発⾒ • CHECKLISTを実施する補助ツールの開発、Githubで公開 • テストを既に実施している商⽤モデル開発者にとっても利点あり • テスト未経験者のユーザーも簡単に習得し、使⽤可能 24
  17. プロフィール ⼤⽇⽅ 孝輝(Koki Obinata) @not_oohikata • 東京⼤学⼤学院 理学系研究科物理学専攻 D1 岡⽥真⼈研究室

    • 物質、材料系に関連した機械学習 • ベイズ推論 • カラクリ株式会社 Development Group • ⾃然⾔語処理、情報検索関連の研究、開発 • 最近は特に検索エンジンの仕組み、運⽤に興味があります • 趣味 • VOCALOID, VTuber, Vim 25