Beyond Accuracy: Behavioral Testing of NLP Models with CheckList

Beyond Accuracy: Behavioral Testing of NLP Models with CHECKLIST Marco
Tulio Ribeiro1, Tongshuang Wu2, Carlos Guestrin2, Sameer Singh3 1Microsoft Research, 2University of Washington, 3University of California, Irvine ⼤⽇⽅孝輝 (Koki Obinata) 1

論⽂概要（論⽂リンク） Ø ホールドアウトデータセットによる評価とは別の観点から、モデルの種々の⾔語能⼒を3つのテスト項⽬によりテストする枠組みを提案 • 商⽤モデルや⼈間と同等の精度と⾔われているモデルについても、様々な⽋点を発⾒ Ø テストケースの作成を⽀援するツールの提供 (Github で公開)
• ユーザー調査により、テスト実施経験者も初⼼者も恩恵を受けられることを確認 Ø ACL 2020のベストペーパー受賞 2

ACL 2020 テーマ（ACL 2020 Calls より） Taking Stock of Where
Weʼve Been and Where Weʼre Going (⾃然⾔語処理界隈の)これまでの歩みとこれからの⾏く末を把握する重視されていた視点 • Reflect on the progress of the field or a sub-topic area from a larger spectrum and make connections and/or comparisons between the past and the present to provide a holistic view on where we stand today with respect to the past; • Examine, analyze, and interpret SOTA models and results to shed light on limitations as well as key advances that may have lasting impact; • Bring novel ideas for advancing the field, e.g., to enable and measure a machineʼs ability in language processing beyond laboratory benchmarks; 3

ACL 2020 テーマ（ACL 2020 Calls より） Taking Stock of Where
Weʼve Been and Where Weʼre Going (⾃然⾔語処理界隈の)これまでの歩みとこれからの⾏く末を把握する重視されていた視点（ざっくり訳すと） • 過去と⽐較し、昨今の⾃然⾔語処理がどこまで成⻑したかを概観してまとめた論⽂ • SOTAのモデルや結果を検証、分析、解釈し、今後影響を与える限界点や鍵となる成⻑を指摘した論⽂ • ベンチマーク以外の評価⽅法など、分野に発展をもたらすような論⽂発表論⽂は下2つの項⽬に合致 4

CHECKLIST（テストの枠組み） 5

問題背景⾃然⾔語処理モデルの評価 → ホールドアウトデータでの精度 • SOTAモデルのリーダーボード例 : Browse State-of-the-Art リーダーボード評価の懸念点
• 訓練データと同様のバイアスが存在しうる • SQuAD1.1：解答可能な質問しか存在しない → SQuAD2.0 • Accuracy等の統計量からは、特定パターンにおける失敗の検出が難しい • 誤字脱字、否定表現など 6

問題背景統計量以外の評価指標の提案 • ノイズへの頑健性 • 敵対的な変化 • 公平性 ⁝ これらの内容を体系的に検証する枠組み
CHECKLIST の提案 • モデルの内部構造には踏み込まないため、あらゆるモデルに適⽤可能 • ソフトウェア開発のBehavioral Testing (Black-box Testing)に着想を得ている 7

CHECKLISTの枠組みタスクに必要な⾔語能⼒を3つのテストタイプをもとにテスト 8 テストタイプ⾔語能⼒ Figure 1: CHECKLIST

1. 必要な⾔語能⼒ (Capabilities) タスクに必要な⾔語能⼒を特定する • 語彙と品詞 • 同義語、対義語 • 頑健性
• 固有表現 • 否定表現 ⁝ これらの⾔語能⼒は、多くのタスクに共通で必要となる能⼒ 9

2. テストタイプ (Test Types) • 最⼩機能テスト (Minimum Functionality test, MFT)
• 不変性テスト (Invariance test, INV) • 単⽅向期待テスト (Directional Expectation test, DIR) 10

2-1. 最⼩機能テスト(Minimum Functionality test) ユニットテストに着想を得たテストであり、最低限通過して欲しいテストケースを作成しテスト例：感情分析 • 「否定表現の理解」を「最⼩機能テスト」タイプでテスト •
“I {NEGATION} {POS_VERB} the {THING}.” というテンプレートに対して、以下のような単語集合の全組合せをテスト • {NEGATION} = {didn’t, can’t say I, ...} • {POS_VERB} = {love, like, ...} • {THING} = {food, flight, service, ...} 11

2-2. 不変性テスト(Invariance test) モデルの出⼒結果に影響を及ぼさないような摂動を加え、実際にモデルの出⼒が変化しないかをテスト例：感情分析 • 「固有表現の理解」を「不変性テスト」タイプでテスト • 地名を変化させても出⼒が変化しないかをテスト
• @AmericanAir thank you we got on a different flight to [Chicago → Dallas] 12

2-3. 単⽅向期待テスト(Directional Expectation test, DIR) モデルの出⼒値が正負いずれか特定の⽅向に変化するだろうと期待されるような摂動を加えて、実際の変化をテスト例：感情分析 • 「語彙の習得」を「単⽅向期待テスト」タイプでテスト
• 否定的な表現を⽂末に追加して、出⼒値が上がらないかをテスト • @AmericanAir service wasnʼt great. You are lame. ↓ 13

検証 • 感情分析 (Sentiment Analysis) • Microsoft Text Analytics（サービスページ） •
Google Cloudʼs Natural Language（サービスページ） • Amazon Comprehend（サービスページ） • BERT-base (Devlin et al., 2018) finetuned on SST-2 • RoBERTa-base (Liu et al., 2019) finetuned on SST-2 • 重複検知 (Duplicate Question Detection) • BERT-base finetuned on QQP dataset • RoBERTa-base finetuned on QQP dataset • 機械読解 (Machine Comprehension, SQuAD) • BERT-base finetuned on SQuAD 14

結果（感情分析） 15 Table 1: 失敗率の⾼かったテストの例

結果 • 3つのタスクを通して、どのモデルについても多くの⽋点が発⾒された • 統計量に集約しないテストなので、表の⼀覧を吟味する必要あり • 特に顕著だった⽋点 • 時系列の正しい把握 •
否定表現 • 主語 / 述語, 能動態 / 受動態, ⽐較級のような⽂法的内容の理解 • 感情分析タスクにおいては、商業⽤モデルよりもBERT, RoBERTaの⽅が全体的にテスト通過率が良い（少し意外） • 公平性に関する最⼩機能テストに対して、商業⽤モデルは100%中⽴と予測 16

補⾜事項（注：主観的解釈あり） Q. これまでのベンチマークデータセットとの関係性は？ A. 相補的な⽴ち位置、と書かれております。CHECKLISTで洗い出された⽋点をもとに、対処すべき⾔語能⼒を特定し、学習データを追加するのが実⽤的な流れになるかと思います。 Q. 感情分析以外の分類タスクでもこの枠組みは適⽤可能？ A.
論⽂内では多くのタスクに適⽤可能と記述されていますが、難しい点も多いと思います。例えば、トピック分類の場合、固有表現⾃体に意味があることも多いため、適切に単語置換する必要があると思います。また、多クラス分類の場合は否定表現の分類先を決めるのは難しいことも多いと思います。 17

テストケース作成⽀援ツール 18

データセット作成 CHECKLISTの枠組みで、タスクに必要な⾔語能⼒を3つの観点からテストすることの有⽤性は確認出来たでは、それぞれのテストケースはどうやって作成する？ • ⼈⼿でゼロから作成 ▲ クオリティが⾼い ▼ 多様なテストケースを作成するには想像⼒が必要（Coverageが落ちる原因）
▼ 多くのテストケースを作成するにはコストがかかる • 摂動を与える関数から作成 ▲ 多くのテストケースを作成できる ▼ 関数の設計が難しい → ツールによるサポートで解決（Githubで公開） 19

ツール機能① ⼀般化によるテンプレート作成 • テストケースや摂動の与え⽅は⼤抵⼀般化することが出来る • “I didn’t love the food”
→【⼀般化】 ”I {NEGATION} {POS_VERB} the {THING}.“ • 変数化した箇所について、それぞれの表現の全組合せをテスト • {NEGATION} = {didn’t, can’t say I, ...} • {POS_VERB} = {love, like, ...} • {THING} = {food, flight, service, ...} 20

ツール機能② テンプレート内の表現の拡張 • 変数化した箇所の表現を考えるにあたって、発想⼒が必要となる • ⾃⼒で肯定的な表現をどれだけ思いつけるか… • Masked Language Modelのmask予測を活⽤
• “I really {mask} the flight.” の {mask} の部分について、RoBERTaのmask予測で候補を提⽰ • WordNet内の同義語と、⾔語モデルの予測をもとにして⽂脈における適切な同義語を抽出 • ⼈名、地名、公平性に関わる表現等は著者らが準備 21

ツールのユーザー評価① Microsoftの感情分析モデル開発チームによる評価 • 実運⽤がなされており、テストも⾏われている状況でも有⽤かどうかの調査 • 約5hの作業時間で検証、30種類ほどのテストを思いついた • 役⽴った点 • これまで思いつくことのなかった⾔語能⼒を発⾒し、テストが可能になった
• これまで思いついていたがテスト出来ていなかった⾔語能⼒に対して、テストが可能になった • これまでテストしていた⾔語能⼒に対して、より徹底した体系的なテストが可能になった 22

ツールのユーザー評価② モデルのテスト経験が無いユーザーを対象に調査 • 3つのコントロールグループで⽐較 i. 何も枠組み・ツールについて教えないグループ ii. テストすると良い⾔語能⼒のみ知らせるグループ iii. テストすると良い⾔語能⼒とテンプレートを与えるグループ
• QQPタスクのMFTテストタイプに絞り、2hで検証 • 結果 • 枠組みについて教えることで、より多くの⾔語能⼒を思いついた（Group ii., iii. vs Group i.） • データ作成テンプレートを与えることで、多くのテストケースを作成出来た（Group iii. vs Group i., ii.） 23

まとめ • ベンチマークでの精度とは別の観点でモデルの⽋点を洗い出すCHECKLIST という枠組みを提案 • タスクを解く上で必要な「⾔語能⼒」と、その能⼒をテストする3つのテストタイプという観点でテストを作成することで、モデルの⽋点を洗い出す • モデルの内部構造には触れないため、あらゆる⾔語モデルに適⽤可能 •
⾔語能⼒には幅広く共通して必要な能⼒もあるため、幅広いタスクへの適⽤が期待 • 商⽤モデルや⼈間と同等の精度と⾔われているモデルについても、様々な⽋点を発⾒ • CHECKLISTを実施する補助ツールの開発、Githubで公開 • テストを既に実施している商⽤モデル開発者にとっても利点あり • テスト未経験者のユーザーも簡単に習得し、使⽤可能 24

プロフィール⼤⽇⽅孝輝（Koki Obinata) @not_oohikata • 東京⼤学⼤学院理学系研究科物理学専攻 D1 岡⽥真⼈研究室
• 物質、材料系に関連した機械学習 • ベイズ推論 • カラクリ株式会社 Development Group • ⾃然⾔語処理、情報検索関連の研究、開発 • 最近は特に検索エンジンの仕組み、運⽤に興味があります • 趣味 • VOCALOID, VTuber, Vim 25

Beyond Accuracy: Behavioral Testing of NLP Mode...

Beyond Accuracy: Behavioral Testing of NLP Models with CheckList

Obi

Other Decks in Technology

Featured

Transcript