ACL2020 best papers - Speaker Deck

Slide 1

Slide 1 text

2020.8.14 Kazuki Fujikawa 株式会社ディー・エヌ・エー＋株式会社 Mobility Technologies ACL2020 参加報告 ~ Best paper (+honorable mention) の紹介 ~

Slide 2

Slide 2 text

▪ ACL2020 概要 ▪ ACL2020 Best Paper群の紹介 ▪ Best Paper ▪ Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+] ▪ Best Paper (Honorable mention) ▪ Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics [Mathur+] ▪ Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks [Gururangan+] AGENDA

Slide 3

Slide 3 text

Slide 4

Slide 4 text

▪ 自然言語処理分野のトップカンファレンスの一つ ▪ 採択率: 22.7%（779 / 3429） ▪ バーチャル開催（7/5~11） ACL2020 概要自分のタイムゾーンに合わせたスケジュールの表示スライド・動画は特設サイトで常設され、チャットで質問可能

Slide 5

Slide 5 text

ACL2020 概要: 分野毎の論文数（submission） Information Extraction, Text Mining Machine Learning Machine Translation Dialogue and Interactive Systems Generation Question Answering Sentiment Analysis, Argument Mining Word-level Semantics Applications Resources and Evaluation Multidisciplinary, AC COI Sentience-level Semantics Tagging, Chunking, Syntax, Parsing Social Media Summarization Document Analysis Multilinguality Textual Inference, Other Areas of Semantics Discourse and Pragmatics Phonology, Morphology, Word Segmentation 2019 2020 Machine Learning for NLP Dialogue and Interactive Systems Machine Translation Information Extraction NLP Application Generation Question Answering Resources and Evaluation Summarization Computational Social Science and Social Media Semantics: Sentence Level Interpretability and Analysis of Models for NLP Semantics: Lexical Information Retrieval and Text Mining Language Grounding to Vision, Robotics and Beyond Theme Cognitive Modeling and Psycholinguistics Speech and Multimodality Syntax: Tagging, Chunking and Parsing Multidisciplinary and Area Chair COI Discourse and Pragmatics Phonology, Morphology and Word Segmentation Ethics and NLP Sentiment Analysis, Stylistic Analysis, and Argument Mining Semantics: Textual Inference and Other Areas of Semantics Theory and Formalism in NLP (Linguistic and Mathematical) Vision, Robotics,Multimodal Grounding, Speech Linguistic Theories, Cognitive, Psycholinguistics : New : 200+ submissions

Slide 6

Slide 6 text

Slide 7

Slide 7 text

▪ NLPモデルの性能確認を行うためのCheckListを提案 ▪ ソフトウェア工学におけるBehavioral Testingを参考にしている ▪ 大量かつ多様なテストケース生成ツールも同梱したOSSを公開 ▪ ユーザ調査で有効性を検証 ▪ ex1. 商用の感情分析モデルのバグ発見 ▪ ex2. CheckList利用有無で3倍のバグを発見 Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+]

Slide 8

Slide 8 text

Slide 9

Slide 9 text

▪ Test types x Capabilities の軸でCheckListを作成し、動作の確認を行うことを提案 Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+] MFT (Minimum Functionality test) INV (Invariance test) DIR (Directional Expectation test) Vocabulary + POS Taxonomy Robustness NER Fairness Temporal understanding Negation Coreference Semantic Role Labeling Logic Test types Capabilities MFT (Minimum Functionality test): ● ソフトウェア工学におけるユニットテストにヒントを得ている ● 目的タスクに関する動作確認用のテストケースの集合体 ● 例: 感情分析 (Vocabulary + POS) I despised that aircraft. → negative (Negation) The food is not poor. → positive or neutral

Slide 10

Slide 10 text

▪ Test types x Capabilities の軸でCheckListを作成し、動作の確認を行うことを提案 Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+] MFT (Minimum Functionality test) INV (Invariance test) DIR (Directional Expectation test) Vocabulary + POS Taxonomy Robustness NER Fairness Temporal understanding Negation Coreference Semantic Role Labeling Logic Test types Capabilities INV (Invariance test): ● ソフトウェア工学におけるメタモルフィックテストからヒントを得ている ● ラベルに影響の無い摂動に対する出力不変性をテスト ● 例: 感情分析 (Robust) @SouthwestAir no thanksthakns → INV (NER) I miss the #nerdbird in San JoseDenver → INV

Slide 11

Slide 11 text

▪ Test types x Capabilities の軸でCheckListを作成し、動作の確認を行うことを提案 Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+] MFT (Minimum Functionality test) INV (Invariance test) DIR (Directional Expectation test) Vocabulary + POS Taxonomy Robustness NER Fairness Temporal understanding Negation Coreference Semantic Role Labeling Logic Test types Capabilities DIR (Directional Expectation test): ● ラベルに影響を与える変更が期待通り影響しているかどうかを確認するテスト ● 例: 感情分析 (Vocabulary+POS) Your service sucks. +You are lame. → negative++ (Vocabulary+POS) Great trip on 2672 yesterday... +You are extraordinary. → positive++

Slide 12

Slide 12 text

▪ テストケースをスケールするための手法 ▪ テンプレートによる多様な入力セットに対する動作確認 ▪ ex. “I {NEGATION} {POS_VERB} the {THING}.” ▪ {NEGATION} = {didn't, can't say I, ...} ▪ {POS_VERB} = {love, like, ...} ▪ {THING} = {food, ﬂight, service, ...} Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+]

Slide 13

Slide 13 text

▪ テストケースをスケールするための手法 ▪ テンプレート展開の自動化（レコメンド） ▪ RoBERTaなどのMaskedLMを使い、テンプレートの穴埋めを提案 Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+]

Slide 14

Slide 14 text

▪ 商用サービス / SoTAモデルに対するテストの実施（感情分析） Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+] 　以下のサービス / モデルに対するテスト結果で比較 ▪ 商用サービス: Microsoft, Google, Amazonが提供する感情分析API ▪ SoTAモデル: BERT, RoBERTa のFine-tune

Slide 15

Slide 15 text

▪ 商用サービス / SoTAモデルに対するテストの実施（感情分析） Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+] ● 明らかにNeutralなデータに対するエラー ○ Google: 7.6%, Amazon: 4.8%のエラー率 ● 非Neutralの簡単な事例でもエラーが発生 ○ ex. I like this seat → positive

Slide 16

Slide 16 text

▪ 商用サービス / SoTAモデルに対するテストの実施（感情分析） Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+] 短縮URLやアカウント名などを追加するだけで、予測が変化してしまう事例も多数存在

Slide 17

Slide 17 text

▪ NLP専門家に対するユーザ調査（実験設定） ▪ QQP（質問文同定タスク）を学習したBERTモデルを提供し、 Jupyter上・2h以内でモデルのテストをしてもらう ▪ 不具合の発見に対してCheckListやテストケース生成ツールが有用であるのかを検証 ▪ 被験者: 学術 / 産業界のNLP専門家18名を以下のグループに分割 ▪ Unaided: 特に指示を与えない ▪ Cap.only: 前項で示したCapabilitiesのリストを共有 ▪ Cap.+tmpl.: Capabilitiesのリストに加え、template+穴埋めツールを提供 Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+]

Slide 18

Slide 18 text

▪ NLP専門家に対するユーザ調査（実験結果） Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+] CheckList利用者 vs 非利用者: ● Capabilityの観点で、多様な観点で試験を実施 ● 結果として約3倍のBug（template利用者）を発見 → CheckList利用の有用性を示唆

Slide 19

Slide 19 text

▪ NLP専門家に対するユーザ調査（実験結果） Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+] template利用者 vs 非利用者: ● Capabilityの観点では同等の試験を実施 ● テスト数はtemplate利用者が大きく上回り、結果としてより多くのバグを発見 → CheckList利用の有用性を示唆

Slide 20

Slide 20 text

Slide 21

Slide 21 text

▪ 機械翻訳（MT）における既存の評価指標の問題点を指摘 ▪ 現在のメトリクスの評価手法が、外れ値に弱いことを指摘 ▪ 事実上の標準メトリックであるBLEUが必ずしも人間の評価と相関しているわけではないことを指摘 ▪ MTのパフォーマンスが向上したと言える、メトリクス向上の閾値の決め方にも言及 Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics [Mathur+]

Slide 22

Slide 22 text

▪ 従来のMT品質の評価方法自体の評価方法 ▪ DA (Direct Assessment) と評価法（e.g. BLEU）とのPearson Rで評価 ▪ DA: WMT2019で構築されたMTシステムの出力に対して、アノテータが 100段階の評価を付けた上で、アノテータ毎に標準化して平均を取る ▪ どの言語の翻訳タスクに対しても、BLEUは高い相関を持つという結果 ▪ 現在も事実上標準の評価指標として用いられている Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics [Mathur+] I have a pen. ペンを持つ。ペンを持っています。原文 MT Human annotation DA (Direct Assessment) 50 0 100 BLEU: 28

Slide 23

Slide 23 text

▪ Pearson R ▪ 基本的には誤差が少ない場合に高い値を示す ▪ 外れ値が存在する場合に高い値を示してしまうことも知られている ▪ 外れ値（少数の品質の悪いMTシステムに対するデータ）を除外すると、相関係数が大きく変わるものも存在 ▪ → メトリック評価時は外れ値を除外しましょう Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics [Mathur+] 外れ値除外無し外れ値除外有り

Slide 24

Slide 24 text

▪ 2つのMTシステムペアに対するスコア差を比較 ▪ BLEU: 3~5 point 差がある事例の1/4は、DAでは優位な差が無い ▪ 近年のMT研究のBLEU差の多くは 1-2 point 程度の差であり、真の品質を評価できていない可能性がある ▪ 下図のような各メトリクスとDAの関係性を考慮した上でMTパフォーマンス向上有無を評価する必要がある ▪ BLEU, TER と比較して、CHRF, YISI-1, ESIM のエラーは少ない傾向 ▪ 現時点ではBLEU, TERではなくCHRF, YISI-1, ESIMなどのメトリックを使うことをオススメする Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics [Mathur+]

Slide 25

Slide 25 text

Slide 26

Slide 26 text

▪ 広範で膨大なリソースで事前学習されたモデルを、対象タスクのドメインに合わせて再学習することの有用性を調査 ▪ ドメイン間の距離が大きいほどパフォーマンス改善することを確認（DAPT） ▪ 大規模な計算資源が利用できない環境でも、単純なデータ選択戦略によるデータ拡張でパフォーマンス向上可能であることを確認（TAPT, knn-TAPT） Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks [Gururangan+]

Slide 27

Slide 27 text

▪ Domain-Adaptive Pretraining (DAPT) ▪ RoBERTaをターゲットドメインのデータを使ってMLMを再Pretrainする ▪ 4ドメイン x 2タスクに対するFinetuneの性能を、Pretrain種別に比較 ▪ RoBERTaのドメインから離れているタスクほど性能改善があることを確認 ▪ ドメイン間の距離 (下図2): 各データ上位の語彙上位1万件の重複割合で比較 ▪ 無関係のドメインでの再Pretrain（¬DAPT）よりも一貫して良い結果 Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks [Gururangan+]

Slide 28

Slide 28 text

▪ Task-Adaptive Pretraining (TAPT) ▪ RoBERTaをターゲットタスクのデータを使ってMLMを再Pretrainする ▪ 4ドメイン x 2タスクに対するFinetuneの性能を、Pretrain種別に比較 ▪ DAPTと比べて小規模データであるものの、匹敵する性能であることを確認 ▪ DAPT→TAPT→Finetuneの順で訓練したものがベストであった ▪ 同ドメイン別タスクによるTransfer-TAPTはTAPTと比べて性能劣化 → TAPTの有効性を確認 Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks [Gururangan+]

Slide 29

Slide 29 text

▪ TAPT + Data Augmentation (kNN-TAPT) ▪ TAPTで使用したターゲットタスクの各サンプルに対し、DAPTで使用したドメインデータからk件の類似データをMLMの訓練データに追加 ▪ TAPTとDAPTの中間的な位置づけ、小規模な計算資源で実施可能 ▪ DAPT, TAPT, kNN-TAPT, RAND-TAPTで比較 ▪ TAPT < kNN-TAPT < DAPTという結果、kを増加するほどDAPTに近づく ▪ 計算資源が限られた環境下での有用性を示唆 Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks [Gururangan+]