Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ACL2020 best papers

ACL2020 best papers

ACL2020のBest paper (+honorable mention) に選ばれた論文の紹介です。

Kazuki Fujikawa

August 14, 2020
Tweet

More Decks by Kazuki Fujikawa

Other Decks in Science

Transcript

  1. ▪ ACL2020 概要 ▪ ACL2020 Best Paper群の紹介 ▪ Best Paper

    ▪ Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+] ▪ Best Paper (Honorable mention) ▪ Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics [Mathur+] ▪ Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks [Gururangan+] AGENDA
  2. ▪ ACL2020 概要 ▪ ACL2020 Best Paper群の紹介 ▪ Best Paper

    ▪ Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+] ▪ Best Paper (Honorable mention) ▪ Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics [Mathur+] ▪ Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks [Gururangan+] AGENDA
  3. ▪ 自然言語処理分野のトップカンファレンスの一つ ▪ 採択率: 22.7%(779 / 3429) ▪ バーチャル開催(7/5~11) ACL2020

    概要 自分のタイムゾーンに合わせた スケジュールの表示 スライド・動画は特設サイトで 常設され、チャットで質問可能
  4. ACL2020 概要: 分野毎の論文数(submission) Information Extraction, Text Mining Machine Learning Machine

    Translation Dialogue and Interactive Systems Generation Question Answering Sentiment Analysis, Argument Mining Word-level Semantics Applications Resources and Evaluation Multidisciplinary, AC COI Sentience-level Semantics Tagging, Chunking, Syntax, Parsing Social Media Summarization Document Analysis Multilinguality Textual Inference, Other Areas of Semantics Discourse and Pragmatics Phonology, Morphology, Word Segmentation 2019 2020 Machine Learning for NLP Dialogue and Interactive Systems Machine Translation Information Extraction NLP Application Generation Question Answering Resources and Evaluation Summarization Computational Social Science and Social Media Semantics: Sentence Level Interpretability and Analysis of Models for NLP Semantics: Lexical Information Retrieval and Text Mining Language Grounding to Vision, Robotics and Beyond Theme Cognitive Modeling and Psycholinguistics Speech and Multimodality Syntax: Tagging, Chunking and Parsing Multidisciplinary and Area Chair COI Discourse and Pragmatics Phonology, Morphology and Word Segmentation Ethics and NLP Sentiment Analysis, Stylistic Analysis, and Argument Mining Semantics: Textual Inference and Other Areas of Semantics Theory and Formalism in NLP (Linguistic and Mathematical) Vision, Robotics,Multimodal Grounding, Speech Linguistic Theories, Cognitive, Psycholinguistics : New : 200+ submissions
  5. ▪ ACL2020 概要 ▪ ACL2020 Best Paper群の紹介 ▪ Best Paper

    ▪ Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+] ▪ Best Paper (Honorable mention) ▪ Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics [Mathur+] ▪ Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks [Gururangan+] AGENDA
  6. ▪ Test types x Capabilities の軸でCheckListを作成し、動作の確認 を行うことを提案 Beyond Accuracy: Behavioral

    Testing of NLP Models with CheckList [Ribeiro+] MFT (Minimum Functionality test) INV (Invariance test) DIR (Directional Expectation test) Vocabulary + POS Taxonomy Robustness NER Fairness Temporal understanding Negation Coreference Semantic Role Labeling Logic Test types Capabilities
  7. ▪ Test types x Capabilities の軸でCheckListを作成し、動作の確認 を行うことを提案 Beyond Accuracy: Behavioral

    Testing of NLP Models with CheckList [Ribeiro+] MFT (Minimum Functionality test) INV (Invariance test) DIR (Directional Expectation test) Vocabulary + POS Taxonomy Robustness NER Fairness Temporal understanding Negation Coreference Semantic Role Labeling Logic Test types Capabilities MFT (Minimum Functionality test): • ソフトウェア工学におけるユニットテストにヒントを得ている • 目的タスクに関する動作確認用のテストケースの集合体 • 例: 感情分析 (Vocabulary + POS) I despised that aircraft. → negative (Negation) The food is not poor. → positive or neutral
  8. ▪ Test types x Capabilities の軸でCheckListを作成し、動作の確認 を行うことを提案 Beyond Accuracy: Behavioral

    Testing of NLP Models with CheckList [Ribeiro+] MFT (Minimum Functionality test) INV (Invariance test) DIR (Directional Expectation test) Vocabulary + POS Taxonomy Robustness NER Fairness Temporal understanding Negation Coreference Semantic Role Labeling Logic Test types Capabilities INV (Invariance test): • ソフトウェア工学におけるメタモルフィックテストから ヒントを得ている • ラベルに影響の無い摂動に対する出力不変性をテスト • 例: 感情分析 (Robust) @SouthwestAir no thanksthakns → INV (NER) I miss the #nerdbird in San JoseDenver → INV
  9. ▪ Test types x Capabilities の軸でCheckListを作成し、動作の確認 を行うことを提案 Beyond Accuracy: Behavioral

    Testing of NLP Models with CheckList [Ribeiro+] MFT (Minimum Functionality test) INV (Invariance test) DIR (Directional Expectation test) Vocabulary + POS Taxonomy Robustness NER Fairness Temporal understanding Negation Coreference Semantic Role Labeling Logic Test types Capabilities DIR (Directional Expectation test): • ラベルに影響を与える変更が期待通り影響しているか どうかを確認するテスト • 例: 感情分析 (Vocabulary+POS) Your service sucks. +You are lame. → negative++ (Vocabulary+POS) Great trip on 2672 yesterday... +You are extraordinary. → positive++
  10. ▪ テストケースをスケールするための手法 ▪ テンプレートによる多様な入力セットに対する動作確認 ▪ ex. “I {NEGATION} {POS_VERB} the

    {THING}.” ▪ {NEGATION} = {didn't, can't say I, ...} ▪ {POS_VERB} = {love, like, ...} ▪ {THING} = {food, flight, service, ...} Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+]
  11. ▪ 商用サービス / SoTAモデルに対するテストの実施(感情分析) Beyond Accuracy: Behavioral Testing of NLP

    Models with CheckList [Ribeiro+]  以下のサービス / モデルに対するテスト結果で比較 ▪ 商用サービス: Microsoft, Google, Amazonが提供する感情分析API ▪ SoTAモデル: BERT, RoBERTa のFine-tune
  12. ▪ 商用サービス / SoTAモデルに対するテストの実施(感情分析) Beyond Accuracy: Behavioral Testing of NLP

    Models with CheckList [Ribeiro+] • 明らかにNeutralなデータに対するエラー ◦ Google: 7.6%, Amazon: 4.8%のエラー率 • 非Neutralの簡単な事例でもエラーが発生 ◦ ex. I like this seat → positive
  13. ▪ 商用サービス / SoTAモデルに対するテストの実施(感情分析) Beyond Accuracy: Behavioral Testing of NLP

    Models with CheckList [Ribeiro+] 短縮URLやアカウント名などを追加するだけ で、予測が変化してしまう事例も多数存在
  14. ▪ NLP専門家に対するユーザ調査(実験設定) ▪ QQP(質問文同定タスク)を学習したBERTモデルを提供し、 Jupyter上・2h以内でモデルのテストをしてもらう ▪ 不具合の発見に対してCheckListやテストケース生成ツールが有用である のかを検証 ▪ 被験者:

    学術 / 産業界のNLP専門家18名を以下のグループに分割 ▪ Unaided: 特に指示を与えない ▪ Cap.only: 前項で示したCapabilitiesのリストを共有 ▪ Cap.+tmpl.: Capabilitiesのリストに加え、template+穴埋めツールを提供 Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+]
  15. ▪ NLP専門家に対するユーザ調査(実験結果) Beyond Accuracy: Behavioral Testing of NLP Models with

    CheckList [Ribeiro+] CheckList利用者 vs 非利用者: • Capabilityの観点で、多様な観点で試験を実施 • 結果として約3倍のBug(template利用者) を発見 → CheckList利用の有用性を示唆
  16. ▪ NLP専門家に対するユーザ調査(実験結果) Beyond Accuracy: Behavioral Testing of NLP Models with

    CheckList [Ribeiro+] template利用者 vs 非利用者: • Capabilityの観点では同等の試験を実施 • テスト数はtemplate利用者が大きく上回り、 結果としてより多くのバグを発見 → CheckList利用の有用性を示唆
  17. ▪ ACL2020 概要 ▪ ACL2020 Best Paper群の紹介 ▪ Best Paper

    ▪ Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+] ▪ Best Paper (Honorable mention) ▪ Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics [Mathur+] ▪ Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks [Gururangan+] AGENDA
  18. ▪ 従来のMT品質の評価方法自体の評価方法 ▪ DA (Direct Assessment) と評価法(e.g. BLEU)とのPearson Rで評価 ▪

    DA: WMT2019で構築されたMTシステムの出力に対して、アノテータが 100段階の評価を付けた上で、アノテータ毎に標準化して平均を取る ▪ どの言語の翻訳タスクに対しても、BLEUは高い相関を持つという結果 ▪ 現在も事実上標準の評価指標として用いられている Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics [Mathur+] I have a pen. ペンを持つ。 ペンを持っています。 原文 MT Human annotation DA (Direct Assessment) 50 0 100 BLEU: 28
  19. ▪ Pearson R ▪ 基本的には誤差が少ない場合に高い値を示す ▪ 外れ値が存在する場合に高い値を示してしまうことも知られている ▪ 外れ値(少数の品質の悪いMTシステムに対するデータ)を除外すると、 相関係数が大きく変わるものも存在

    ▪ → メトリック評価時は外れ値を除外しましょう Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics [Mathur+] 外れ値除外無し 外れ値除外有り
  20. ▪ 2つのMTシステムペアに対するスコア差を比較 ▪ BLEU: 3~5 point 差がある事例の1/4は、DAでは優位な差が無い ▪ 近年のMT研究のBLEU差の多くは 1-2

    point 程度の差であり、真の品質 を評価できていない可能性がある ▪ 下図のような各メトリクスとDAの関係性を考慮した上でMTパフォーマンス 向上有無を評価する必要がある ▪ BLEU, TER と比較して、CHRF, YISI-1, ESIM のエラーは少ない傾向 ▪ 現時点ではBLEU, TERではなくCHRF, YISI-1, ESIMなどのメトリックを 使うことをオススメする Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics [Mathur+]
  21. ▪ ACL2020 概要 ▪ ACL2020 Best Paper群の紹介 ▪ Best Paper

    ▪ Beyond Accuracy: Behavioral Testing of NLP Models with CheckList [Ribeiro+] ▪ Best Paper (Honorable mention) ▪ Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics [Mathur+] ▪ Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks [Gururangan+] AGENDA
  22. ▪ Domain-Adaptive Pretraining (DAPT) ▪ RoBERTaをターゲットドメインのデータを使ってMLMを再Pretrainする ▪ 4ドメイン x 2タスクに対するFinetuneの性能を、Pretrain種別に比較

    ▪ RoBERTaのドメインから離れているタスクほど性能改善があることを確認 ▪ ドメイン間の距離 (下図2): 各データ上位の語彙上位1万件の重複割合で比較 ▪ 無関係のドメインでの再Pretrain(¬DAPT)よりも一貫して良い結果 Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks [Gururangan+]
  23. ▪ Task-Adaptive Pretraining (TAPT) ▪ RoBERTaをターゲットタスクのデータを使ってMLMを再Pretrainする ▪ 4ドメイン x 2タスクに対するFinetuneの性能を、Pretrain種別に比較

    ▪ DAPTと比べて小規模データであるものの、匹敵する性能であることを確認 ▪ DAPT→TAPT→Finetuneの順で訓練したものがベストであった ▪ 同ドメイン別タスクによるTransfer-TAPTはTAPTと比べて性能劣化 → TAPTの有効性を確認 Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks [Gururangan+]
  24. ▪ TAPT + Data Augmentation (kNN-TAPT) ▪ TAPTで使用したターゲットタスクの各サンプルに対し、DAPTで使用 したドメインデータからk件の類似データをMLMの訓練データに追加 ▪

    TAPTとDAPTの中間的な位置づけ、小規模な計算資源で実施可能 ▪ DAPT, TAPT, kNN-TAPT, RAND-TAPTで比較 ▪ TAPT < kNN-TAPT < DAPTという結果、kを増加するほどDAPTに近づく ▪ 計算資源が限られた環境下での有用性を示唆 Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks [Gururangan+]