ACL2020 対話システムの評価指標 [nlpaper.challenge 2020/10/18]

B9c41546565298648a2fea82172d4417?s=47 cfiken
October 18, 2020

ACL2020 対話システムの評価指標 [nlpaper.challenge 2020/10/18]

B9c41546565298648a2fea82172d4417?s=128

cfiken

October 18, 2020
Tweet

Transcript

  1. 対話システムの評価指標サーベイ 2020/10/18 ACL2020網羅的サーベイ@nlpaper.challenge Kentaro Nakanishi @cfiken

  2. 自己紹介 name: Kentaro Nakanishi id: @cfiken ひとこと: Splatoon 2 で

    X になりたい
  3. 今日の話 • 対話システムの性能評価指標について • ACL2020 での研究傾向 • ACL2020 での各研究紹介

  4. 対話システムの性能評価指標について

  5. 対話システムの性能評価指標について テキスト生成の評価指標は課題が多い Translation, Summarization, etc... • 正解は単語が同じ?意味が同じ?どう測る? • 詳細は以前の発表資料をどうぞ テキスト生成の評価

    × BERT https://speakerdeck.com/cfiken/15-nlpaper-dot-challenge-bertyi ng-yong-mian-qiang-hui-tekisutosheng-cheng-falseping-jia-x-ber t ※ このスライドと同じ speackerdeck アカウントで上げています。
  6. 対話システムの性能評価指標について 対話はその性質から更に評価が難しい • 1つの発話に対する返答の意味が異なっていても良い 公園で散歩しない? いいね、行く行く! 天気悪いし映画にしようよ 外に出たくない 意味は大きく異なるが どれも正解になりうる

    誰おまえ?
  7. 対話システムの性能評価指標について 現在は人手評価を行うのが主流 • モデルが提案される度に人手評価が行われている • コストが高いだけでなく、フォーマットが揃っておら ず、各々のやり方で評価が行われている ◦ 観点をどう分けるか ◦

    どのように質問するか ◦ 何段階か ◦ etc.
  8. 既存の性能評価指標: RUBER [9] • Referenced と Unreferenced な指標をブレンド • Referenced:

    正解ラベルとの比較による評価 • Unreferenced: 正解ラベルなしでの評価 [9] Fig. 2: overview of RUBER
  9. 既存の性能評価指標: RUBER [9] • Referenced: ◦ word embeddings -> pooling

    で特徴ベクトル作成 ◦ 正解ラベルと生成結果でコサイン類似度を計算 • Unreferenced: ◦ 発話と返答が関連しているかの分類器を作成 ◦ NCE で学習 ◦ 出力をスコアとする [9] Fig. 3
  10. ACL2020 での研究傾向

  11. ACL2020 での研究傾向: カテゴライズ 提案手法のケース分類まとめ • データ依存/データフリー ◦ 対話の人手評価データが必要がどうか • モデル依存/

    モデルフリー ◦ 評価のためになんらかのモデル学習が必要か • reference-base, reference-free ◦ 評価値を得るのに正解ラベルデータが必要か
  12. ACL2020 での研究傾向: カテゴライズ データ依存 / データフリー • 対話の良し悪しの人手評価データが必要がどうか • 対話の人手評価値

    (Likert Score など)を直接推論する ようにモデリングする手法で使用する • データ依存の場合、収集にコストがかかる、ドメインを 合わせる必要がある、他言語では使えない、などのデメ リットが有る
  13. ACL2020 での研究傾向: カテゴライズ モデル依存 / モデルフリー • 評価のためにモデルを事前に学習させる必要があるか • BLEU

    や ROUGE, BERTScore などはモデルフリー • モデル依存の場合、モデルが公開されていないと使えな い、ドメインに合わせてデータを集めて再学習が必要、 などのデメリットがある
  14. ACL2020 での研究傾向: カテゴライズ reference-base / reference-free • 評価のために正解ラベルデータが必要か • 翻訳のようなタスクでは

    reference は必須だが、対話 はその多様な性質上あっても参照しづらい • reference-base の場合、正解ラベルのあるテストデー タを使ってしか評価できず、それに依存してしまう • reference-free の方が柔軟
  15. ACL2020 での研究傾向 ACL2020 での研究の課題感 • モデル依存・reference-free が多い印象 • 対話の性質に合わない reference-base

    な指標や、結局 人手のアノテーションデータが必要になるデータ依存な 指標を脱却したいモチベーションが目立つ • 既存手法により強いモデル (BERT など) を使う、工夫し たデータで使うなどで評価モデルを作る手法が活発
  16. 個人的な課題感 • モデル評価のためのモデル乱立時代 ◦ 本当に前進しているのか分からない... • 性能評価指標の評価方法が揃ってない ◦ みんな違うデータ/方法で評価している •

    対話を1つの指標で評価するのはムズカシイ ◦ が、観点も研究によって微妙に異なる そこそこ研究が出てきたので、今後に期待できそう
  17. ACL2020 での各研究紹介

  18. Designing Precise and Robust Dialogue Response Evaluators   (T. Zhao+)

    [6] • 既存手法である RUBER をそのまま発展させた reference-free な評価指標を提案。 • 改善点は次の3点 ◦ reference-free のみに限定 ◦ semi-supervised で精度改善 ▪ ラベルなしデータで pre-training 後、少量の評 価のアノテーション付きデータで再学習 ◦ ベースに RoBERTa を使用
  19. Designing Precise and Robust Dialogue Response Evaluators   (T. Zhao+)

    [6] • semi-supervised, RoBERTa ともにスコア改善に貢献。 • 100程度の少量の対象ドメインの アノテーションデータでも精度を 改善できることを確認した。 [6] Table 3
  20. Learning an Unreferenced Metric for Online Dialogue Evaluation (K. Sinha+)

    [1] • モデル依存で reference-free な指標 MaUdE を提案 • コンテキストに対して返答が正しいものかどうかを学習 • BERT (発話) • RNN (対話系列) [1] Fig. 1
  21. Learning an Unreferenced Metric for Online Dialogue Evaluation (K. Sinha+)

    [1] • 負の疑似データを作成し、NCEで学習 ◦ 別の Seq2Seq モデルや Back Translation を活用 • 人手評価でベースラインを上回る相関 [1] Table. 2 一番右(M) が提案手法 平均で他よりも高い 相関値に
  22. Beyond User Self-Reported Likert Scale Ratings: A Comparison Model for

    Automatic Dialog Evaluation (W. Liang+) [2] • データ&モデル依存の評価指標 CMADE を提案 ◦ 2つの返答のどちらが良いか評価するモデル • 5段階評価(Likert Score)からデータのノイズを削減し つつ比較モデルを学習する 3 stages のパイプライン [2] Fig. 1
  23. Beyond User Self-Reported Likert Scale Ratings: A Comparison Model for

    Automatic Dialog Evaluation (W. Liang+) [2] • 慎重にデータを分析、データノイズ除去のために KNN や Data Shapley を活用 • エキスパートによる評価 との相関を比較 • 相関スコアを大きく改善 [3] Table 4
  24. Speaker Sensitive Response Evaluation Model (J. Bak+) [4] • response

    selection を活用したモデル依存の評価指標 SSREM を提案。 • 負のサンプルを工夫して選ぶことでモデル精度を向上。 • A 以外の発話からランダム • A の発話からランダム • A:B の対話からランダム • 同じ対話内からランダム [4] Fig. 1
  25. Speaker Sensitive Response Evaluation Model (J. Bak+) [4] • シンプルな手法だが人手評価との相関を大きく改善。

    • 他ドメインへの転移も効果があることを実験で確認。 [4] Table 4: 人手評価その相関 [4] Table 4: 他ドメインのデータへ適用
  26. Evaluating Dialogue Generation Systems via Response Selection (S. Sato+) [3]

    • モデルフリーで、人手で作成した test set を用いた response selection による評価を提案 • コンテキストに対してGTを 含む返答候補をモデルに 入力、ロスをスコアとする • 言語・ドメインがあってい れば使用可能 [3] Fig. 1
  27. Evaluating Dialogue Generation Systems via Response Selection (S. Sato+) [3]

    • 既存の自動評価指標と比べて高い相関を獲得 • エラーの内容を分析することで解釈可能に RANDOM はランダムに返答候 補を選んだもの CHOSEN が提案データセットを 使用したもの RANDOM は一見提案手法に近 く見えるが、かなり不安定
  28. USR: An Unsupervised and Reference Free Evaluation Metric for Dialog

    Generation (S. Mehri+) [5] • データ&モデル依存、reference-free な評価指標であ る USR を提案。 • 対話の5つの sub-metrics を2つの自動評価指標を用い て推論し、これらを回帰して全体評価値を推論する。 • Masked Language Modeling Metric ◦ Understandable/Natural に対応 • Dialog Retrieval Metrics ◦ Maintains Context/Interesting/Uses Knowledge に対 応
  29. USR: An Unsupervised and Reference Free Evaluation Metric for Dialog

    Generation (S. Mehri+) [5] • 分解して解釈可能であり、必要に応じて全体評価値への 回帰の重みを変えるなど柔軟に使用可能 [5] Table 3,4: 指標ごとの相関 [5] Table 5: 全体評価値の相関
  30. uBLEU: Uncertainty-Aware Automatic Evaluation Method for Open-Domain Dialogue Systems (T.

    Yuma+) [7] • 既存の評価指標 ΔBLEU の人手評価が必要な部分を、ス コアを推論するNN で置き換えた uBLEU を提案。 [7] Fig. 1 の一部
  31. uBLEU: Uncertainty-Aware Automatic Evaluation Method for Open-Domain Dialogue Systems (T.

    Yuma+) [7] • retrieve のための類似度計算など細かい点も改善。 • 人手評価との相関で ΔBLEU とほぼ変わらない性能に。 • RUBER の ref-base 部 分を uBLEU で置き換 えることで性能改善 [7] Table 3
  32. Towards Holistic and Automatic Evaluation of Open-Domain Dialogue Generation (B.

    Pang+) [8] • 4つの観点についてそれぞれ性能評価指標を作成。 1. Context Coherence: GPT-2 ベースの指標 2. Fluency: GPT-2 ベースの指標 3. Response Diversity: paraphrase augmented な データに対してn-gram entropy 4. Logical Self-Consistency: MNLI ライクの指標 • 上記4つを総合的に判断することを提案。
  33. Towards Holistic and Automatic Evaluation of Open-Domain Dialogue Generation (B.

    Pang+) [8] • 4つそれぞれで人手評価値との高い相関を記録。 • 4つの指標間の相関も調査、どれもだいたい独立である ため全てを見るのが良いとのこと。 [8] Table 3: Context Coherence [8] Table 4: Fluency
  34. ありがとうございました

  35. Reference [1] Learning an Unreferenced Metric for Online Dialogue Evaluation,

    K. Sinha et al., ACL 2020, https://arxiv.org/abs/2005.00583 [2] Beyond User Self-Reported Likert Scale Ratings: A Comparison Model for Automatic Dialog Evaluation, W. Liang et al., ACL 2020, https://arxiv.org/abs/2005.10716 [3] Evaluating Dialogue Generation Systems via Response Selection, S. Sato et al., ACL 2020, https://arxiv.org/abs/2004.14302 [4] Speaker Sensitive Response Evaluation Model, J. Bak et al., ACL 2020, https://arxiv.org/abs/2006.07015 [5] USR: An Unsupervised and Reference Free Evaluation Metric for Dialog Generation, S. Mehri et al., ACL 2020, https://arxiv.org/abs/2005.00456 [6] Designing Precise and Robust Dialogue Response Evaluators, T. Zhao et al., ACL 2020, https://arxiv.org/abs/2004.04908 [7] uBLEU: Uncertainty-Aware Automatic Evaluation Method for Open-Domain Dialogue Systems, T. Yuma et al., ACL 2020, https://www.aclweb.org/anthology/2020.acl-srw.27/ [8] Towards Holistic and Automatic Evaluation of Open-Domain Dialogue Generation, B. Pang et al., ACL 2020, https://www.aclweb.org/anthology/2020.acl-main.333/ [9] RUBER: An Unsupervised Method for Automatic Evaluation of Open-Domain Dialog Systems, C. Tao et al., AAAI 2018, https://arxiv.org/abs/1701.03079
  36. None