ACL2020 対話システムの評価指標 [nlpaper.challenge 2020/10/18]

対話システムの評価指標サーベイ 2020/10/18 ACL2020網羅的サーベイ@nlpaper.challenge Kentaro Nakanishi @cﬁken

自己紹介 name: Kentaro Nakanishi id: @cﬁken ひとこと: Splatoon 2 で
X になりたい

今日の話 • 対話システムの性能評価指標について • ACL2020 での研究傾向 • ACL2020 での各研究紹介

対話システムの性能評価指標について

対話システムの性能評価指標についてテキスト生成の評価指標は課題が多い Translation, Summarization, etc... • 正解は単語が同じ?意味が同じ?どう測る? • 詳細は以前の発表資料をどうぞテキスト生成の評価
× BERT https://speakerdeck.com/cﬁken/15-nlpaper-dot-challenge-bertyi ng-yong-mian-qiang-hui-tekisutosheng-cheng-falseping-jia-x-ber t ※ このスライドと同じ speackerdeck アカウントで上げています。

対話システムの性能評価指標について対話はその性質から更に評価が難しい • 1つの発話に対する返答の意味が異なっていても良い公園で散歩しない? いいね、行く行く! 天気悪いし映画にしようよ外に出たくない意味は大きく異なるがどれも正解になりうる
誰おまえ?

対話システムの性能評価指標について現在は人手評価を行うのが主流 • モデルが提案される度に人手評価が行われている • コストが高いだけでなく、フォーマットが揃っておらず、各々のやり方で評価が行われている ◦ 観点をどう分けるか ◦
どのように質問するか ◦ 何段階か ◦ etc.

既存の性能評価指標: RUBER [9] • Referenced と Unreferenced な指標をブレンド • Referenced:
正解ラベルとの比較による評価 • Unreferenced: 正解ラベルなしでの評価 [9] Fig. 2: overview of RUBER

既存の性能評価指標: RUBER [9] • Referenced: ◦ word embeddings -> pooling
で特徴ベクトル作成 ◦ 正解ラベルと生成結果でコサイン類似度を計算 • Unreferenced: ◦ 発話と返答が関連しているかの分類器を作成 ◦ NCE で学習 ◦ 出力をスコアとする [9] Fig. 3

ACL2020 での研究傾向

ACL2020 での研究傾向: カテゴライズ提案手法のケース分類まとめ • データ依存/データフリー ◦ 対話の人手評価データが必要がどうか • モデル依存/
モデルフリー ◦ 評価のためになんらかのモデル学習が必要か • reference-base, reference-free ◦ 評価値を得るのに正解ラベルデータが必要か

ACL2020 での研究傾向: カテゴライズデータ依存 / データフリー • 対話の良し悪しの人手評価データが必要がどうか • 対話の人手評価値
(Likert Score など)を直接推論するようにモデリングする手法で使用する • データ依存の場合、収集にコストがかかる、ドメインを合わせる必要がある、他言語では使えない、などのデメリットが有る

ACL2020 での研究傾向: カテゴライズモデル依存 / モデルフリー • 評価のためにモデルを事前に学習させる必要があるか • BLEU
や ROUGE, BERTScore などはモデルフリー • モデル依存の場合、モデルが公開されていないと使えない、ドメインに合わせてデータを集めて再学習が必要、などのデメリットがある

ACL2020 での研究傾向: カテゴライズ reference-base / reference-free • 評価のために正解ラベルデータが必要か • 翻訳のようなタスクでは
reference は必須だが、対話はその多様な性質上あっても参照しづらい • reference-base の場合、正解ラベルのあるテストデータを使ってしか評価できず、それに依存してしまう • reference-free の方が柔軟

ACL2020 での研究傾向 ACL2020 での研究の課題感 • モデル依存・reference-free が多い印象 • 対話の性質に合わない reference-base
な指標や、結局人手のアノテーションデータが必要になるデータ依存な指標を脱却したいモチベーションが目立つ • 既存手法により強いモデル (BERT など) を使う、工夫したデータで使うなどで評価モデルを作る手法が活発

個人的な課題感 • モデル評価のためのモデル乱立時代 ◦ 本当に前進しているのか分からない... • 性能評価指標の評価方法が揃ってない ◦ みんな違うデータ/方法で評価している •
対話を1つの指標で評価するのはムズカシイ ◦ が、観点も研究によって微妙に異なるそこそこ研究が出てきたので、今後に期待できそう

ACL2020 での各研究紹介

Designing Precise and Robust Dialogue Response Evaluators 　 (T. Zhao+)
[6] • 既存手法である RUBER をそのまま発展させた reference-free な評価指標を提案。 • 改善点は次の3点 ◦ reference-free のみに限定 ◦ semi-supervised で精度改善 ▪ ラベルなしデータで pre-training 後、少量の評価のアノテーション付きデータで再学習 ◦ ベースに RoBERTa を使用

Designing Precise and Robust Dialogue Response Evaluators 　 (T. Zhao+)
[6] • semi-supervised, RoBERTa ともにスコア改善に貢献。 • 100程度の少量の対象ドメインのアノテーションデータでも精度を改善できることを確認した。 [6] Table 3

Learning an Unreferenced Metric for Online Dialogue Evaluation (K. Sinha+)
[1] • モデル依存で reference-free な指標 MaUdE を提案 • コンテキストに対して返答が正しいものかどうかを学習 • BERT (発話) • RNN (対話系列) [1] Fig. 1

Learning an Unreferenced Metric for Online Dialogue Evaluation (K. Sinha+)
[1] • 負の疑似データを作成し、NCEで学習 ◦ 別の Seq2Seq モデルや Back Translation を活用 • 人手評価でベースラインを上回る相関 [1] Table. 2 一番右(M) が提案手法平均で他よりも高い相関値に

Beyond User Self-Reported Likert Scale Ratings: A Comparison Model for
Automatic Dialog Evaluation (W. Liang+) [2] • データ&モデル依存の評価指標 CMADE を提案 ◦ 2つの返答のどちらが良いか評価するモデル • 5段階評価(Likert Score)からデータのノイズを削減しつつ比較モデルを学習する 3 stages のパイプライン [2] Fig. 1

Beyond User Self-Reported Likert Scale Ratings: A Comparison Model for
Automatic Dialog Evaluation (W. Liang+) [2] • 慎重にデータを分析、データノイズ除去のために KNN や Data Shapley を活用 • エキスパートによる評価との相関を比較 • 相関スコアを大きく改善 [3] Table 4

Speaker Sensitive Response Evaluation Model (J. Bak+) [4] • response
selection を活用したモデル依存の評価指標 SSREM を提案。 • 負のサンプルを工夫して選ぶことでモデル精度を向上。 • A 以外の発話からランダム • A の発話からランダム • A:B の対話からランダム • 同じ対話内からランダム [4] Fig. 1

Speaker Sensitive Response Evaluation Model (J. Bak+) [4] • シンプルな手法だが人手評価との相関を大きく改善。
• 他ドメインへの転移も効果があることを実験で確認。 [4] Table 4: 人手評価その相関 [4] Table 4: 他ドメインのデータへ適用

Evaluating Dialogue Generation Systems via Response Selection (S. Sato+) [3]
• モデルフリーで、人手で作成した test set を用いた response selection による評価を提案 • コンテキストに対してGTを含む返答候補をモデルに入力、ロスをスコアとする • 言語・ドメインがあっていれば使用可能 [3] Fig. 1

Evaluating Dialogue Generation Systems via Response Selection (S. Sato+) [3]
• 既存の自動評価指標と比べて高い相関を獲得 • エラーの内容を分析することで解釈可能に RANDOM はランダムに返答候補を選んだもの CHOSEN が提案データセットを使用したもの RANDOM は一見提案手法に近く見えるが、かなり不安定

USR: An Unsupervised and Reference Free Evaluation Metric for Dialog
Generation (S. Mehri+) [5] • データ&モデル依存、reference-free な評価指標である USR を提案。 • 対話の5つの sub-metrics を2つの自動評価指標を用いて推論し、これらを回帰して全体評価値を推論する。 • Masked Language Modeling Metric ◦ Understandable/Natural に対応 • Dialog Retrieval Metrics ◦ Maintains Context/Interesting/Uses Knowledge に対応

USR: An Unsupervised and Reference Free Evaluation Metric for Dialog
Generation (S. Mehri+) [5] • 分解して解釈可能であり、必要に応じて全体評価値への回帰の重みを変えるなど柔軟に使用可能 [5] Table 3,4: 指標ごとの相関 [5] Table 5: 全体評価値の相関

uBLEU: Uncertainty-Aware Automatic Evaluation Method for Open-Domain Dialogue Systems (T.
Yuma+) [7] • 既存の評価指標 ΔBLEU の人手評価が必要な部分を、スコアを推論するNN で置き換えた uBLEU を提案。 [7] Fig. 1 の一部

uBLEU: Uncertainty-Aware Automatic Evaluation Method for Open-Domain Dialogue Systems (T.
Yuma+) [7] • retrieve のための類似度計算など細かい点も改善。 • 人手評価との相関で ΔBLEU とほぼ変わらない性能に。 • RUBER の ref-base 部分を uBLEU で置き換えることで性能改善 [7] Table 3

Towards Holistic and Automatic Evaluation of Open-Domain Dialogue Generation (B.
Pang+) [8] • 4つの観点についてそれぞれ性能評価指標を作成。 1. Context Coherence: GPT-2 ベースの指標 2. Fluency: GPT-2 ベースの指標 3. Response Diversity: paraphrase augmented なデータに対してn-gram entropy 4. Logical Self-Consistency: MNLI ライクの指標 • 上記4つを総合的に判断することを提案。

Towards Holistic and Automatic Evaluation of Open-Domain Dialogue Generation (B.
Pang+) [8] • 4つそれぞれで人手評価値との高い相関を記録。 • 4つの指標間の相関も調査、どれもだいたい独立であるため全てを見るのが良いとのこと。 [8] Table 3: Context Coherence [8] Table 4: Fluency

ありがとうございました

Reference [1] Learning an Unreferenced Metric for Online Dialogue Evaluation,
K. Sinha et al., ACL 2020, https://arxiv.org/abs/2005.00583 [2] Beyond User Self-Reported Likert Scale Ratings: A Comparison Model for Automatic Dialog Evaluation, W. Liang et al., ACL 2020, https://arxiv.org/abs/2005.10716 [3] Evaluating Dialogue Generation Systems via Response Selection, S. Sato et al., ACL 2020, https://arxiv.org/abs/2004.14302 [4] Speaker Sensitive Response Evaluation Model, J. Bak et al., ACL 2020, https://arxiv.org/abs/2006.07015 [5] USR: An Unsupervised and Reference Free Evaluation Metric for Dialog Generation, S. Mehri et al., ACL 2020, https://arxiv.org/abs/2005.00456 [6] Designing Precise and Robust Dialogue Response Evaluators, T. Zhao et al., ACL 2020, https://arxiv.org/abs/2004.04908 [7] uBLEU: Uncertainty-Aware Automatic Evaluation Method for Open-Domain Dialogue Systems, T. Yuma et al., ACL 2020, https://www.aclweb.org/anthology/2020.acl-srw.27/ [8] Towards Holistic and Automatic Evaluation of Open-Domain Dialogue Generation, B. Pang et al., ACL 2020, https://www.aclweb.org/anthology/2020.acl-main.333/ [9] RUBER: An Unsupervised Method for Automatic Evaluation of Open-Domain Dialog Systems, C. Tao et al., AAAI 2018, https://arxiv.org/abs/1701.03079

ACL2020 対話システムの評価指標 [nlpaper.challenge 2020/10/18]

ACL2020 対話システムの評価指標 [nlpaper.challenge 2020/10/18]

cfiken

More Decks by cfiken

Other Decks in Research

Featured

Transcript

対話システムの評価指標サーベイ 2020/10/18 ACL2020網羅的サーベイ@nlpaper.challenge Kentaro Nakanishi @cﬁken

自己紹介 name: Kentaro Nakanishi id: @cﬁken ひとこと: Splatoon 2 で

今日の話 • 対話システムの性能評価指標について • ACL2020 での研究傾向 • ACL2020 での各研究紹介

対話システムの性能評価指標について

対話システムの性能評価指標についてテキスト生成の評価指標は課題が多い Translation, Summarization, etc... • 正解は単語が同じ?意味が同じ?どう測る? • 詳細は以前の発表資料をどうぞテキスト生成の評価

既存の性能評価指標: RUBER [9] • Referenced と Unreferenced な指標をブレンド • Referenced:

既存の性能評価指標: RUBER [9] • Referenced: ◦ word embeddings -> pooling

ACL2020 での研究傾向

ACL2020 での研究傾向: カテゴライズ提案手法のケース分類まとめ • データ依存/データフリー ◦ 対話の人手評価データが必要がどうか • モデル依存/

ACL2020 での研究傾向: カテゴライズデータ依存 / データフリー • 対話の良し悪しの人手評価データが必要がどうか • 対話の人手評価値

ACL2020 での研究傾向: カテゴライズモデル依存 / モデルフリー • 評価のためにモデルを事前に学習させる必要があるか • BLEU

ACL2020 での研究傾向: カテゴライズ reference-base / reference-free • 評価のために正解ラベルデータが必要か • 翻訳のようなタスクでは

ACL2020 での研究傾向 ACL2020 での研究の課題感 • モデル依存・reference-free が多い印象 • 対話の性質に合わない reference-base

個人的な課題感 • モデル評価のためのモデル乱立時代 ◦ 本当に前進しているのか分からない... • 性能評価指標の評価方法が揃ってない ◦ みんな違うデータ/方法で評価している •

ACL2020 での各研究紹介

Designing Precise and Robust Dialogue Response Evaluators 　 (T. Zhao+)

Designing Precise and Robust Dialogue Response Evaluators 　 (T. Zhao+)

Learning an Unreferenced Metric for Online Dialogue Evaluation (K. Sinha+)

Learning an Unreferenced Metric for Online Dialogue Evaluation (K. Sinha+)

Beyond User Self-Reported Likert Scale Ratings: A Comparison Model for

Beyond User Self-Reported Likert Scale Ratings: A Comparison Model for

Speaker Sensitive Response Evaluation Model (J. Bak+) [4] • response

Speaker Sensitive Response Evaluation Model (J. Bak+) [4] • シンプルな手法だが人手評価との相関を大きく改善。

Evaluating Dialogue Generation Systems via Response Selection (S. Sato+) [3]

Evaluating Dialogue Generation Systems via Response Selection (S. Sato+) [3]

USR: An Unsupervised and Reference Free Evaluation Metric for Dialog

USR: An Unsupervised and Reference Free Evaluation Metric for Dialog

uBLEU: Uncertainty-Aware Automatic Evaluation Method for Open-Domain Dialogue Systems (T.

uBLEU: Uncertainty-Aware Automatic Evaluation Method for Open-Domain Dialogue Systems (T.

Towards Holistic and Automatic Evaluation of Open-Domain Dialogue Generation (B.

Towards Holistic and Automatic Evaluation of Open-Domain Dialogue Generation (B.

ありがとうございました

Reference [1] Learning an Unreferenced Metric for Online Dialogue Evaluation,