ACL2020 対話システムの評価指標 [nlpaper.challenge 2020/10/18]

Slide 1

Slide 1 text

対話システムの評価指標サーベイ 2020/10/18 ACL2020網羅的サーベイ@nlpaper.challenge Kentaro Nakanishi @cﬁken

Slide 2

Slide 2 text

自己紹介 name: Kentaro Nakanishi id: @cﬁken ひとこと: Splatoon 2 で X になりたい

Slide 3

Slide 3 text

今日の話 ● 対話システムの性能評価指標について ● ACL2020 での研究傾向 ● ACL2020 での各研究紹介

Slide 4

Slide 4 text

対話システムの性能評価指標について

Slide 5

Slide 5 text

対話システムの性能評価指標についてテキスト生成の評価指標は課題が多い Translation, Summarization, etc... ● 正解は単語が同じ?意味が同じ?どう測る? ● 詳細は以前の発表資料をどうぞテキスト生成の評価 × BERT https://speakerdeck.com/cﬁken/15-nlpaper-dot-challenge-bertyi ng-yong-mian-qiang-hui-tekisutosheng-cheng-falseping-jia-x-ber t ※ このスライドと同じ speackerdeck アカウントで上げています。

Slide 6

Slide 6 text

対話システムの性能評価指標について対話はその性質から更に評価が難しい ● 1つの発話に対する返答の意味が異なっていても良い公園で散歩しない? いいね、行く行く! 天気悪いし映画にしようよ外に出たくない意味は大きく異なるがどれも正解になりうる誰おまえ?

Slide 7

Slide 7 text

対話システムの性能評価指標について現在は人手評価を行うのが主流 ● モデルが提案される度に人手評価が行われている ● コストが高いだけでなく、フォーマットが揃っておらず、各々のやり方で評価が行われている ○ 観点をどう分けるか ○ どのように質問するか ○ 何段階か ○ etc.

Slide 8

Slide 8 text

既存の性能評価指標: RUBER [9] ● Referenced と Unreferenced な指標をブレンド ● Referenced: 正解ラベルとの比較による評価 ● Unreferenced: 正解ラベルなしでの評価 [9] Fig. 2: overview of RUBER

Slide 9

Slide 9 text

既存の性能評価指標: RUBER [9] ● Referenced: ○ word embeddings -> pooling で特徴ベクトル作成 ○ 正解ラベルと生成結果でコサイン類似度を計算 ● Unreferenced: ○ 発話と返答が関連しているかの分類器を作成 ○ NCE で学習 ○ 出力をスコアとする [9] Fig. 3

Slide 10

Slide 10 text

ACL2020 での研究傾向

Slide 11

Slide 11 text

ACL2020 での研究傾向: カテゴライズ提案手法のケース分類まとめ ● データ依存/データフリー ○ 対話の人手評価データが必要がどうか ● モデル依存/ モデルフリー ○ 評価のためになんらかのモデル学習が必要か ● reference-base, reference-free ○ 評価値を得るのに正解ラベルデータが必要か

Slide 12

Slide 12 text

ACL2020 での研究傾向: カテゴライズデータ依存 / データフリー ● 対話の良し悪しの人手評価データが必要がどうか ● 対話の人手評価値 (Likert Score など)を直接推論するようにモデリングする手法で使用する ● データ依存の場合、収集にコストがかかる、ドメインを合わせる必要がある、他言語では使えない、などのデメリットが有る

Slide 13

Slide 13 text

ACL2020 での研究傾向: カテゴライズモデル依存 / モデルフリー ● 評価のためにモデルを事前に学習させる必要があるか ● BLEU や ROUGE, BERTScore などはモデルフリー ● モデル依存の場合、モデルが公開されていないと使えない、ドメインに合わせてデータを集めて再学習が必要、などのデメリットがある

Slide 14

Slide 14 text

ACL2020 での研究傾向: カテゴライズ reference-base / reference-free ● 評価のために正解ラベルデータが必要か ● 翻訳のようなタスクでは reference は必須だが、対話はその多様な性質上あっても参照しづらい ● reference-base の場合、正解ラベルのあるテストデータを使ってしか評価できず、それに依存してしまう ● reference-free の方が柔軟

Slide 15

Slide 15 text

ACL2020 での研究傾向 ACL2020 での研究の課題感 ● モデル依存・reference-free が多い印象 ● 対話の性質に合わない reference-base な指標や、結局人手のアノテーションデータが必要になるデータ依存な指標を脱却したいモチベーションが目立つ ● 既存手法により強いモデル (BERT など) を使う、工夫したデータで使うなどで評価モデルを作る手法が活発

Slide 16

Slide 16 text

個人的な課題感 ● モデル評価のためのモデル乱立時代 ○ 本当に前進しているのか分からない... ● 性能評価指標の評価方法が揃ってない ○ みんな違うデータ/方法で評価している ● 対話を1つの指標で評価するのはムズカシイ ○ が、観点も研究によって微妙に異なるそこそこ研究が出てきたので、今後に期待できそう

Slide 17

Slide 17 text

ACL2020 での各研究紹介

Slide 18

Slide 18 text

Designing Precise and Robust Dialogue Response Evaluators 　 (T. Zhao+) [6] ● 既存手法である RUBER をそのまま発展させた reference-free な評価指標を提案。 ● 改善点は次の3点 ○ reference-free のみに限定 ○ semi-supervised で精度改善 ■ ラベルなしデータで pre-training 後、少量の評価のアノテーション付きデータで再学習 ○ ベースに RoBERTa を使用

Slide 19

Slide 19 text

Designing Precise and Robust Dialogue Response Evaluators 　 (T. Zhao+) [6] ● semi-supervised, RoBERTa ともにスコア改善に貢献。 ● 100程度の少量の対象ドメインのアノテーションデータでも精度を改善できることを確認した。 [6] Table 3

Slide 20

Slide 20 text

Learning an Unreferenced Metric for Online Dialogue Evaluation (K. Sinha+) [1] ● モデル依存で reference-free な指標 MaUdE を提案 ● コンテキストに対して返答が正しいものかどうかを学習 ● BERT (発話) ● RNN (対話系列) [1] Fig. 1

Slide 21

Slide 21 text

Learning an Unreferenced Metric for Online Dialogue Evaluation (K. Sinha+) [1] ● 負の疑似データを作成し、NCEで学習 ○ 別の Seq2Seq モデルや Back Translation を活用 ● 人手評価でベースラインを上回る相関 [1] Table. 2 一番右(M) が提案手法平均で他よりも高い相関値に

Slide 22

Slide 22 text

Beyond User Self-Reported Likert Scale Ratings: A Comparison Model for Automatic Dialog Evaluation (W. Liang+) [2] ● データ&モデル依存の評価指標 CMADE を提案 ○ 2つの返答のどちらが良いか評価するモデル ● 5段階評価(Likert Score)からデータのノイズを削減しつつ比較モデルを学習する 3 stages のパイプライン [2] Fig. 1

Slide 23

Slide 23 text

Beyond User Self-Reported Likert Scale Ratings: A Comparison Model for Automatic Dialog Evaluation (W. Liang+) [2] ● 慎重にデータを分析、データノイズ除去のために KNN や Data Shapley を活用 ● エキスパートによる評価との相関を比較 ● 相関スコアを大きく改善 [3] Table 4

Slide 24

Slide 24 text

Speaker Sensitive Response Evaluation Model (J. Bak+) [4] ● response selection を活用したモデル依存の評価指標 SSREM を提案。 ● 負のサンプルを工夫して選ぶことでモデル精度を向上。 ● A 以外の発話からランダム ● A の発話からランダム ● A:B の対話からランダム ● 同じ対話内からランダム [4] Fig. 1

Slide 25

Slide 25 text

Speaker Sensitive Response Evaluation Model (J. Bak+) [4] ● シンプルな手法だが人手評価との相関を大きく改善。 ● 他ドメインへの転移も効果があることを実験で確認。 [4] Table 4: 人手評価その相関 [4] Table 4: 他ドメインのデータへ適用

Slide 26

Slide 26 text

Evaluating Dialogue Generation Systems via Response Selection (S. Sato+) [3] ● モデルフリーで、人手で作成した test set を用いた response selection による評価を提案 ● コンテキストに対してGTを含む返答候補をモデルに入力、ロスをスコアとする ● 言語・ドメインがあっていれば使用可能 [3] Fig. 1

Slide 27

Slide 27 text

Evaluating Dialogue Generation Systems via Response Selection (S. Sato+) [3] ● 既存の自動評価指標と比べて高い相関を獲得 ● エラーの内容を分析することで解釈可能に RANDOM はランダムに返答候補を選んだもの CHOSEN が提案データセットを使用したもの RANDOM は一見提案手法に近く見えるが、かなり不安定

Slide 28

Slide 28 text

USR: An Unsupervised and Reference Free Evaluation Metric for Dialog Generation (S. Mehri+) [5] ● データ&モデル依存、reference-free な評価指標である USR を提案。 ● 対話の5つの sub-metrics を2つの自動評価指標を用いて推論し、これらを回帰して全体評価値を推論する。 ● Masked Language Modeling Metric ○ Understandable/Natural に対応 ● Dialog Retrieval Metrics ○ Maintains Context/Interesting/Uses Knowledge に対応

Slide 29

Slide 29 text

USR: An Unsupervised and Reference Free Evaluation Metric for Dialog Generation (S. Mehri+) [5] ● 分解して解釈可能であり、必要に応じて全体評価値への回帰の重みを変えるなど柔軟に使用可能 [5] Table 3,4: 指標ごとの相関 [5] Table 5: 全体評価値の相関

Slide 30

Slide 30 text

uBLEU: Uncertainty-Aware Automatic Evaluation Method for Open-Domain Dialogue Systems (T. Yuma+) [7] ● 既存の評価指標 ΔBLEU の人手評価が必要な部分を、スコアを推論するNN で置き換えた uBLEU を提案。 [7] Fig. 1 の一部

Slide 31

Slide 31 text

uBLEU: Uncertainty-Aware Automatic Evaluation Method for Open-Domain Dialogue Systems (T. Yuma+) [7] ● retrieve のための類似度計算など細かい点も改善。 ● 人手評価との相関で ΔBLEU とほぼ変わらない性能に。 ● RUBER の ref-base 部分を uBLEU で置き換えることで性能改善 [7] Table 3

Slide 32

Slide 32 text

Towards Holistic and Automatic Evaluation of Open-Domain Dialogue Generation (B. Pang+) [8] ● 4つの観点についてそれぞれ性能評価指標を作成。 1. Context Coherence: GPT-2 ベースの指標 2. Fluency: GPT-2 ベースの指標 3. Response Diversity: paraphrase augmented なデータに対してn-gram entropy 4. Logical Self-Consistency: MNLI ライクの指標 ● 上記4つを総合的に判断することを提案。

Slide 33

Slide 33 text

Towards Holistic and Automatic Evaluation of Open-Domain Dialogue Generation (B. Pang+) [8] ● 4つそれぞれで人手評価値との高い相関を記録。 ● 4つの指標間の相関も調査、どれもだいたい独立であるため全てを見るのが良いとのこと。 [8] Table 3: Context Coherence [8] Table 4: Fluency

Slide 34

Slide 34 text

ありがとうございました

Slide 35

Slide 35 text

Reference [1] Learning an Unreferenced Metric for Online Dialogue Evaluation, K. Sinha et al., ACL 2020, https://arxiv.org/abs/2005.00583 [2] Beyond User Self-Reported Likert Scale Ratings: A Comparison Model for Automatic Dialog Evaluation, W. Liang et al., ACL 2020, https://arxiv.org/abs/2005.10716 [3] Evaluating Dialogue Generation Systems via Response Selection, S. Sato et al., ACL 2020, https://arxiv.org/abs/2004.14302 [4] Speaker Sensitive Response Evaluation Model, J. Bak et al., ACL 2020, https://arxiv.org/abs/2006.07015 [5] USR: An Unsupervised and Reference Free Evaluation Metric for Dialog Generation, S. Mehri et al., ACL 2020, https://arxiv.org/abs/2005.00456 [6] Designing Precise and Robust Dialogue Response Evaluators, T. Zhao et al., ACL 2020, https://arxiv.org/abs/2004.04908 [7] uBLEU: Uncertainty-Aware Automatic Evaluation Method for Open-Domain Dialogue Systems, T. Yuma et al., ACL 2020, https://www.aclweb.org/anthology/2020.acl-srw.27/ [8] Towards Holistic and Automatic Evaluation of Open-Domain Dialogue Generation, B. Pang et al., ACL 2020, https://www.aclweb.org/anthology/2020.acl-main.333/ [9] RUBER: An Unsupervised Method for Automatic Evaluation of Open-Domain Dialog Systems, C. Tao et al., AAAI 2018, https://arxiv.org/abs/1701.03079

Slide 36

Slide 36 text

No content