Slide 1

Slide 1 text

対話システムの評価指標サーベイ 2020/10/18 ACL2020網羅的サーベイ@nlpaper.challenge Kentaro Nakanishi @cfiken

Slide 2

Slide 2 text

自己紹介 name: Kentaro Nakanishi id: @cfiken ひとこと: Splatoon 2 で X になりたい

Slide 3

Slide 3 text

今日の話 ● 対話システムの性能評価指標について ● ACL2020 での研究傾向 ● ACL2020 での各研究紹介

Slide 4

Slide 4 text

対話システムの性能評価指標について

Slide 5

Slide 5 text

対話システムの性能評価指標について テキスト生成の評価指標は課題が多い Translation, Summarization, etc... ● 正解は単語が同じ?意味が同じ?どう測る? ● 詳細は以前の発表資料をどうぞ テキスト生成の評価 × BERT https://speakerdeck.com/cfiken/15-nlpaper-dot-challenge-bertyi ng-yong-mian-qiang-hui-tekisutosheng-cheng-falseping-jia-x-ber t ※ このスライドと同じ speackerdeck アカウントで上げています。

Slide 6

Slide 6 text

対話システムの性能評価指標について 対話はその性質から更に評価が難しい ● 1つの発話に対する返答の意味が異なっていても良い 公園で散歩しない? いいね、行く行く! 天気悪いし映画にしようよ 外に出たくない 意味は大きく異なるが どれも正解になりうる 誰おまえ?

Slide 7

Slide 7 text

対話システムの性能評価指標について 現在は人手評価を行うのが主流 ● モデルが提案される度に人手評価が行われている ● コストが高いだけでなく、フォーマットが揃っておら ず、各々のやり方で評価が行われている ○ 観点をどう分けるか ○ どのように質問するか ○ 何段階か ○ etc.

Slide 8

Slide 8 text

既存の性能評価指標: RUBER [9] ● Referenced と Unreferenced な指標をブレンド ● Referenced: 正解ラベルとの比較による評価 ● Unreferenced: 正解ラベルなしでの評価 [9] Fig. 2: overview of RUBER

Slide 9

Slide 9 text

既存の性能評価指標: RUBER [9] ● Referenced: ○ word embeddings -> pooling で特徴ベクトル作成 ○ 正解ラベルと生成結果でコサイン類似度を計算 ● Unreferenced: ○ 発話と返答が関連しているかの分類器を作成 ○ NCE で学習 ○ 出力をスコアとする [9] Fig. 3

Slide 10

Slide 10 text

ACL2020 での研究傾向

Slide 11

Slide 11 text

ACL2020 での研究傾向: カテゴライズ 提案手法のケース分類まとめ ● データ依存/データフリー ○ 対話の人手評価データが必要がどうか ● モデル依存/ モデルフリー ○ 評価のためになんらかのモデル学習が必要か ● reference-base, reference-free ○ 評価値を得るのに正解ラベルデータが必要か

Slide 12

Slide 12 text

ACL2020 での研究傾向: カテゴライズ データ依存 / データフリー ● 対話の良し悪しの人手評価データが必要がどうか ● 対話の人手評価値 (Likert Score など)を直接推論する ようにモデリングする手法で使用する ● データ依存の場合、収集にコストがかかる、ドメインを 合わせる必要がある、他言語では使えない、などのデメ リットが有る

Slide 13

Slide 13 text

ACL2020 での研究傾向: カテゴライズ モデル依存 / モデルフリー ● 評価のためにモデルを事前に学習させる必要があるか ● BLEU や ROUGE, BERTScore などはモデルフリー ● モデル依存の場合、モデルが公開されていないと使えな い、ドメインに合わせてデータを集めて再学習が必要、 などのデメリットがある

Slide 14

Slide 14 text

ACL2020 での研究傾向: カテゴライズ reference-base / reference-free ● 評価のために正解ラベルデータが必要か ● 翻訳のようなタスクでは reference は必須だが、対話 はその多様な性質上あっても参照しづらい ● reference-base の場合、正解ラベルのあるテストデー タを使ってしか評価できず、それに依存してしまう ● reference-free の方が柔軟

Slide 15

Slide 15 text

ACL2020 での研究傾向 ACL2020 での研究の課題感 ● モデル依存・reference-free が多い印象 ● 対話の性質に合わない reference-base な指標や、結局 人手のアノテーションデータが必要になるデータ依存な 指標を脱却したいモチベーションが目立つ ● 既存手法により強いモデル (BERT など) を使う、工夫し たデータで使うなどで評価モデルを作る手法が活発

Slide 16

Slide 16 text

個人的な課題感 ● モデル評価のためのモデル乱立時代 ○ 本当に前進しているのか分からない... ● 性能評価指標の評価方法が揃ってない ○ みんな違うデータ/方法で評価している ● 対話を1つの指標で評価するのはムズカシイ ○ が、観点も研究によって微妙に異なる そこそこ研究が出てきたので、今後に期待できそう

Slide 17

Slide 17 text

ACL2020 での各研究紹介

Slide 18

Slide 18 text

Designing Precise and Robust Dialogue Response Evaluators   (T. Zhao+) [6] ● 既存手法である RUBER をそのまま発展させた reference-free な評価指標を提案。 ● 改善点は次の3点 ○ reference-free のみに限定 ○ semi-supervised で精度改善 ■ ラベルなしデータで pre-training 後、少量の評 価のアノテーション付きデータで再学習 ○ ベースに RoBERTa を使用

Slide 19

Slide 19 text

Designing Precise and Robust Dialogue Response Evaluators   (T. Zhao+) [6] ● semi-supervised, RoBERTa ともにスコア改善に貢献。 ● 100程度の少量の対象ドメインの アノテーションデータでも精度を 改善できることを確認した。 [6] Table 3

Slide 20

Slide 20 text

Learning an Unreferenced Metric for Online Dialogue Evaluation (K. Sinha+) [1] ● モデル依存で reference-free な指標 MaUdE を提案 ● コンテキストに対して返答が正しいものかどうかを学習 ● BERT (発話) ● RNN (対話系列) [1] Fig. 1

Slide 21

Slide 21 text

Learning an Unreferenced Metric for Online Dialogue Evaluation (K. Sinha+) [1] ● 負の疑似データを作成し、NCEで学習 ○ 別の Seq2Seq モデルや Back Translation を活用 ● 人手評価でベースラインを上回る相関 [1] Table. 2 一番右(M) が提案手法 平均で他よりも高い 相関値に

Slide 22

Slide 22 text

Beyond User Self-Reported Likert Scale Ratings: A Comparison Model for Automatic Dialog Evaluation (W. Liang+) [2] ● データ&モデル依存の評価指標 CMADE を提案 ○ 2つの返答のどちらが良いか評価するモデル ● 5段階評価(Likert Score)からデータのノイズを削減し つつ比較モデルを学習する 3 stages のパイプライン [2] Fig. 1

Slide 23

Slide 23 text

Beyond User Self-Reported Likert Scale Ratings: A Comparison Model for Automatic Dialog Evaluation (W. Liang+) [2] ● 慎重にデータを分析、データノイズ除去のために KNN や Data Shapley を活用 ● エキスパートによる評価 との相関を比較 ● 相関スコアを大きく改善 [3] Table 4

Slide 24

Slide 24 text

Speaker Sensitive Response Evaluation Model (J. Bak+) [4] ● response selection を活用したモデル依存の評価指標 SSREM を提案。 ● 負のサンプルを工夫して選ぶことでモデル精度を向上。 ● A 以外の発話からランダム ● A の発話からランダム ● A:B の対話からランダム ● 同じ対話内からランダム [4] Fig. 1

Slide 25

Slide 25 text

Speaker Sensitive Response Evaluation Model (J. Bak+) [4] ● シンプルな手法だが人手評価との相関を大きく改善。 ● 他ドメインへの転移も効果があることを実験で確認。 [4] Table 4: 人手評価その相関 [4] Table 4: 他ドメインのデータへ適用

Slide 26

Slide 26 text

Evaluating Dialogue Generation Systems via Response Selection (S. Sato+) [3] ● モデルフリーで、人手で作成した test set を用いた response selection による評価を提案 ● コンテキストに対してGTを 含む返答候補をモデルに 入力、ロスをスコアとする ● 言語・ドメインがあってい れば使用可能 [3] Fig. 1

Slide 27

Slide 27 text

Evaluating Dialogue Generation Systems via Response Selection (S. Sato+) [3] ● 既存の自動評価指標と比べて高い相関を獲得 ● エラーの内容を分析することで解釈可能に RANDOM はランダムに返答候 補を選んだもの CHOSEN が提案データセットを 使用したもの RANDOM は一見提案手法に近 く見えるが、かなり不安定

Slide 28

Slide 28 text

USR: An Unsupervised and Reference Free Evaluation Metric for Dialog Generation (S. Mehri+) [5] ● データ&モデル依存、reference-free な評価指標であ る USR を提案。 ● 対話の5つの sub-metrics を2つの自動評価指標を用い て推論し、これらを回帰して全体評価値を推論する。 ● Masked Language Modeling Metric ○ Understandable/Natural に対応 ● Dialog Retrieval Metrics ○ Maintains Context/Interesting/Uses Knowledge に対 応

Slide 29

Slide 29 text

USR: An Unsupervised and Reference Free Evaluation Metric for Dialog Generation (S. Mehri+) [5] ● 分解して解釈可能であり、必要に応じて全体評価値への 回帰の重みを変えるなど柔軟に使用可能 [5] Table 3,4: 指標ごとの相関 [5] Table 5: 全体評価値の相関

Slide 30

Slide 30 text

uBLEU: Uncertainty-Aware Automatic Evaluation Method for Open-Domain Dialogue Systems (T. Yuma+) [7] ● 既存の評価指標 ΔBLEU の人手評価が必要な部分を、ス コアを推論するNN で置き換えた uBLEU を提案。 [7] Fig. 1 の一部

Slide 31

Slide 31 text

uBLEU: Uncertainty-Aware Automatic Evaluation Method for Open-Domain Dialogue Systems (T. Yuma+) [7] ● retrieve のための類似度計算など細かい点も改善。 ● 人手評価との相関で ΔBLEU とほぼ変わらない性能に。 ● RUBER の ref-base 部 分を uBLEU で置き換 えることで性能改善 [7] Table 3

Slide 32

Slide 32 text

Towards Holistic and Automatic Evaluation of Open-Domain Dialogue Generation (B. Pang+) [8] ● 4つの観点についてそれぞれ性能評価指標を作成。 1. Context Coherence: GPT-2 ベースの指標 2. Fluency: GPT-2 ベースの指標 3. Response Diversity: paraphrase augmented な データに対してn-gram entropy 4. Logical Self-Consistency: MNLI ライクの指標 ● 上記4つを総合的に判断することを提案。

Slide 33

Slide 33 text

Towards Holistic and Automatic Evaluation of Open-Domain Dialogue Generation (B. Pang+) [8] ● 4つそれぞれで人手評価値との高い相関を記録。 ● 4つの指標間の相関も調査、どれもだいたい独立である ため全てを見るのが良いとのこと。 [8] Table 3: Context Coherence [8] Table 4: Fluency

Slide 34

Slide 34 text

ありがとうございました

Slide 35

Slide 35 text

Reference [1] Learning an Unreferenced Metric for Online Dialogue Evaluation, K. Sinha et al., ACL 2020, https://arxiv.org/abs/2005.00583 [2] Beyond User Self-Reported Likert Scale Ratings: A Comparison Model for Automatic Dialog Evaluation, W. Liang et al., ACL 2020, https://arxiv.org/abs/2005.10716 [3] Evaluating Dialogue Generation Systems via Response Selection, S. Sato et al., ACL 2020, https://arxiv.org/abs/2004.14302 [4] Speaker Sensitive Response Evaluation Model, J. Bak et al., ACL 2020, https://arxiv.org/abs/2006.07015 [5] USR: An Unsupervised and Reference Free Evaluation Metric for Dialog Generation, S. Mehri et al., ACL 2020, https://arxiv.org/abs/2005.00456 [6] Designing Precise and Robust Dialogue Response Evaluators, T. Zhao et al., ACL 2020, https://arxiv.org/abs/2004.04908 [7] uBLEU: Uncertainty-Aware Automatic Evaluation Method for Open-Domain Dialogue Systems, T. Yuma et al., ACL 2020, https://www.aclweb.org/anthology/2020.acl-srw.27/ [8] Towards Holistic and Automatic Evaluation of Open-Domain Dialogue Generation, B. Pang et al., ACL 2020, https://www.aclweb.org/anthology/2020.acl-main.333/ [9] RUBER: An Unsupervised Method for Automatic Evaluation of Open-Domain Dialog Systems, C. Tao et al., AAAI 2018, https://arxiv.org/abs/1701.03079

Slide 36

Slide 36 text

No content