Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介:Investigating Evaluation of Open-Domain Dialogue Systems With Human Generated Multiple References

shu_suzuki
February 13, 2020

文献紹介:Investigating Evaluation of Open-Domain Dialogue Systems With Human Generated Multiple References

長岡技術科学大学
自然言語処理研究室
鈴木脩右

shu_suzuki

February 13, 2020
Tweet

More Decks by shu_suzuki

Other Decks in Technology

Transcript

  1. 文献紹介 Investigating Evaluation of Open-Domain Dialogue Systems With Human Generated

    Multiple References 鈴木脩右 2020/02/13 長岡技術科学大学 自然言語処理研究室 1
  2. 文献情報 [1] Prakhar Gupta, Shikib Mehri, Tiancheng Zhao, Amy Pavel,

    Maxine Eskenazi, and Jeffrey Bigham. Investigating evaluation of open-domain dialogue systems with human generated multiple references. In Proceedings of the 20th Annual SIGdial Meeting on Discourse and Dialogue, pages 379–391, Stockholm, Sweden, September 2019. Association for Computational Linguistics. 2
  3. Metrics • Word-overlap based metrics • BLEU - n-gram の重複に基づく

    • METEOR - F 値に単語の非連続性に対するペナルティを付与 • ROUGE-L - 一致する最大のシーケンスに基づく F 値 • Embedding based metrics • Embedding Average - 単語ベクトル平均 • Vector Extrema - 単語ベクトルの極値を利用 • Greedy Matching - 各単語の cos 類似度に基づく一致スコアの平均 • Skip-Thought - 事前学習された RNN ベースの文ベクトル • GenSen - マルチタスクで学習した Seq2Seq ベースの文ベクトル 7
  4. Compared Models • Human - 人が作成した文 • Dual Encoder -

    用例ベース.応答候補はトレーニングデータ • Seq2Seq - 生成ベース.LSTM+Attention で構成 • HRED - 生成ベース. 階層構造の Encoder を利用 • CVAE - 生成ベース.HRED に CVAE を組み込んだもの. 8
  5. Data collection Procedure • Amazon Mechanical Turk(AMT) で収集 • ワーカーは一つの対話に

    4 つの多様な応答を付与 • 短文・短時間で入力された応答を除外 9
  6. Experiment • 人手評価と自動評価との相関を見る • ランダムな 100 個のコンテキストに対する応答をワーカー が評価 • Quality:ワーカー

    5名,スケール 5段階,平均κスコアは 0.43 • Diversity:ワーカー 3 名,適切な応答に絞り多様性のスコア をつける,平均κスコアは 0.41 11
  7. Results -Quality 1- • 全てのメトリックで複数参照の方が相関が高い Table 2: Correlation of various

    metrics when evaluated using single-reference and multi-reference test sets.[1] 12
  8. Effect of number of references • 3-5 個では急激に増加 • 8

    個あたりからは横ばい Figure 2: Change in correlation with varying number of references.[1] 15