文献紹介:Towards an Automatic Turing Test: Learning to Evaluate Dialogue Responses

文献紹介 Towards an Automatic Turing Test: Learning to Evaluate Dialogue
Responses 鈴木脩右 2019/4/1 長岡技術科学大学自然言語処理研究室 1

文献情報 [1] Ryan Lowe, Michael Noseworthy, Iulian Vlad Serban, Nicolas
Angelard-Gontier, Yoshua Bengio, and Joelle Pineau. Towards an Automatic Turing Test: Learning to Evaluate Dialogue Responses. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1116–1126, Vancouver, Canada, July 2017. Association for Computational Linguistics. 2

概要 • 非タスク指向対話システムの応答を自動評価するモデル ADEM を提案 • HRNN を使うことで文脈を考慮して応答を評価できる • BLEU
などの指標と比較し，ADEM が最も人手評価と相関が高かった 3

背景 • 非タスク指向対話システムの評価指標には BLEU が使わることが多い • BLEU では意味的類似性や文脈依存性を測れない •
応答生成は多様性があるため，BLEU は不向き • 人手評価との相関がないことも指定されている [Liu et al. 2016] 4

提案手法 1 • HRNN で文脈，参照応答，モデル応答を読み込み最後の隠れ層のベクトルをアフィン変換して回帰を行う Figure 1: ADEM モデル
[1] 5

提案手法 2 6

提案手法 3 • encoder を対話システムとして VHRED で学習させる • 多様性のある応答を学習する Figure
2: VHRED モデル [1] 7

評価対象 • Twitter コーパスを対象に応答を生成 • 評価対象は 4 つ • TF-IDF
ベース • Dual Encoder ベース • HRED • 人間が作った応答文 8

実験結果 1 Table 1: 発話レベルの相関 [1] 9

実験結果 2 Figure 3: 相関グラフ [1] 10

実験結果 3 • 各生成手法によるレスポンスの平均スコア Figure 4: 平均スコア [1] 11

まとめ • 非タスク指向対話システムの応答を自動評価するモデル ADEM を提案 • モデルは文脈や参照応答を再生成するように事前学習を行う • ラベルなしの事前学習＋回帰の教師つきの半教師つき学習を行う
• 提案モデルは既存の評価手法よりも，人手評価との相関が高かった 12

文献紹介:Towards an Automatic Turing Test: Learning...

文献紹介:Towards an Automatic Turing Test: Learning to Evaluate Dialogue Responses

shu_suzuki

More Decks by shu_suzuki

Other Decks in Technology

Featured

Transcript