[ACL2019網羅的サーベイ報告会資料] Do Neural Dialog Systems Use the Conversation History Effectively? An Empirical Study

B9c41546565298648a2fea82172d4417?s=47 cfiken
November 02, 2019

[ACL2019網羅的サーベイ報告会資料] Do Neural Dialog Systems Use the Conversation History Effectively? An Empirical Study

B9c41546565298648a2fea82172d4417?s=128

cfiken

November 02, 2019
Tweet

Transcript

  1. Do Neural Dialog Systems Use the Conversation History Effectively? An

    Empirical Study Chinnadhurai Sankar, Sandeep Subramanian, Christopher Pal, Sarath Chandar, Yoshua Bengio 2019/11/02 ACL2019網羅的サーベイ報告会 Kentaro Nakanishi @cfiken
  2. 自己紹介 name: Kentaro Nakanishi id: @cfiken iOS -> 機械学習、最近は AWS

    や iOS も ▪ 最近の悩み ←のアイコンが使うと社名が 出せない
  3. 論文紹介: まとめ • モチベーション ◦ 対話モデルは色々研究されてるが、推論の際にちゃんと 入力(対話履歴)を活用できているのだろうか? • 実験内容 ◦

    対話履歴に perturbation を入れて、モデルの出力の変 化を観察することで活用できているか調査した • 結論 ◦ よく使われるモデルで実験したところ、あまり対話履歴 を活用できていなさそうということが分かった
  4. 論文紹介 Introduction

  5. Introduction 対話モデルの進化に注目が集まっている ACL 2019 dialog: 37件, conversation: 29件 ACL 1st

    Conversation Workshop 開催
  6. Introduction まだまだ課題の多い対話応答モデル • 一貫性がない (理解力が足りていない) • 多様性がない (Thank you など単調な返答が多い)

    • 評価方法が確立してない • etc... 指摘の1つとして、対話履歴を上手く活用できていないと いうものがあるが、実験的な調査は行われていない
  7. Introduction: 本論文の目的 モデルが対話履歴を活用できているのか実験で検証する • 入力となる対話履歴に perturbation (摂動) を加えて 推論を行い、出力の変化を見ることで検証

  8. Introduction: 本論文の目的 モデルが対話履歴を活用できているのか実験で検証する Model Input Model’s Response How much is

    it?
  9. Introduction: 本論文の目的 モデルが対話履歴を活用できているのか実験で検証する Model Input + 摂動 Model’s Response ????

    How much is it ?
  10. 実験内容詳細

  11. 実験内容: やること • 学習済みモデル出力の Perplexity (PPL) を計測する • 対話履歴に perturbation

    (摂動) を入れた場合でも同様 に計測し、差分を観察する • 差分が大きい (PPL が大きく増加) すると良い
  12. 実験内容: Perturbation Type Utterance Level • shuffle • reverse ◦

    対話履歴の順序を逆に • drop (first, last) • truncate ◦ 対話履歴を過去 k 個までに Word Level • shuffle • reverse • drop (30%) • noun-drop ◦ 名詞すべて drop • verb-drop ◦ 動詞すべて drop
  13. 実験内容: モデル • recurrent base ◦ seq2seq LSTM ◦ seq2seq

    LSTM + attention • transformer base ◦ Transformer • どのモデルも 2 層の小さなモデルを使用
  14. 実験内容: データセット 次のデータセットをそれぞれ使用して実験する • bAbI dialog [2] ◦ training, validation,

    test それぞれ 1000 dialogs (task 6 を使用) • PersonaChat [3] ◦ train/valid/test = 11,000/1,000/1,0000 (だいたい) • Dailydialog [4] ◦ train/valid/test = 11,000/1,000/1,0000 (だいたい) • MutualFriends [5] ◦ 約 11,000 dialogs を train:valid:test = 8:1:1 に split
  15. 実験結果

  16. 結果の前に ここまでの確認 • perturbation を加えてモデル出力の PPL を観測する ◦ PPL が変化しない

    = 入力の変化に insensitive      = 対話履歴を活用していない ◦ PPL が増加 = 入力の変化に sensitive = 対話履歴を活用できている
  17. 結果1: Truncate • seq2seq LSTM+attn が最も履歴を参照している • 6 -> 3

    に減らしてもどのモデルもそこまで変化しない Fig. 1: truncate での比較, Dailydialog(左), bAbI dialog (右), どちらも縦軸が PPL の増分, 横軸が履歴の数
  18. 結果2-1: Truncate 以外の結果 Table 1: 各モデル、各データセットでの perturbation に対する PPL

  19. 結果2-1: Only Last どのデータセットでも seq2seq LSTM + attention の PPL

    が最 も増加 (truncate の詳細) 最後のセンテンスのみ perturbation なしの PPL
  20. 結果2-2: Utterance Level Table 1: 各モデル、各データセットでの perturbation に対する PPL Utterance

    Level
  21. 結果2-2: Utterance Level 全体で Transformer の PPL 変化がほとんどない LSTM についても一部を

    除いて PPL に大きな変 化はない
  22. 結果2-3: Word Level Table 1: 各モデル、各データセットでの perturbation に対する PPL Word

    Level
  23. 結果2-3: Word Level 全体的に変化がほとん どない order 系の摂動に対し て Transformer の変

    化が特に小さい
  24. Observation / Conclusion

  25. Observation 1/2 • 全体の傾向として、入力に大きな perturbation を加え ても PPL に変化が少ない ◦

    対話履歴の全情報を上手く使えているとは言えない • Transformer は特に word re-ordering に対して変化が 少ない ◦ (相対的に) bag-of-words よりの特徴を学習してい ると考えられる
  26. Observation 2/2 • attention mechanism によって古い対話を参照するこ とが出来ている ◦ truncate のグラフでわかる

    • Transformer の方が収束も早く精度も高いが、対話履 歴内の発話を上手く捉えているわけではなさそう ◦ perturbation でみると recurrent base の方が高い sensitivity となった
  27. Conclusion • モデルの入力となる対話履歴にそこそこ不自然な修正を 加えても、モデルはそこまで大きな影響を受けていない

  28. 感想など

  29. 感想など 1/4 • 経験的に言われていたことをちゃんと実験で再現してい てとても良い ◦ とはいえまだ小規模モデルでの調査なので、これを 起点とした研究が色々出てきそう ◦ 特に最近のモデルはこの対話履歴をどう上手く取り

    入れるかを工夫しているものが多いので気になる
  30. 感想など 2/4 • 対話モデルで特に難しい課題とされている評価手法に対 するアプローチにもなりうる ◦ 対話の直接的な評価を行うのは難しいが、モデルの 評価基準の1つになっても良さそう • 一方で、各

    perturbation に対する出力の PPL の変化 が大きい/小さいをどう見たら良いのか疑問 ◦ この提案手法で良い = 良い対話か? という疑問も ◦ 人に同様のタスクで解かせてみて正答率見たい
  31. 感想など 3/4 • 一種の評価ができる = 学習に使える? ◦ auxiliary loss, adversarial

    loss, ... • Self-Supervised Dialogue Learning [6] (ACL 2019) ◦ サンプリングした発話の順序が正しいかどうかを当 てるタスクを定義し、それを対話モデルの adversarial learning に使用している
  32. 感想など 4/4 • Transformer は word re-ordering に弱い? ◦ 明示的に順序通りに入力する

    recurrent base と違い、 positional encoding を加えているだけ • 一方で、順序情報が重要と考えられる commonsense reasoning タスクで BERT 特徴が使えたという話も ◦ Attention Is (not) All You Need for Commonsense Reasoning [7] (ACL 2019) • 大量のデータで unsupervised に学習できれば獲得す ることも可能? or 順序なくてもある程度解ける?
  33. ありがとうございました

  34. Reference [1] Do Neural Dialog Systems Use the Conversation History

    Effectively? An Empirical Study, C. Sankar et al., ACL 2019, https://arxiv.org/abs/1906.01603 [2] Learning End-to-End Goal-Oriented Dialog, A. Bordes et al., ICLR 2017, https://arxiv.org/abs/1605.07683 [3] Personalizing Dialogue Agents: I have a dog, do you have pets too?, S. Zhang et al., ACL 2018, https://arxiv.org/abs/1801.07243 [4] DailyDialog: A Manually Labelled Multi-turn Dialogue Dataset, Y. Li et al., IJCNLP 2017, https://arxiv.org/abs/1710.03957 [5] Learning Symmetric Collaborative Dialogue Agents with Dynamic Knowledge Graph Embeddings, H. He et al., ACL 2017, https://arxiv.org/abs/1704.07130 [6] Self-Supervised Dialogue Learning, J. Wu et al, ACL 2019, https://arxiv.org/abs/1907.00448 [7]Attention Is (not) All You Need for Commonsense Reasoning, T. Klein and M. Nabi, ACL 2019, https://arxiv.org/abs/1905.13497
  35. None