Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[ACL2019網羅的サーベイ報告会資料] Do Neural Dialog Systems ...

cfiken
November 02, 2019

[ACL2019網羅的サーベイ報告会資料] Do Neural Dialog Systems Use the Conversation History Effectively? An Empirical Study

cfiken

November 02, 2019
Tweet

More Decks by cfiken

Other Decks in Research

Transcript

  1. Do Neural Dialog Systems Use the Conversation History Effectively? An

    Empirical Study Chinnadhurai Sankar, Sandeep Subramanian, Christopher Pal, Sarath Chandar, Yoshua Bengio 2019/11/02 ACL2019網羅的サーベイ報告会 Kentaro Nakanishi @cfiken
  2. 自己紹介 name: Kentaro Nakanishi id: @cfiken iOS -> 機械学習、最近は AWS

    や iOS も ▪ 最近の悩み ←のアイコンが使うと社名が 出せない
  3. 論文紹介: まとめ • モチベーション ◦ 対話モデルは色々研究されてるが、推論の際にちゃんと 入力(対話履歴)を活用できているのだろうか? • 実験内容 ◦

    対話履歴に perturbation を入れて、モデルの出力の変 化を観察することで活用できているか調査した • 結論 ◦ よく使われるモデルで実験したところ、あまり対話履歴 を活用できていなさそうということが分かった
  4. Introduction まだまだ課題の多い対話応答モデル • 一貫性がない (理解力が足りていない) • 多様性がない (Thank you など単調な返答が多い)

    • 評価方法が確立してない • etc... 指摘の1つとして、対話履歴を上手く活用できていないと いうものがあるが、実験的な調査は行われていない
  5. 実験内容: やること • 学習済みモデル出力の Perplexity (PPL) を計測する • 対話履歴に perturbation

    (摂動) を入れた場合でも同様 に計測し、差分を観察する • 差分が大きい (PPL が大きく増加) すると良い
  6. 実験内容: Perturbation Type Utterance Level • shuffle • reverse ◦

    対話履歴の順序を逆に • drop (first, last) • truncate ◦ 対話履歴を過去 k 個までに Word Level • shuffle • reverse • drop (30%) • noun-drop ◦ 名詞すべて drop • verb-drop ◦ 動詞すべて drop
  7. 実験内容: モデル • recurrent base ◦ seq2seq LSTM ◦ seq2seq

    LSTM + attention • transformer base ◦ Transformer • どのモデルも 2 層の小さなモデルを使用
  8. 実験内容: データセット 次のデータセットをそれぞれ使用して実験する • bAbI dialog [2] ◦ training, validation,

    test それぞれ 1000 dialogs (task 6 を使用) • PersonaChat [3] ◦ train/valid/test = 11,000/1,000/1,0000 (だいたい) • Dailydialog [4] ◦ train/valid/test = 11,000/1,000/1,0000 (だいたい) • MutualFriends [5] ◦ 約 11,000 dialogs を train:valid:test = 8:1:1 に split
  9. 結果の前に ここまでの確認 • perturbation を加えてモデル出力の PPL を観測する ◦ PPL が変化しない

    = 入力の変化に insensitive      = 対話履歴を活用していない ◦ PPL が増加 = 入力の変化に sensitive = 対話履歴を活用できている
  10. 結果1: Truncate • seq2seq LSTM+attn が最も履歴を参照している • 6 -> 3

    に減らしてもどのモデルもそこまで変化しない Fig. 1: truncate での比較, Dailydialog(左), bAbI dialog (右), どちらも縦軸が PPL の増分, 横軸が履歴の数
  11. 結果2-1: Only Last どのデータセットでも seq2seq LSTM + attention の PPL

    が最 も増加 (truncate の詳細) 最後のセンテンスのみ perturbation なしの PPL
  12. Observation 1/2 • 全体の傾向として、入力に大きな perturbation を加え ても PPL に変化が少ない ◦

    対話履歴の全情報を上手く使えているとは言えない • Transformer は特に word re-ordering に対して変化が 少ない ◦ (相対的に) bag-of-words よりの特徴を学習してい ると考えられる
  13. Observation 2/2 • attention mechanism によって古い対話を参照するこ とが出来ている ◦ truncate のグラフでわかる

    • Transformer の方が収束も早く精度も高いが、対話履 歴内の発話を上手く捉えているわけではなさそう ◦ perturbation でみると recurrent base の方が高い sensitivity となった
  14. 感想など 2/4 • 対話モデルで特に難しい課題とされている評価手法に対 するアプローチにもなりうる ◦ 対話の直接的な評価を行うのは難しいが、モデルの 評価基準の1つになっても良さそう • 一方で、各

    perturbation に対する出力の PPL の変化 が大きい/小さいをどう見たら良いのか疑問 ◦ この提案手法で良い = 良い対話か? という疑問も ◦ 人に同様のタスクで解かせてみて正答率見たい
  15. 感想など 3/4 • 一種の評価ができる = 学習に使える? ◦ auxiliary loss, adversarial

    loss, ... • Self-Supervised Dialogue Learning [6] (ACL 2019) ◦ サンプリングした発話の順序が正しいかどうかを当 てるタスクを定義し、それを対話モデルの adversarial learning に使用している
  16. 感想など 4/4 • Transformer は word re-ordering に弱い? ◦ 明示的に順序通りに入力する

    recurrent base と違い、 positional encoding を加えているだけ • 一方で、順序情報が重要と考えられる commonsense reasoning タスクで BERT 特徴が使えたという話も ◦ Attention Is (not) All You Need for Commonsense Reasoning [7] (ACL 2019) • 大量のデータで unsupervised に学習できれば獲得す ることも可能? or 順序なくてもある程度解ける?
  17. Reference [1] Do Neural Dialog Systems Use the Conversation History

    Effectively? An Empirical Study, C. Sankar et al., ACL 2019, https://arxiv.org/abs/1906.01603 [2] Learning End-to-End Goal-Oriented Dialog, A. Bordes et al., ICLR 2017, https://arxiv.org/abs/1605.07683 [3] Personalizing Dialogue Agents: I have a dog, do you have pets too?, S. Zhang et al., ACL 2018, https://arxiv.org/abs/1801.07243 [4] DailyDialog: A Manually Labelled Multi-turn Dialogue Dataset, Y. Li et al., IJCNLP 2017, https://arxiv.org/abs/1710.03957 [5] Learning Symmetric Collaborative Dialogue Agents with Dynamic Knowledge Graph Embeddings, H. He et al., ACL 2017, https://arxiv.org/abs/1704.07130 [6] Self-Supervised Dialogue Learning, J. Wu et al, ACL 2019, https://arxiv.org/abs/1907.00448 [7]Attention Is (not) All You Need for Commonsense Reasoning, T. Klein and M. Nabi, ACL 2019, https://arxiv.org/abs/1905.13497