[ACL2019網羅的サーベイ報告会資料] Do Neural Dialog Systems Use the Conversation History Effectively? An Empirical Study

Slide 1

Slide 1 text

Do Neural Dialog Systems Use the Conversation History Eﬀectively? An Empirical Study Chinnadhurai Sankar, Sandeep Subramanian, Christopher Pal, Sarath Chandar, Yoshua Bengio 2019/11/02 ACL2019網羅的サーベイ報告会 Kentaro Nakanishi @cﬁken

Slide 2

Slide 2 text

自己紹介 name: Kentaro Nakanishi id: @cﬁken iOS -> 機械学習、最近は AWS や iOS も ■ 最近の悩み ←のアイコンが使うと社名が出せない

Slide 3

Slide 3 text

論文紹介: まとめ ● モチベーション ○ 対話モデルは色々研究されてるが、推論の際にちゃんと入力(対話履歴)を活用できているのだろうか? ● 実験内容 ○ 対話履歴に perturbation を入れて、モデルの出力の変化を観察することで活用できているか調査した ● 結論 ○ よく使われるモデルで実験したところ、あまり対話履歴を活用できていなさそうということが分かった

Slide 4

Slide 4 text

論文紹介 Introduction

Slide 5

Slide 5 text

Introduction 対話モデルの進化に注目が集まっている ACL 2019 dialog: 37件, conversation: 29件 ACL 1st Conversation Workshop 開催

Slide 6

Slide 6 text

Introduction まだまだ課題の多い対話応答モデル ● 一貫性がない (理解力が足りていない) ● 多様性がない (Thank you など単調な返答が多い) ● 評価方法が確立してない ● etc... 指摘の１つとして、対話履歴を上手く活用できていないというものがあるが、実験的な調査は行われていない

Slide 7

Slide 7 text

Introduction: 本論文の目的モデルが対話履歴を活用できているのか実験で検証する ● 入力となる対話履歴に perturbation (摂動) を加えて推論を行い、出力の変化を見ることで検証

Slide 8

Slide 8 text

Introduction: 本論文の目的モデルが対話履歴を活用できているのか実験で検証する Model Input Model’s Response How much is it?

Slide 9

Slide 9 text

Introduction: 本論文の目的モデルが対話履歴を活用できているのか実験で検証する Model Input + 摂動 Model’s Response ???? How much is it ?

Slide 10

Slide 10 text

実験内容詳細

Slide 11

Slide 11 text

実験内容: やること ● 学習済みモデル出力の Perplexity (PPL) を計測する ● 対話履歴に perturbation (摂動) を入れた場合でも同様に計測し、差分を観察する ● 差分が大きい (PPL が大きく増加) すると良い

Slide 12

Slide 12 text

実験内容: Perturbation Type Utterance Level ● shuffle ● reverse ○ 対話履歴の順序を逆に ● drop (first, last) ● truncate ○ 対話履歴を過去 k 個までに Word Level ● shuffle ● reverse ● drop (30%) ● noun-drop ○ 名詞すべて drop ● verb-drop ○ 動詞すべて drop

Slide 13

Slide 13 text

実験内容: モデル ● recurrent base ○ seq2seq LSTM ○ seq2seq LSTM + attention ● transformer base ○ Transformer ● どのモデルも 2 層の小さなモデルを使用

Slide 14

Slide 14 text

実験内容: データセット次のデータセットをそれぞれ使用して実験する ● bAbI dialog [2] ○ training, validation, test それぞれ 1000 dialogs (task 6 を使用) ● PersonaChat [3] ○ train/valid/test = 11,000/1,000/1,0000 (だいたい) ● Dailydialog [4] ○ train/valid/test = 11,000/1,000/1,0000 (だいたい) ● MutualFriends [5] ○ 約 11,000 dialogs を train:valid:test = 8:1:1 に split

Slide 15

Slide 15 text

実験結果

Slide 16

Slide 16 text

結果の前にここまでの確認 ● perturbation を加えてモデル出力の PPL を観測する ○ PPL が変化しない = 入力の変化に insensitive　　　　　 = 対話履歴を活用していない ○ PPL が増加 = 入力の変化に sensitive = 対話履歴を活用できている

Slide 17

Slide 17 text

結果1: Truncate ● seq2seq LSTM+attn が最も履歴を参照している ● ６ -> 3 に減らしてもどのモデルもそこまで変化しない Fig. 1: truncate での比較, Dailydialog(左), bAbI dialog (右), どちらも縦軸が PPL の増分, 横軸が履歴の数

Slide 18

Slide 18 text

結果2-1: Truncate 以外の結果 Table 1: 各モデル、各データセットでの perturbation に対する PPL

Slide 19

Slide 19 text

結果2-1: Only Last どのデータセットでも seq2seq LSTM + attention の PPL が最も増加 (truncate の詳細) 最後のセンテンスのみ perturbation なしの PPL

Slide 20

Slide 20 text

結果2-2: Utterance Level Table 1: 各モデル、各データセットでの perturbation に対する PPL Utterance Level

Slide 21

Slide 21 text

結果2-2: Utterance Level 全体で Transformer の PPL 変化がほとんどない LSTM についても一部を除いて PPL に大きな変化はない

Slide 22

Slide 22 text

結果2-3: Word Level Table 1: 各モデル、各データセットでの perturbation に対する PPL Word Level

Slide 23

Slide 23 text

結果2-3: Word Level 全体的に変化がほとんどない order 系の摂動に対して Transformer の変化が特に小さい

Slide 24

Slide 24 text

Observation / Conclusion

Slide 25

Slide 25 text

Observation 1/2 ● 全体の傾向として、入力に大きな perturbation を加えても PPL に変化が少ない ○ 対話履歴の全情報を上手く使えているとは言えない ● Transformer は特に word re-ordering に対して変化が少ない ○ (相対的に) bag-of-words よりの特徴を学習していると考えられる

Slide 26

Slide 26 text

Observation 2/2 ● attention mechanism によって古い対話を参照することが出来ている ○ truncate のグラフでわかる ● Transformer の方が収束も早く精度も高いが、対話履歴内の発話を上手く捉えているわけではなさそう ○ perturbation でみると recurrent base の方が高い sensitivity となった

Slide 27

Slide 27 text

Conclusion ● モデルの入力となる対話履歴にそこそこ不自然な修正を加えても、モデルはそこまで大きな影響を受けていない

Slide 28

Slide 28 text

感想など

Slide 29

Slide 29 text

感想など 1/4 ● 経験的に言われていたことをちゃんと実験で再現していてとても良い ○ とはいえまだ小規模モデルでの調査なので、これを起点とした研究が色々出てきそう ○ 特に最近のモデルはこの対話履歴をどう上手く取り入れるかを工夫しているものが多いので気になる

Slide 30

Slide 30 text

感想など 2/4 ● 対話モデルで特に難しい課題とされている評価手法に対するアプローチにもなりうる ○ 対話の直接的な評価を行うのは難しいが、モデルの評価基準の1つになっても良さそう ● 一方で、各 perturbation に対する出力の PPL の変化が大きい/小さいをどう見たら良いのか疑問 ○ この提案手法で良い = 良い対話か? という疑問も ○ 人に同様のタスクで解かせてみて正答率見たい

Slide 31

Slide 31 text

感想など 3/4 ● 一種の評価ができる = 学習に使える? ○ auxiliary loss, adversarial loss, ... ● Self-Supervised Dialogue Learning [6] (ACL 2019) ○ サンプリングした発話の順序が正しいかどうかを当てるタスクを定義し、それを対話モデルの adversarial learning に使用している

Slide 32

Slide 32 text

感想など 4/4 ● Transformer は word re-ordering に弱い? ○ 明示的に順序通りに入力する recurrent base と違い、 positional encoding を加えているだけ ● 一方で、順序情報が重要と考えられる commonsense reasoning タスクで BERT 特徴が使えたという話も ○ Attention Is (not) All You Need for Commonsense Reasoning [7] (ACL 2019) ● 大量のデータで unsupervised に学習できれば獲得することも可能? or 順序なくてもある程度解ける?

Slide 33

Slide 33 text

ありがとうございました

Slide 34

Slide 34 text

Reference [1] Do Neural Dialog Systems Use the Conversation History Eﬀectively? An Empirical Study, C. Sankar et al., ACL 2019, https://arxiv.org/abs/1906.01603 [2] Learning End-to-End Goal-Oriented Dialog, A. Bordes et al., ICLR 2017, https://arxiv.org/abs/1605.07683 [3] Personalizing Dialogue Agents: I have a dog, do you have pets too?, S. Zhang et al., ACL 2018, https://arxiv.org/abs/1801.07243 [4] DailyDialog: A Manually Labelled Multi-turn Dialogue Dataset, Y. Li et al., IJCNLP 2017, https://arxiv.org/abs/1710.03957 [5] Learning Symmetric Collaborative Dialogue Agents with Dynamic Knowledge Graph Embeddings, H. He et al., ACL 2017, https://arxiv.org/abs/1704.07130 [6] Self-Supervised Dialogue Learning, J. Wu et al, ACL 2019, https://arxiv.org/abs/1907.00448 [7]Attention Is (not) All You Need for Commonsense Reasoning, T. Klein and M. Nabi, ACL 2019, https://arxiv.org/abs/1905.13497

Slide 35

Slide 35 text

No content