Slide 1

Slide 1 text

Do Neural Dialog Systems Use the Conversation History Effectively? An Empirical Study Chinnadhurai Sankar, Sandeep Subramanian, Christopher Pal, Sarath Chandar, Yoshua Bengio 2019/11/02 ACL2019網羅的サーベイ報告会 Kentaro Nakanishi @cfiken

Slide 2

Slide 2 text

自己紹介 name: Kentaro Nakanishi id: @cfiken iOS -> 機械学習、最近は AWS や iOS も ■ 最近の悩み ←のアイコンが使うと社名が 出せない

Slide 3

Slide 3 text

論文紹介: まとめ ● モチベーション ○ 対話モデルは色々研究されてるが、推論の際にちゃんと 入力(対話履歴)を活用できているのだろうか? ● 実験内容 ○ 対話履歴に perturbation を入れて、モデルの出力の変 化を観察することで活用できているか調査した ● 結論 ○ よく使われるモデルで実験したところ、あまり対話履歴 を活用できていなさそうということが分かった

Slide 4

Slide 4 text

論文紹介 Introduction

Slide 5

Slide 5 text

Introduction 対話モデルの進化に注目が集まっている ACL 2019 dialog: 37件, conversation: 29件 ACL 1st Conversation Workshop 開催

Slide 6

Slide 6 text

Introduction まだまだ課題の多い対話応答モデル ● 一貫性がない (理解力が足りていない) ● 多様性がない (Thank you など単調な返答が多い) ● 評価方法が確立してない ● etc... 指摘の1つとして、対話履歴を上手く活用できていないと いうものがあるが、実験的な調査は行われていない

Slide 7

Slide 7 text

Introduction: 本論文の目的 モデルが対話履歴を活用できているのか実験で検証する ● 入力となる対話履歴に perturbation (摂動) を加えて 推論を行い、出力の変化を見ることで検証

Slide 8

Slide 8 text

Introduction: 本論文の目的 モデルが対話履歴を活用できているのか実験で検証する Model Input Model’s Response How much is it?

Slide 9

Slide 9 text

Introduction: 本論文の目的 モデルが対話履歴を活用できているのか実験で検証する Model Input + 摂動 Model’s Response ???? How much is it ?

Slide 10

Slide 10 text

実験内容詳細

Slide 11

Slide 11 text

実験内容: やること ● 学習済みモデル出力の Perplexity (PPL) を計測する ● 対話履歴に perturbation (摂動) を入れた場合でも同様 に計測し、差分を観察する ● 差分が大きい (PPL が大きく増加) すると良い

Slide 12

Slide 12 text

実験内容: Perturbation Type Utterance Level ● shuffle ● reverse ○ 対話履歴の順序を逆に ● drop (first, last) ● truncate ○ 対話履歴を過去 k 個までに Word Level ● shuffle ● reverse ● drop (30%) ● noun-drop ○ 名詞すべて drop ● verb-drop ○ 動詞すべて drop

Slide 13

Slide 13 text

実験内容: モデル ● recurrent base ○ seq2seq LSTM ○ seq2seq LSTM + attention ● transformer base ○ Transformer ● どのモデルも 2 層の小さなモデルを使用

Slide 14

Slide 14 text

実験内容: データセット 次のデータセットをそれぞれ使用して実験する ● bAbI dialog [2] ○ training, validation, test それぞれ 1000 dialogs (task 6 を使用) ● PersonaChat [3] ○ train/valid/test = 11,000/1,000/1,0000 (だいたい) ● Dailydialog [4] ○ train/valid/test = 11,000/1,000/1,0000 (だいたい) ● MutualFriends [5] ○ 約 11,000 dialogs を train:valid:test = 8:1:1 に split

Slide 15

Slide 15 text

実験結果

Slide 16

Slide 16 text

結果の前に ここまでの確認 ● perturbation を加えてモデル出力の PPL を観測する ○ PPL が変化しない = 入力の変化に insensitive      = 対話履歴を活用していない ○ PPL が増加 = 入力の変化に sensitive = 対話履歴を活用できている

Slide 17

Slide 17 text

結果1: Truncate ● seq2seq LSTM+attn が最も履歴を参照している ● 6 -> 3 に減らしてもどのモデルもそこまで変化しない Fig. 1: truncate での比較, Dailydialog(左), bAbI dialog (右), どちらも縦軸が PPL の増分, 横軸が履歴の数

Slide 18

Slide 18 text

結果2-1: Truncate 以外の結果 Table 1: 各モデル、各データセットでの perturbation に対する PPL

Slide 19

Slide 19 text

結果2-1: Only Last どのデータセットでも seq2seq LSTM + attention の PPL が最 も増加 (truncate の詳細) 最後のセンテンスのみ perturbation なしの PPL

Slide 20

Slide 20 text

結果2-2: Utterance Level Table 1: 各モデル、各データセットでの perturbation に対する PPL Utterance Level

Slide 21

Slide 21 text

結果2-2: Utterance Level 全体で Transformer の PPL 変化がほとんどない LSTM についても一部を 除いて PPL に大きな変 化はない

Slide 22

Slide 22 text

結果2-3: Word Level Table 1: 各モデル、各データセットでの perturbation に対する PPL Word Level

Slide 23

Slide 23 text

結果2-3: Word Level 全体的に変化がほとん どない order 系の摂動に対し て Transformer の変 化が特に小さい

Slide 24

Slide 24 text

Observation / Conclusion

Slide 25

Slide 25 text

Observation 1/2 ● 全体の傾向として、入力に大きな perturbation を加え ても PPL に変化が少ない ○ 対話履歴の全情報を上手く使えているとは言えない ● Transformer は特に word re-ordering に対して変化が 少ない ○ (相対的に) bag-of-words よりの特徴を学習してい ると考えられる

Slide 26

Slide 26 text

Observation 2/2 ● attention mechanism によって古い対話を参照するこ とが出来ている ○ truncate のグラフでわかる ● Transformer の方が収束も早く精度も高いが、対話履 歴内の発話を上手く捉えているわけではなさそう ○ perturbation でみると recurrent base の方が高い sensitivity となった

Slide 27

Slide 27 text

Conclusion ● モデルの入力となる対話履歴にそこそこ不自然な修正を 加えても、モデルはそこまで大きな影響を受けていない

Slide 28

Slide 28 text

感想など

Slide 29

Slide 29 text

感想など 1/4 ● 経験的に言われていたことをちゃんと実験で再現してい てとても良い ○ とはいえまだ小規模モデルでの調査なので、これを 起点とした研究が色々出てきそう ○ 特に最近のモデルはこの対話履歴をどう上手く取り 入れるかを工夫しているものが多いので気になる

Slide 30

Slide 30 text

感想など 2/4 ● 対話モデルで特に難しい課題とされている評価手法に対 するアプローチにもなりうる ○ 対話の直接的な評価を行うのは難しいが、モデルの 評価基準の1つになっても良さそう ● 一方で、各 perturbation に対する出力の PPL の変化 が大きい/小さいをどう見たら良いのか疑問 ○ この提案手法で良い = 良い対話か? という疑問も ○ 人に同様のタスクで解かせてみて正答率見たい

Slide 31

Slide 31 text

感想など 3/4 ● 一種の評価ができる = 学習に使える? ○ auxiliary loss, adversarial loss, ... ● Self-Supervised Dialogue Learning [6] (ACL 2019) ○ サンプリングした発話の順序が正しいかどうかを当 てるタスクを定義し、それを対話モデルの adversarial learning に使用している

Slide 32

Slide 32 text

感想など 4/4 ● Transformer は word re-ordering に弱い? ○ 明示的に順序通りに入力する recurrent base と違い、 positional encoding を加えているだけ ● 一方で、順序情報が重要と考えられる commonsense reasoning タスクで BERT 特徴が使えたという話も ○ Attention Is (not) All You Need for Commonsense Reasoning [7] (ACL 2019) ● 大量のデータで unsupervised に学習できれば獲得す ることも可能? or 順序なくてもある程度解ける?

Slide 33

Slide 33 text

ありがとうございました

Slide 34

Slide 34 text

Reference [1] Do Neural Dialog Systems Use the Conversation History Effectively? An Empirical Study, C. Sankar et al., ACL 2019, https://arxiv.org/abs/1906.01603 [2] Learning End-to-End Goal-Oriented Dialog, A. Bordes et al., ICLR 2017, https://arxiv.org/abs/1605.07683 [3] Personalizing Dialogue Agents: I have a dog, do you have pets too?, S. Zhang et al., ACL 2018, https://arxiv.org/abs/1801.07243 [4] DailyDialog: A Manually Labelled Multi-turn Dialogue Dataset, Y. Li et al., IJCNLP 2017, https://arxiv.org/abs/1710.03957 [5] Learning Symmetric Collaborative Dialogue Agents with Dynamic Knowledge Graph Embeddings, H. He et al., ACL 2017, https://arxiv.org/abs/1704.07130 [6] Self-Supervised Dialogue Learning, J. Wu et al, ACL 2019, https://arxiv.org/abs/1907.00448 [7]Attention Is (not) All You Need for Commonsense Reasoning, T. Klein and M. Nabi, ACL 2019, https://arxiv.org/abs/1905.13497

Slide 35

Slide 35 text

No content