[ACL2019網羅的サーベイ報告会資料] Do Neural Dialog Systems Use the Conversation History Effectively? An Empirical Study

Do Neural Dialog Systems Use the Conversation History Eﬀectively? An
Empirical Study Chinnadhurai Sankar, Sandeep Subramanian, Christopher Pal, Sarath Chandar, Yoshua Bengio 2019/11/02 ACL2019網羅的サーベイ報告会 Kentaro Nakanishi @cﬁken

自己紹介 name: Kentaro Nakanishi id: @cﬁken iOS -> 機械学習、最近は AWS
や iOS も ▪ 最近の悩み ←のアイコンが使うと社名が出せない

論文紹介: まとめ • モチベーション ◦ 対話モデルは色々研究されてるが、推論の際にちゃんと入力(対話履歴)を活用できているのだろうか? • 実験内容 ◦
対話履歴に perturbation を入れて、モデルの出力の変化を観察することで活用できているか調査した • 結論 ◦ よく使われるモデルで実験したところ、あまり対話履歴を活用できていなさそうということが分かった

論文紹介 Introduction

Introduction 対話モデルの進化に注目が集まっている ACL 2019 dialog: 37件, conversation: 29件 ACL 1st
Conversation Workshop 開催

Introduction まだまだ課題の多い対話応答モデル • 一貫性がない (理解力が足りていない) • 多様性がない (Thank you など単調な返答が多い)
• 評価方法が確立してない • etc... 指摘の１つとして、対話履歴を上手く活用できていないというものがあるが、実験的な調査は行われていない

Introduction: 本論文の目的モデルが対話履歴を活用できているのか実験で検証する • 入力となる対話履歴に perturbation (摂動) を加えて推論を行い、出力の変化を見ることで検証

Introduction: 本論文の目的モデルが対話履歴を活用できているのか実験で検証する Model Input Model’s Response How much is
it?

Introduction: 本論文の目的モデルが対話履歴を活用できているのか実験で検証する Model Input + 摂動 Model’s Response ????
How much is it ?

実験内容詳細

実験内容: やること • 学習済みモデル出力の Perplexity (PPL) を計測する • 対話履歴に perturbation
(摂動) を入れた場合でも同様に計測し、差分を観察する • 差分が大きい (PPL が大きく増加) すると良い

実験内容: Perturbation Type Utterance Level • shuffle • reverse ◦
対話履歴の順序を逆に • drop (first, last) • truncate ◦ 対話履歴を過去 k 個までに Word Level • shuffle • reverse • drop (30%) • noun-drop ◦ 名詞すべて drop • verb-drop ◦ 動詞すべて drop

実験内容: モデル • recurrent base ◦ seq2seq LSTM ◦ seq2seq
LSTM + attention • transformer base ◦ Transformer • どのモデルも 2 層の小さなモデルを使用

実験内容: データセット次のデータセットをそれぞれ使用して実験する • bAbI dialog [2] ◦ training, validation,
test それぞれ 1000 dialogs (task 6 を使用) • PersonaChat [3] ◦ train/valid/test = 11,000/1,000/1,0000 (だいたい) • Dailydialog [4] ◦ train/valid/test = 11,000/1,000/1,0000 (だいたい) • MutualFriends [5] ◦ 約 11,000 dialogs を train:valid:test = 8:1:1 に split

実験結果

結果の前にここまでの確認 • perturbation を加えてモデル出力の PPL を観測する ◦ PPL が変化しない
= 入力の変化に insensitive　　　　　 = 対話履歴を活用していない ◦ PPL が増加 = 入力の変化に sensitive = 対話履歴を活用できている

結果1: Truncate • seq2seq LSTM+attn が最も履歴を参照している • ６ -> 3
に減らしてもどのモデルもそこまで変化しない Fig. 1: truncate での比較, Dailydialog(左), bAbI dialog (右), どちらも縦軸が PPL の増分, 横軸が履歴の数

結果2-1: Truncate 以外の結果 Table 1: 各モデル、各データセットでの perturbation に対する PPL

結果2-1: Only Last どのデータセットでも seq2seq LSTM + attention の PPL
が最も増加 (truncate の詳細) 最後のセンテンスのみ perturbation なしの PPL

結果2-2: Utterance Level Table 1: 各モデル、各データセットでの perturbation に対する PPL Utterance
Level

結果2-2: Utterance Level 全体で Transformer の PPL 変化がほとんどない LSTM についても一部を
除いて PPL に大きな変化はない

結果2-3: Word Level Table 1: 各モデル、各データセットでの perturbation に対する PPL Word
Level

結果2-3: Word Level 全体的に変化がほとんどない order 系の摂動に対して Transformer の変
化が特に小さい

Observation / Conclusion

Observation 1/2 • 全体の傾向として、入力に大きな perturbation を加えても PPL に変化が少ない ◦
対話履歴の全情報を上手く使えているとは言えない • Transformer は特に word re-ordering に対して変化が少ない ◦ (相対的に) bag-of-words よりの特徴を学習していると考えられる

Observation 2/2 • attention mechanism によって古い対話を参照することが出来ている ◦ truncate のグラフでわかる
• Transformer の方が収束も早く精度も高いが、対話履歴内の発話を上手く捉えているわけではなさそう ◦ perturbation でみると recurrent base の方が高い sensitivity となった

Conclusion • モデルの入力となる対話履歴にそこそこ不自然な修正を加えても、モデルはそこまで大きな影響を受けていない

感想など

感想など 1/4 • 経験的に言われていたことをちゃんと実験で再現していてとても良い ◦ とはいえまだ小規模モデルでの調査なので、これを起点とした研究が色々出てきそう ◦ 特に最近のモデルはこの対話履歴をどう上手く取り
入れるかを工夫しているものが多いので気になる

感想など 2/4 • 対話モデルで特に難しい課題とされている評価手法に対するアプローチにもなりうる ◦ 対話の直接的な評価を行うのは難しいが、モデルの評価基準の1つになっても良さそう • 一方で、各
perturbation に対する出力の PPL の変化が大きい/小さいをどう見たら良いのか疑問 ◦ この提案手法で良い = 良い対話か? という疑問も ◦ 人に同様のタスクで解かせてみて正答率見たい

感想など 3/4 • 一種の評価ができる = 学習に使える? ◦ auxiliary loss, adversarial
loss, ... • Self-Supervised Dialogue Learning [6] (ACL 2019) ◦ サンプリングした発話の順序が正しいかどうかを当てるタスクを定義し、それを対話モデルの adversarial learning に使用している

感想など 4/4 • Transformer は word re-ordering に弱い? ◦ 明示的に順序通りに入力する
recurrent base と違い、 positional encoding を加えているだけ • 一方で、順序情報が重要と考えられる commonsense reasoning タスクで BERT 特徴が使えたという話も ◦ Attention Is (not) All You Need for Commonsense Reasoning [7] (ACL 2019) • 大量のデータで unsupervised に学習できれば獲得することも可能? or 順序なくてもある程度解ける?

ありがとうございました

Reference [1] Do Neural Dialog Systems Use the Conversation History
Eﬀectively? An Empirical Study, C. Sankar et al., ACL 2019, https://arxiv.org/abs/1906.01603 [2] Learning End-to-End Goal-Oriented Dialog, A. Bordes et al., ICLR 2017, https://arxiv.org/abs/1605.07683 [3] Personalizing Dialogue Agents: I have a dog, do you have pets too?, S. Zhang et al., ACL 2018, https://arxiv.org/abs/1801.07243 [4] DailyDialog: A Manually Labelled Multi-turn Dialogue Dataset, Y. Li et al., IJCNLP 2017, https://arxiv.org/abs/1710.03957 [5] Learning Symmetric Collaborative Dialogue Agents with Dynamic Knowledge Graph Embeddings, H. He et al., ACL 2017, https://arxiv.org/abs/1704.07130 [6] Self-Supervised Dialogue Learning, J. Wu et al, ACL 2019, https://arxiv.org/abs/1907.00448 [7]Attention Is (not) All You Need for Commonsense Reasoning, T. Klein and M. Nabi, ACL 2019, https://arxiv.org/abs/1905.13497

[ACL2019網羅的サーベイ報告会資料] Do Neural Dialog Systems ...

[ACL2019網羅的サーベイ報告会資料] Do Neural Dialog Systems Use the Conversation History Effectively? An Empirical Study

cfiken

More Decks by cfiken

Other Decks in Research

Featured

Transcript

Do Neural Dialog Systems Use the Conversation History Eﬀectively? An

自己紹介 name: Kentaro Nakanishi id: @cﬁken iOS -> 機械学習、最近は AWS

論文紹介: まとめ • モチベーション ◦ 対話モデルは色々研究されてるが、推論の際にちゃんと入力(対話履歴)を活用できているのだろうか? • 実験内容 ◦

論文紹介 Introduction

Introduction 対話モデルの進化に注目が集まっている ACL 2019 dialog: 37件, conversation: 29件 ACL 1st

Introduction まだまだ課題の多い対話応答モデル • 一貫性がない (理解力が足りていない) • 多様性がない (Thank you など単調な返答が多い)

Introduction: 本論文の目的モデルが対話履歴を活用できているのか実験で検証する • 入力となる対話履歴に perturbation (摂動) を加えて推論を行い、出力の変化を見ることで検証

Introduction: 本論文の目的モデルが対話履歴を活用できているのか実験で検証する Model Input Model’s Response How much is

Introduction: 本論文の目的モデルが対話履歴を活用できているのか実験で検証する Model Input + 摂動 Model’s Response ????

実験内容詳細

実験内容: やること • 学習済みモデル出力の Perplexity (PPL) を計測する • 対話履歴に perturbation

実験内容: Perturbation Type Utterance Level • shuﬄe • reverse ◦

実験内容: モデル • recurrent base ◦ seq2seq LSTM ◦ seq2seq

実験内容: データセット次のデータセットをそれぞれ使用して実験する • bAbI dialog [2] ◦ training, validation,

実験結果

結果の前にここまでの確認 • perturbation を加えてモデル出力の PPL を観測する ◦ PPL が変化しない

結果1: Truncate • seq2seq LSTM+attn が最も履歴を参照している • ６ -> 3

結果2-1: Truncate 以外の結果 Table 1: 各モデル、各データセットでの perturbation に対する PPL

結果2-1: Only Last どのデータセットでも seq2seq LSTM + attention の PPL

結果2-2: Utterance Level Table 1: 各モデル、各データセットでの perturbation に対する PPL Utterance

結果2-2: Utterance Level 全体で Transformer の PPL 変化がほとんどない LSTM についても一部を

結果2-3: Word Level Table 1: 各モデル、各データセットでの perturbation に対する PPL Word

結果2-3: Word Level 全体的に変化がほとんどない order 系の摂動に対して Transformer の変

Observation / Conclusion

Observation 1/2 • 全体の傾向として、入力に大きな perturbation を加えても PPL に変化が少ない ◦

Observation 2/2 • attention mechanism によって古い対話を参照することが出来ている ◦ truncate のグラフでわかる

Conclusion • モデルの入力となる対話履歴にそこそこ不自然な修正を加えても、モデルはそこまで大きな影響を受けていない

感想など

感想など 2/4 • 対話モデルで特に難しい課題とされている評価手法に対するアプローチにもなりうる ◦ 対話の直接的な評価を行うのは難しいが、モデルの評価基準の1つになっても良さそう • 一方で、各

感想など 3/4 • 一種の評価ができる = 学習に使える? ◦ auxiliary loss, adversarial

感想など 4/4 • Transformer は word re-ordering に弱い? ◦ 明示的に順序通りに入力する

ありがとうございました

Reference [1] Do Neural Dialog Systems Use the Conversation History