文献紹介:Do Neural Dialog Systems Use the Conversation History Effectively? An Empirical Study

文献紹介 Do Neural Dialog Systems Use the Conversation History Effectively?
An Empirical Study 鈴木脩右 2020/01/20 長岡技術科学大学自然言語処理研究室 1

文献情報 [1] Chinnadhurai Sankar, Sandeep Subramanian, Chris Pal, Sarath Chandar,
and Yoshua Bengio. Do neural dialog systems use the conversation history effectively? an empirical study. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 32–37, Florence, Italy, July 2019. Association for Computational Linguistics. 2

Abstract • ニューラルベースの生成モデルが対話履歴を活用しているか調査 • 対話履歴を操作し，モデルの sensitivity を研究 • 10
種類の操作を 4 つの対話コーパスに適用して実験 • RNN，Transformer ベースのモデルは，操作に対して敏感でないことがわかった 3

Introduction • 対話履歴の理解能力不足から，dull なレスポンスを生成してしまう • この研究のため対話履歴を人工的に操作し影響を調査 • 本研究から判明したことは 3
つ 1. RNN，Transformer ベースモデルは多くの操作に鈍感 2. 単語順序入れ替えや反転など極端な操作にも特に鈍感 3. RNN は対話履歴の発話順序に敏感であり，Transformer よりよくモデル化 4

Related Work 1 • LSTM ベースの言語モデルはコンテキスト中の直近 150 ワードの操作にしか敏感でない (Khandelwal,2018)
• 翻訳モデルなどの条件付き言語モデルは操作やノイズに悪い影響を受ける (Belinkov,2017) • 言語推論では 2 文の関係性を求めるタスクでは片方の文だけで問題が解けてしまう (Gururangan,2018) • 機械読解では質問全体やコンテキスト文書の最終文しか見ない，エージェントが Navigation や World を観察しなくても質問に回答してしまう (Kaushik,2018;Anand,2018) 5

Related Work 2 • RNN は階層構造のモデルを得意とする (Tran,2018) • RNN は
Transformer や CNN に比べ長期コンテキストのモデル化が優れている (Tang,2018) • Transformer は語義曖昧性解消に優れている • アーキテクチャと Attention の利用の選択により，対話システムの対話履歴の利用度に関する分析を行った 6

Experimental Setup • 対話履歴 x1 , x2 , ...xn を与え，応答文
y1 , y2 , ...ym を生成するタスク • 対話履歴を操作し，学習した確率分布の振る舞いに着眼 • 単語あたりの Perplexity(PPL) の変化を確認 • PPL の増加が少なければ対話履歴の操作はモデルに有益でない • 対話履歴の操作は学習時には行わず，テスト時のみ行う 7

Datasets 全てマルチターンで構成 • bAbI dialog: レストラン予約のタスク指向対話．平均 13 ターンの 1,000 対話で構成
• Persona Chat: ”persona” を与えられた話者間のオープンドメイン対話．平均 14.8 ターンの 10,900 対話で構成 • Dailydialog: オープンドメインの日常会話．平均 7.9 ターンの 13,000 対話で構成 • MutualFriends: 対話から友人の属性を判別するタスク指向対話．平均 11.41 ターンの 11,000 対話で構成 8

Types of Perturbations • 対話履歴内の発話文レベルの操作 • Shuf: 発話文順序をシャッフル • Rev:
発話文順序を反転 • 発話文内の単語レベルの操作 • word-shuffle: 単語順序をシャッフル • reverse: 単語順序を反転 • word-drop: 発話内の単語の 30%を一様にドロップ • noun-drop: 全ての名詞をドロップ • verb-drop: 全ての動詞をドロップ 9

Models • seq2seq_lstm • seq2seq_lstm_attn • transformer 10

Results 1 Table 1: Model performance across multiple datasets and
sensitivity to different perturbations. [1] 11

Results 2 Figure 1: The increase in perplexity for different
models when only presented with the k most recent utterances from the dialog history for Dailydialog (left) and bAbI dialog (right) datasets.[1] 12

Discussion • 多くのケースで PPL の変化はわずか．モデルは対話履歴を全て利用していない • Transformer は語順に鈍感．bow ライクな表現を学習
• 最終発話文だけを利用できる場合，Attention を使用しているモデルは PPL が上昇 → Attention を利用するモデルは対話の冒頭情報を利用 • Transformer はより早く収束し，テスト時に PPL が低い → しかし，対話構造を破壊するような操作に対して鈍感 13

Conclusion • 対話履歴を操作することで生成モデルが受ける影響を調査 • RNN，Transformer 双方において，操作による影響を受けない (対話履歴をちゃんと使っていない) • RNN
は Transformer よりも対話コンテキストを利用 14

個人的な見解 • 発話文や単語の順序が対話履歴利用における重要な情報なのかが不明確に感じる • 見方を変えれば，発話文や単語の順序が対話履歴考慮に不要とも捉えられる • BLEU などの生成文の評価も必要では？
15

文献紹介:Do Neural Dialog Systems Use the Conversat...

文献紹介:Do Neural Dialog Systems Use the Conversation History Effectively? An Empirical Study

shu_suzuki

More Decks by shu_suzuki

Other Decks in Technology

Featured

Transcript

文献紹介 Do Neural Dialog Systems Use the Conversation History Effectively?

文献情報 [1] Chinnadhurai Sankar, Sandeep Subramanian, Chris Pal, Sarath Chandar,

Abstract • ニューラルベースの生成モデルが対話履歴を活用しているか調査 • 対話履歴を操作し，モデルの sensitivity を研究 • 10

Introduction • 対話履歴の理解能力不足から，dull なレスポンスを生成してしまう • この研究のため対話履歴を人工的に操作し影響を調査 • 本研究から判明したことは 3

Related Work 1 • LSTM ベースの言語モデルはコンテキスト中の直近 150 ワードの操作にしか敏感でない (Khandelwal,2018)

Related Work 2 • RNN は階層構造のモデルを得意とする (Tran,2018) • RNN は

Experimental Setup • 対話履歴 x1 , x2 , ...xn を与え，応答文

Datasets 全てマルチターンで構成 • bAbI dialog: レストラン予約のタスク指向対話．平均 13 ターンの 1,000 対話で構成

Types of Perturbations • 対話履歴内の発話文レベルの操作 • Shuf: 発話文順序をシャッフル • Rev:

Models • seq2seq_lstm • seq2seq_lstm_attn • transformer 10

Results 1 Table 1: Model performance across multiple datasets and

Results 2 Figure 1: The increase in perplexity for different

Discussion • 多くのケースで PPL の変化はわずか．モデルは対話履歴を全て利用していない • Transformer は語順に鈍感．bow ライクな表現を学習

Conclusion • 対話履歴を操作することで生成モデルが受ける影響を調査 • RNN，Transformer 双方において，操作による影響を受けない (対話履歴をちゃんと使っていない) • RNN

個人的な見解 • 発話文や単語の順序が対話履歴利用における重要な情報なのかが不明確に感じる • 見方を変えれば，発話文や単語の順序が対話履歴考慮に不要とも捉えられる • BLEU などの生成文の評価も必要では？