Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介:Do Neural Dialog Systems Use the Conversation History Effectively? An Empirical Study

shu_suzuki
January 20, 2020

文献紹介:Do Neural Dialog Systems Use the Conversation History Effectively? An Empirical Study

長岡技術科学大学
自然言語処理研究室
鈴木脩右

shu_suzuki

January 20, 2020
Tweet

More Decks by shu_suzuki

Other Decks in Technology

Transcript

  1. 文献紹介 Do Neural Dialog Systems Use the Conversation History Effectively?

    An Empirical Study 鈴木脩右 2020/01/20 長岡技術科学大学 自然言語処理研究室 1
  2. 文献情報 [1] Chinnadhurai Sankar, Sandeep Subramanian, Chris Pal, Sarath Chandar,

    and Yoshua Bengio. Do neural dialog systems use the conversation history effectively? an empirical study. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 32–37, Florence, Italy, July 2019. Association for Computational Linguistics. 2
  3. Abstract • ニューラルベースの生成モデルが対話履歴を活用している か調査 • 対話履歴を操作し,モデルの sensitivity を研究 • 10

    種類の操作を 4 つの対話コーパスに適用して実験 • RNN,Transformer ベースのモデルは,操作に対して敏感で ないことがわかった 3
  4. Introduction • 対話履歴の理解能力不足から,dull なレスポンスを生成し てしまう • この研究のため対話履歴を人工的に操作し影響を調査 • 本研究から判明したことは 3

    つ 1. RNN,Transformer ベースモデルは多くの操作に鈍感 2. 単語順序入れ替えや反転など極端な操作にも特に鈍感 3. RNN は対話履歴の発話順序に敏感であり,Transformer よりよく モデル化 4
  5. Related Work 1 • LSTM ベースの言語モデルはコンテキスト中の直近 150 ワー ドの操作にしか敏感でない (Khandelwal,2018)

    • 翻訳モデルなどの条件付き言語モデルは操作やノイズに悪 い影響を受ける (Belinkov,2017) • 言語推論では 2 文の関係性を求めるタスクでは片方の文だ けで問題が解けてしまう (Gururangan,2018) • 機械読解では質問全体やコンテキスト文書の最終文しか見 ない,エージェントが Navigation や World を観察しなくて も質問に回答してしまう (Kaushik,2018;Anand,2018) 5
  6. Related Work 2 • RNN は階層構造のモデルを得意とする (Tran,2018) • RNN は

    Transformer や CNN に比べ長期コンテキストのモデ ル化が優れている (Tang,2018) • Transformer は語義曖昧性解消に優れている • アーキテクチャと Attention の利用の選択により,対話シス テムの対話履歴の利用度に関する分析を行った 6
  7. Experimental Setup • 対話履歴 x1 , x2 , ...xn を与え,応答文

    y1 , y2 , ...ym を生成するタ スク • 対話履歴を操作し,学習した確率分布の振る舞いに着眼 • 単語あたりの Perplexity(PPL) の変化を確認 • PPL の増加が少なければ対話履歴の操作はモデルに有益でない • 対話履歴の操作は学習時には行わず,テスト時のみ行う 7
  8. Datasets 全てマルチターンで構成 • bAbI dialog: レストラン予約のタスク指向対話.平均 13 ターンの 1,000 対話で構成

    • Persona Chat: ”persona” を与えられた話者間のオープンド メイン対話.平均 14.8 ターンの 10,900 対話で構成 • Dailydialog: オープンドメインの日常会話.平均 7.9 ターン の 13,000 対話で構成 • MutualFriends: 対話から友人の属性を判別するタスク指向 対話.平均 11.41 ターンの 11,000 対話で構成 8
  9. Types of Perturbations • 対話履歴内の発話文レベルの操作 • Shuf: 発話文順序をシャッフル • Rev:

    発話文順序を反転 • 発話文内の単語レベルの操作 • word-shuffle: 単語順序をシャッフル • reverse: 単語順序を反転 • word-drop: 発話内の単語の 30%を一様にドロップ • noun-drop: 全ての名詞をドロップ • verb-drop: 全ての動詞をドロップ 9
  10. Results 1 Table 1: Model performance across multiple datasets and

    sensitivity to different perturbations. [1] 11
  11. Results 2 Figure 1: The increase in perplexity for different

    models when only presented with the k most recent utterances from the dialog history for Dailydialog (left) and bAbI dialog (right) datasets.[1] 12
  12. Discussion • 多くのケースで PPL の変化はわずか.モデルは対話履歴を 全て利用していない • Transformer は語順に鈍感.bow ライクな表現を学習

    • 最終発話文だけを利用できる場合,Attention を使用してい るモデルは PPL が上昇 → Attention を利用するモデルは対話の冒頭情報を利用 • Transformer はより早く収束し,テスト時に PPL が低い → しかし,対話構造を破壊するような操作に対して鈍感 13