Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介:Why are Sequence-to-Sequence Models So Dull?

文献紹介:Why are Sequence-to-Sequence Models So Dull?

長岡技術科学大学
自然言語処理研究室
鈴木脩右

shu_suzuki

July 09, 2019
Tweet

More Decks by shu_suzuki

Other Decks in Technology

Transcript

  1. 文献紹介 Why are Sequence-to-Sequence Models So Dull? -Understanding the Low-Diversity

    Problem of Chatbots- 鈴木脩右 2019/07/09 長岡技術科学大学 自然言語処理研究室 1
  2. Reference [1] Shaojie Jiang and Maarten de Rijke. Why are

    sequence-to-sequence models so dull? understanding the low-diversity problem of chatbots. In Proceedings of the 2018 EMNLP Workshop SCAI: The 2nd International Workshop on Search-Oriented Conversational AI, pages 81–86, Brussels, Belgium, October 2018. Association for Computational Linguistics. 2
  3. Abstract • 近年,応答生成の研究において,多様性が重要視されている • 応答生成において seq2seq モデルが効果的であるとされて いる • seq2seq

    モデルの応答は多様性が低い • この問題に対する既存研究を調査した • 低多様性の原因を特定した 3
  4. Introduction • seq2seq モデルは様々なタスクに有効 • 流暢な文を生成するため,応答生成においても有効 (Vinyals and Le, 2015)

    • seq2seq モデルの応答の多様性は低い Ex.) ”I don’t know”,”I’m sorry” • 近年,低多様性問題に対する研究が行われている 4
  5. Diagnosing the Low-Diversity Problem • 低多様性に関係するとされる要素は 3 つ挙げられてきた • lack

    of variability • improper objective function • weak conditional signal • 筆者らは更に”model over-confidence” が関係していると考 えた 5
  6. lack of variability • seq2seq モデルは応答-文脈間の variability が低い • これらを解決するため,変分オートエンコーダー

    (VAE) を用 いた (Seraban ら,2017);(Zhao ら,2017) • 生成時に VAE の潜在変数 z をデコーダーの条件付き信号とし て使用 • 効果的だが,応答の多様性は z に依存する 6
  7. improper objective function • 既存の目的関数が低多様性の原因 であると考えられる • 新たに最大相互情報量 (MMI) を目

    的関数とする (Li ら,2015) • λ,γ はハイパーパラメータ • log p(X|Y),log p(Y) は言語モデル, log p(Y|X) は逆モデル • 逆モデルの学習もあるので,学習 時間が増える欠点がある 7
  8. Weak conditional signal • seq2seq に用いられる Attention に着目 • Attention

    は入力信号を強める働きがあり,応答生成の改善 に役立つ • Attention が信号の弱い部分に焦点をあててしまい,低多様 性を引き起こしている可能性がある • Multi head attention を seq2seq に用いる (Tao ら,2018) • 様々な側面に焦点を当てることができ,多様性が向上 8
  9. Model over-confidence 2 • 時間ステップが増加する と,入力シーケンスの影響 は弱まる • トークンレベルの分布の問 題が後続の出力に与える影

    響が大きくなる • 最後のいくつかのトークン は低品質となり,それを繰 り返してしまう Figure 1: Given the input sequence.[1] 10
  10. Model over-confidence 3 • over-confidence は過学習の兆候である場合が多い • エントロピーを最大化させてモデルを正規化する • トレーニング中に負の対数尤度損失関数に追加する

    confidence penalty(Pereyra ら,2017) • confidence penalty は label smoothing に密接に関係して いる • confidence penalty と label smoothing を用いることで多 様性を得られる可能性がある 11
  11. Conclusion • 応答生成における低多様性問題について調査した • 既存研究で提案された低多様性問題の要因やアプローチに ついて再検討した • confidence penalty や

    label smoothing が解決策になると 考えた • 低多様性問題の 4 つの要因に対するそれぞれのアプローチ を組み合わせるべき 12