文献紹介:Why are Sequence-to-Sequence Models So Dull?

文献紹介 Why are Sequence-to-Sequence Models So Dull? -Understanding the Low-Diversity
Problem of Chatbots- 鈴木脩右 2019/07/09 長岡技術科学大学自然言語処理研究室 1

Reference [1] Shaojie Jiang and Maarten de Rijke. Why are
sequence-to-sequence models so dull? understanding the low-diversity problem of chatbots. In Proceedings of the 2018 EMNLP Workshop SCAI: The 2nd International Workshop on Search-Oriented Conversational AI, pages 81–86, Brussels, Belgium, October 2018. Association for Computational Linguistics. 2

Abstract • 近年，応答生成の研究において，多様性が重要視されている • 応答生成において seq2seq モデルが効果的であるとされている • seq2seq
モデルの応答は多様性が低い • この問題に対する既存研究を調査した • 低多様性の原因を特定した 3

Introduction • seq2seq モデルは様々なタスクに有効 • 流暢な文を生成するため，応答生成においても有効 (Vinyals and Le, 2015)
• seq2seq モデルの応答の多様性は低い Ex.) ”I don’t know”,”I’m sorry” • 近年，低多様性問題に対する研究が行われている 4

Diagnosing the Low-Diversity Problem • 低多様性に関係するとされる要素は 3 つ挙げられてきた • lack
of variability • improper objective function • weak conditional signal • 筆者らは更に”model over-confidence” が関係していると考えた 5

lack of variability • seq2seq モデルは応答-文脈間の variability が低い • これらを解決するため，変分オートエンコーダー
(VAE) を用いた (Seraban ら，2017);(Zhao ら，2017) • 生成時に VAE の潜在変数 z をデコーダーの条件付き信号として使用 • 効果的だが，応答の多様性は z に依存する 6

improper objective function • 既存の目的関数が低多様性の原因であると考えられる • 新たに最大相互情報量 (MMI) を目
的関数とする (Li ら，2015) • λ，γ はハイパーパラメータ • log p(X|Y),log p(Y) は言語モデル， log p(Y|X) は逆モデル • 逆モデルの学習もあるので，学習時間が増える欠点がある 7

Weak conditional signal • seq2seq に用いられる Attention に着目 • Attention
は入力信号を強める働きがあり，応答生成の改善に役立つ • Attention が信号の弱い部分に焦点をあててしまい，低多様性を引き起こしている可能性がある • Multi head attention を seq2seq に用いる (Tao ら，2018) • 様々な側面に焦点を当てることができ，多様性が向上 8

Model over-confidence 1 • 会話のモデリングは，入力シーケンスから出力シーケンスのマッピングとして考えられる • シーケンスレベルの分布とトークンレベルの分布は直接の関係がある •
デコーダ側で生成されたトークンレベルが原因と仮定 9

Model over-confidence 2 • 時間ステップが増加すると，入力シーケンスの影響は弱まる • トークンレベルの分布の問題が後続の出力に与える影
響が大きくなる • 最後のいくつかのトークンは低品質となり，それを繰り返してしまう Figure 1: Given the input sequence.[1] 10

Model over-confidence 3 • over-confidence は過学習の兆候である場合が多い • エントロピーを最大化させてモデルを正規化する • トレーニング中に負の対数尤度損失関数に追加する
confidence penalty(Pereyra ら，2017) • confidence penalty は label smoothing に密接に関係している • confidence penalty と label smoothing を用いることで多様性を得られる可能性がある 11

Conclusion • 応答生成における低多様性問題について調査した • 既存研究で提案された低多様性問題の要因やアプローチについて再検討した • confidence penalty や
label smoothing が解決策になると考えた • 低多様性問題の 4 つの要因に対するそれぞれのアプローチを組み合わせるべき 12

文献紹介:Why are Sequence-to-Sequence Models So Dull?

文献紹介:Why are Sequence-to-Sequence Models So Dull?

shu_suzuki

More Decks by shu_suzuki

Other Decks in Technology

Featured

Transcript

文献紹介 Why are Sequence-to-Sequence Models So Dull? -Understanding the Low-Diversity

Reference [1] Shaojie Jiang and Maarten de Rijke. Why are

Abstract • 近年，応答生成の研究において，多様性が重要視されている • 応答生成において seq2seq モデルが効果的であるとされている • seq2seq

Introduction • seq2seq モデルは様々なタスクに有効 • 流暢な文を生成するため，応答生成においても有効 (Vinyals and Le, 2015)

Diagnosing the Low-Diversity Problem • 低多様性に関係するとされる要素は 3 つ挙げられてきた • lack

lack of variability • seq2seq モデルは応答-文脈間の variability が低い • これらを解決するため，変分オートエンコーダー

improper objective function • 既存の目的関数が低多様性の原因であると考えられる • 新たに最大相互情報量 (MMI) を目

Weak conditional signal • seq2seq に用いられる Attention に着目 • Attention

Model over-confidence 1 • 会話のモデリングは，入力シーケンスから出力シーケンスのマッピングとして考えられる • シーケンスレベルの分布とトークンレベルの分布は直接の関係がある •

Model over-confidence 2 • 時間ステップが増加すると，入力シーケンスの影響は弱まる • トークンレベルの分布の問題が後続の出力に与える影

Model over-confidence 3 • over-confidence は過学習の兆候である場合が多い • エントロピーを最大化させてモデルを正規化する • トレーニング中に負の対数尤度損失関数に追加する

Conclusion • 応答生成における低多様性問題について調査した • 既存研究で提案された低多様性問題の要因やアプローチについて再検討した • confidence penalty や