Slide 25
Slide 25 text
文体(how-to-say; Mechanism)の学習
[Chen+, IJICAI2019] Generating Multiple Diverse Responses with Multi-Mapping and Posterior Mapping
Selection https://arxiv.org/abs/1906.01781
1. 別々のMLPによるmapping関数により、K個のembedding {m1,m2,...,mK}を得る
2. 訓練時は応答 yをクエリとしてmとのattention πを計算する→attention πの分布に
沿ってmをgumbel-softmaxでサンプリングして、mとyが対応したものとして学習する
3. 推論時は、人手で選んでいる(これを強化学習でモデルが選べるようにしたのも前頁
の研究の新規性)
一貫性のある応答生成
著者らの先行研究 [Chen+, IJICAI2019]を使用
文体のアノテーションなしで学習できる
方針:
訓練時に応答yと最も近いmechanismを類似度
計算により選ぶ