A Deep Reinforcement Learning Chatbot
by
hasewo
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
Nextremer Co., LTD. Confidential Document Nextremer 2017/08/31 1 A Deep Reinforecement Learning Chatbot 2017/ 11/25 nextremerエンジニア 酒井正⼈ 1
Slide 2
Slide 2 text
⽬次 • 概要 • どんなもの? • Amazon Alexa Prize • MIRABOT • どんな技術を使ってる? • 22個の対話モデル(Appendixへ) • 最適化アルゴリズム • 検証⽅法 • ABテスト • 所感 • Appendix:22個の対話モデル解説 2017/11/25 Nextremer Co., LTD. Confidential Document 2
Slide 3
Slide 3 text
概要 Amazonが主宰する対話モデルのコンペティション(Amazon Alexa Prize)で、深層強化学習を⽤いることで20分以上の⼈間との雑談 対話を達成したモデルを紹介します 2017/11/25 Nextremer Co., LTD. Confidential Document 3
Slide 4
Slide 4 text
4 Amazon Alexa Prize
Slide 5
Slide 5 text
Amazon Alexa Prize わかりやすい対話をなるべく⻑く続ける ソーシャルボットのコンペティション • 優勝者には$500, 000 • 優勝したボットが20分以上対話できる場合は ボーナス$1,000,000 2017/11/25 Nextremer Co., LTD. Confidential Document 5
Slide 6
Slide 6 text
論⽂で紹介しているモデル • アンサンブル対話モデル:MIRABOT • 22個の対話モデルを搭載 • テンプレートベース • 検索ベース • ⽣成ベース • 深層強化学習により最適な返答を選択 2017/11/25 Nextremer Co., LTD. Confidential Document 6
Slide 7
Slide 7 text
どんなもの? 2017/11/25 Nextremer Co., LTD. Confidential Document 7
Slide 8
Slide 8 text
どんなもの? 2017/11/25 Nextremer Co., LTD. Confidential Document 8 22個の対話モデルが⼀ ⻫に応答候補を出⼒し ます Automatic Speech Recognition の信頼度 閾値より低い場合はユーザーに聞 き返します 強化学習で応答の候 補を選択します 候補をもとに応 答を最適化しま す 優先度のある候補があれ ばそれを出⼒します
Slide 9
Slide 9 text
会話の様⼦ 2017/11/25 Nextremer Co., LTD. Confidential Document 9
Slide 10
Slide 10 text
10 最適化モデル
Slide 11
Slide 11 text
最適化法① Supervised AMT • クラウドソーシングでアノテーションされたデータ をもとに教師ありニューラルネット学習 • t-1の会話の履歴と応答の候補を⼊⼒ • t時点での各応答に対するスコアを算出する vAmazonMechanicalTurk https://aws.amazon.com/jp/mturk/ 2017/11/25 Nextremer Co., LTD. Confidential Document 11
Slide 12
Slide 12 text
最適化法① Supervised AMT テスト • モデルが選択した応答がどの程度良いか • ⽐較対象 • ランダム • Alice bot • Evi bot + Alice bot • 結果 • 分布が多少なだらかに 2017/11/25 Nextremer Co., LTD. Confidential Document 12
Slide 13
Slide 13 text
最適化法② Supervised Learned Reward Supervised AMTにおいて、ラベルの値をそのま ま使う代わりに という関数で線形近似している • Alexaのリアルユーザーを想定してのこと? 2017/11/25 Nextremer Co., LTD. Confidential Document 13
Slide 14
Slide 14 text
強化学習の⽤語 2017/11/25 Nextremer Co., LTD. Confidential Document 14 右図では、マリオが行動する主体(エージェント) 陸地、ブロック(環境) 停止、(左右に)歩くor走る、ジャンプ(行動) ジャンプ→ブロックからコインがでる(状態) コインが得られる(報酬) マリオの行動を最適化する作戦(方策) ステージクリア後得られるコインや点数(収益) 強化学習の⽬的は収益の最⼤化=⽅策の最適化
Slide 15
Slide 15 text
価値反復による最適⽅策の求め⽅ 2017/11/25 Nextremer Co., LTD. Confidential Document 15
Slide 16
Slide 16 text
⽅策勾配による最適⽅策の求め⽅ 価値反復とは異なるアプローチとして、⽅策を⾏動価値関数とは別 のパラメータで表現する。 ⽅策勾配では確率的⽅策をパラメータベクトルθによってパラメタ ライズされた確率モデル" と考え、これをθについて最適化 することで強化学習問題を解く。 2017/11/25 Nextremer Co., LTD. Confidential Document 16 前述のマリオのパターンは状態や行 動が離散化しやすいケースだった。 しかし、右図のようなゴルフゲーム の場合は、カップまでの距離や風の 強さ(風向き)、スイングの強さが 連続値になってしまう。 離散化が荒いと情報量が減り、細か すぎると計算量が膨大になる。
Slide 17
Slide 17 text
⽅策勾配による最適⽅策の求め⽅ 期待収益を⽬的関数J として、これを最⼤化する確率的⽅策" を 求める θ ← θ + α▽θ J(θ) ①⽅策" による⾏動 ②⽅策" の評価 ③⽅策" の更新 のステップを繰り返し期待収益Jの勾配を求めてθを更新 αは学習率 2017/11/25 Nextremer Co., LTD. Confidential Document 17
Slide 18
Slide 18 text
最適化法③④ • Off-policy REINFORCE • Off-policy REINFORCE with Learned Reward Function 2017/11/25 Nextremer Co., LTD. Confidential Document 18 cは重要度で、今まで学習し た⽅策と同じかどうかをみ る。⼀致していると下がり、 新しいものだとあがる。 次の発話でユーザーがネガ ティブな反応をした場合報 酬は0。それ以外は、今ま での総利益からターン数を 割る。
Slide 19
Slide 19 text
最適化法⑤ Q-learning with the Abstract Discourse Markov Decision Process • マルコフ決定過程(MDP) • 状態遷移が確率的に⽣じるモデル • 状態遷移がマルコフ性を満たす vマルコフ性: 将来の状態が現在の状態のみに依存し、 過去のいかなる状態にも依存しない性質 2017/11/25 Nextremer Co., LTD. Confidential Document 19
Slide 20
Slide 20 text
最適化法⑤ Abstract Discourse Markov Decision Process 2017/11/25 Nextremer Co., LTD. Confidential Document 20
Slide 21
Slide 21 text
最適化法⑤ Abstract Discourse Markov Decision Process 2017/11/25 Nextremer Co., LTD. Confidential Document 21 zはここでは状態 ユーザー発話の種 類、感情、⼀般性、 トピックの独⽴性 など hは履歴、aは⾏動、 rは得られる報酬 y = {very poor, poor, acceptable, good, excellent}
Slide 22
Slide 22 text
最適化法⑤ 学習⽅法はε-greedy法 学習する段階で最も報酬の⾼い⽅策を選びつつ、 ⼀定の確率でランダムな⽅策を試す 本論⽂では10% → 10回に⼀回ランダム 2017/11/25 Nextremer Co., LTD. Confidential Document 22
Slide 23
Slide 23 text
参考:最適化法ごとの対話モデル選択率 2017/11/25 Nextremer Co., LTD. Confidential Document 23
Slide 24
Slide 24 text
24 評価
Slide 25
Slide 25 text
A/Bテスト • ⼀回⽬ • ⼆回⽬ 2017/11/25 Nextremer Co., LTD. Confidential Document 25
Slide 26
Slide 26 text
所感 • 既存の技術を組み合わせるだけで結構強い • 対話モデル・⾃然⾔語処理・強化学習を⼀気におさらいできた • 読むのは⼤変だった • もっと深く掘り下げられると思うし、初⼼者から上級者の⼈でも 何かしら得るものがあると思うので、トライしてみてください 2017/11/25 Nextremer Co., LTD. Confidential Document 26
Slide 27
Slide 27 text
27 Appendix: 搭載されている対話モデルの紹介
Slide 28
Slide 28 text
テンプレートベース • Elizabot 2017/11/25 Nextremer Co., LTD. Confidential Document 28
Slide 29
Slide 29 text
テンプレートベース • AliceBOT 2017/11/25 Nextremer Co., LTD. Confidential Document 29
Slide 30
Slide 30 text
テンプレートベース • Initiatorbot • 会話のきっかけをつくるbot • ”What did you do today?”や”Do you have a pets?”など • Storybot • ユーザーのリクエストで童話について話す • タイトル • あらすじ • 著者名 • Evibot • ⼊⼒⽂の”Who”とか”What”に反応 • wikipediaから答えを持ってきたりできる • BoWMovies • 映画の会話 2017/11/25 Nextremer Co., LTD. Confidential Document 30
Slide 31
Slide 31 text
探索ベースニューラルネットワーク • VHRED models • encoder-decoderベースの対話モデル • 意味の解析→単語の⽣成 • 埋め込みベクトルはGloVe • 複数のジャンルを学習し、それぞれモデル化 • Reddit • 政治 • ニュース • スポーツ • 映画 • 映画のサブタイトル • ワシントンポスト 2017/11/25 Nextremer Co., LTD. Confidential Document 31
Slide 32
Slide 32 text
探索ベースニューラルネットワーク • SkipThoughtBooks • SkipThought • 教師なし学習で⽂をベクトル化する san in 引⽤ http://ksksksks2.hatenadiary.jp/entry/20160424/1461494269 2017/11/25 Nextremer Co., LTD. Confidential Document 32
Slide 33
Slide 33 text
探索ベースニューラルネットワーク • Bag-of-words Retrieval Models • トランプ⼤統領のツイッターを学習 • BoWEscapePlan • 他のモデルで回答できなかったときのパターン • ロジスティック回帰を⽤いている? • LSTMClassifierMSMarco • bi-LSTM • microsoftが公開した質問応答のデータセット 2017/11/25 Nextremer Co., LTD. Confidential Document 33