【論文紹介】EX2: exploration with exemplar models for deep reinforcement learning

Slide 1

Slide 1 text

EX2: Exploration and Exemplar Models for Deep Reinforcement Learning 2018/2/9 NN論文を肴に酒を飲む会 #5

Slide 2

Slide 2 text

自己紹介 l 名前 ü 合田周平（ごうだしゅうへい） l 所属 ü データ分析コンサルタント l 出身 ü 北海道大学（学部～修士） 1 　

Slide 3

Slide 3 text

効率的な探索戦略 l 効率的に報酬値が得られるであろう「方向」へ探索していきたい。 ü 例えば、ε-greedyでは、確率εでランダムに探索する。 Ø ランダムに環境内を探索していき、報酬を得た時に初めて方策(または価値関数)が更新される。そしてその価値を利用できるようになる。 Ø 報酬までの道のりが遠いほど、ランダムに行動して報酬にたどり着く確率は小さくなる。いつまで経っても探索を行う羽目に。 ü 解決策として、好奇心に従うことにする。 Ø 好奇心＝「珍しいもの、未知なものを体験したい」 Ø エージェントが見慣れない状態に到達した場合、正の追加報酬を与えて、その状態へエージェントを誘導させる。 2 　

Slide 4

Slide 4 text

先行研究 1. 状態到達回数をカウント ü 訪れた数の少ない状態ほど、新規性が大きい。(Strehl & Littman, 2009) 2. 状態の生成モデル ü 今の状態から次の状態を予測する。予測値と実測値の距離が大きいほど、より多くの追加報酬を与える。（Stadie et al, 2015) 3 　追加報酬

Slide 5

Slide 5 text

問題点 1. 状態到達回数をカウント ü 訪れた数の少ない状態ほど、新規性が大きい。(Strehl & Littman, 2009) ⇒ 状態空間が高次元であるほど、カウンターテーブルの保持が困難に。 2. 状態の生成モデル ü 今の状態から次の状態を予測する。予測値と実測値の距離が大きいほど、より多くの追加報酬を与える。（Stadie et al, 2015) ⇒ 状態空間が高次元であるほど、生成モデルの学習が困難に。 4 　

Slide 6

Slide 6 text

本手法の特徴 1. 状態到達回数をカウント ü 訪れた数の少ない状態ほど、新規性が大きい。(Strehl & Littman, 2009) ⇒ 状態空間が高次元であるほど、カウンターテーブルの保持が困難に。　　 ⇒ 状態到達数N(s)をカウントするのではなく、密度p(s)を推定する。 2. 状態の生成モデル ü 今の状態から次の状態を予測する。予測値と実測値の距離が大きいほど、より多くの追加報酬を与える。（Stadie et al, 2015) ⇒ 状態空間が高次元であるほど、生成モデルの学習が困難に。　　　　　　 ⇒ 密度p(s)を識別モデルD(s)の出力値から求める。 5 　 total N N p ) ( ) ( s s 

Slide 7

Slide 7 text

識別モデルを用意 l 密度推定を行うために、状態の識別器を作成する。 ü 到達した状態（正例）を、過去に到達した状態集合　　　　（負例）と区別するよう識別モデル　　　を訓練させる。 ü 観測した状態が過去の状態集合と異なる場合、識別確率が1に近づく＝新規性が高い ü 最適な識別モデルを得るために下記の価値関数が最大になるよう訓練 ü 以下のような最適な識別モデルが得られる。 6 　 * s } ,..., , { 2 1 n S s s s  ) (s D ))]) ( 1 [log( )] ( [log ( ) ( max ~ ~ * s s s s s D E D E D V S P D     ) ( ) ( ) ( ) ( * * s s s s s s S P D    

Slide 8

Slide 8 text

識別モデルから密度推定へ l 離散状態空間の場合 l 連続状態空間の場合　任意のノイズ q を各分布に畳み込むことで、識別確率が1に収束するのを回避 7 　 ) ( ) ( ) ( ) ( * * s s s s s s S P D     *) ( 1 1 *) ( s s S P D   *) ( *) ( 1 *) ( s s s D D P S   ) ( ) ( ) ( ) ( * * s s s s s s S P D     1 *) (  s D   *) ( * s s  ) )( ( ) )( ( ) )( ( *) ( * * s s s s s s q P q q D S        *) )( ( s q P S  の形で密度推定値を復元

Slide 9

Slide 9 text

EX2アルゴリズム 1. 経験を収集 2. 識別モデルを訓練 3. 追加報酬を与えて方策を改善（1 - 3を繰り返す） 8 　例えば ) ( log )) ( ( s s S P D f  

Slide 10

Slide 10 text

潜在空間上での平滑化 l 状態を潜在空間へ写像した後に平滑化を行う。 ü 画像のような高次元の状態は、実際には低次元の多様体に沿って存在しているため、　オリジナルの状態に対してノイズを追加すると、この多様体上から離れる場合がある。 ü 状態を潜在空間に写像した後、潜在空間上でノイズを追加させる。 Ø 例えばAtariドメインでは、潜在空間での平滑化は「画面上のプレイヤー/移動物体の平滑化」に対応。（直接画像にガウシアンフィルタをかけてもそうならない） ü 潜在空間上での識別器 9 　 ) 1 | ( ) 0 | ( ) 1 | ( ) ( ) | 1 (        y z q y z q y z q z D z y p      s s s s s s s s s s s s s s d z q P d z q d z q S ) | ( ) ( ) | ( ) ( ) | ( ) ( * *   s=s*の時y=1 s!=s*の時y=0 )] ( [ ) ( z D E D q  s 密度推定値を復元する場合は、

Slide 11

Slide 11 text

識別モデルをニューラルネットワークで表現 l ニューラルネットワークを使う利点 ü 標本別に識別器を訓練するのではなく、単一の識別モデルを訓練する。 Ø イテレーション毎に識別器を訓練し直す必要がない。 Ø 新しい状態に到達した時の密度推定時にも、学習した状態の特徴量表現をある程度適用可能。 10 　同一のネットワーク Encoderの出力値に対してノイズを追加 Shared Layerの出力値に対してノイズを追加 ))]) ' ( 1 [log( )] ( [log max arg ~ ' ~ s s s s D E D E D S B P P D B    B={s_1,...s_K} : positive exemplars

Slide 12

Slide 12 text

実験結果（１） 11 　

Slide 13

Slide 13 text

実験結果（２） 12 　 (左) Exemplar Modelで推定した密度 (右) 到達回数の離散分布（実際の密度） EX2アルゴリズムの紹介ページ https://sites.google.com/view/ex2exploration/

Slide 14

Slide 14 text

まとめ l カウントベース探索を近似した手法 l 生成モデルのような高コストなモデルを訓練させる必要がない。 l ノイズを追加させることで、連続状態空間でも適用可能 l 3D探索ゲームのような高次元状態空間/疎な報酬設計の場合でも、高い性能を発揮 13