Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【論文紹介】EX2: exploration with exemplar models for deep reinforcement learning

Shuhei Goda
February 09, 2018

【論文紹介】EX2: exploration with exemplar models for deep reinforcement learning

Shuhei Goda

February 09, 2018
Tweet

More Decks by Shuhei Goda

Other Decks in Technology

Transcript

  1. 自己紹介 l 名前 ü 合田 周平(ごうだ しゅうへい) l 所属 ü

    データ分析コンサルタント l 出身 ü 北海道大学(学部~修士) 1  
  2. 効率的な探索戦略 l 効率的に報酬値が得られるであろう「方向」へ探索していきたい。 ü 例えば、ε-greedyでは、確率εでランダムに探索する。 Ø ランダムに環境内を探索していき、報酬を得た時に初めて方策(また は価値関数)が更新される。そしてその価値を利用できるようになる。 Ø 報酬までの道のりが遠いほど、ランダムに行動して報酬にたどり着

    く確率は小さくなる。いつまで経っても探索を行う羽目に。 ü 解決策として、好奇心に従うことにする。 Ø 好奇心=「珍しいもの、未知なものを体験したい」 Ø エージェントが見慣れない状態に到達した場合、正の追加報酬を与 えて、その状態へエージェントを誘導させる。 2  
  3. 先行研究 1. 状態到達回数をカウント ü 訪れた数の少ない状態ほど、新規性が大きい。(Strehl & Littman, 2009) 2. 状態の生成モデル

    ü 今の状態から次の状態を予測する。予測値と実測値の距離が大きいほど、 より多くの追加報酬を与える。(Stadie et al, 2015) 3   追加報酬
  4. 問題点 1. 状態到達回数をカウント ü 訪れた数の少ない状態ほど、新規性が大きい。(Strehl & Littman, 2009) ⇒ 状態空間が高次元であるほど、カウンターテーブルの保持が困難に。

    2. 状態の生成モデル ü 今の状態から次の状態を予測する。予測値と実測値の距離が大きいほど、 より多くの追加報酬を与える。(Stadie et al, 2015) ⇒ 状態空間が高次元であるほど、生成モデルの学習が困難に。 4  
  5. 本手法の特徴 1. 状態到達回数をカウント ü 訪れた数の少ない状態ほど、新規性が大きい。(Strehl & Littman, 2009) ⇒ 状態空間が高次元であるほど、カウンターテーブルの保持が困難に。  

    ⇒ 状態到達数N(s)をカウントするのではなく、密度p(s)を推定する。 2. 状態の生成モデル ü 今の状態から次の状態を予測する。予測値と実測値の距離が大きいほど、 より多くの追加報酬を与える。(Stadie et al, 2015) ⇒ 状態空間が高次元であるほど、生成モデルの学習が困難に。       ⇒ 密度p(s)を識別モデルD(s)の出力値から求める。 5   total N N p ) ( ) ( s s 
  6. 識別モデルを用意 l 密度推定を行うために、状態の識別器を作成する。 ü 到達した状態 (正例)を、過去に到達した状態集合     (負例) と区別するよう識別モデル    を訓練させる。 ü

    観測した状態が過去の状態集合と異なる場合、識別確率が1に近づく=新規性が高い ü 最適な識別モデルを得るために下記の価値関数が最大になるよう訓練 ü 以下のような最適な識別モデルが得られる。 6   * s } ,..., , { 2 1 n S s s s  ) (s D ))]) ( 1 [log( )] ( [log ( ) ( max ~ ~ * s s s s s D E D E D V S P D     ) ( ) ( ) ( ) ( * * s s s s s s S P D    
  7. 識別モデルから密度推定へ l 離散状態空間の場合 l 連続状態空間の場合   任意のノイズ q を各分布に畳み込むことで、識別確率が1に収束するのを回避 7

      ) ( ) ( ) ( ) ( * * s s s s s s S P D     *) ( 1 1 *) ( s s S P D   *) ( *) ( 1 *) ( s s s D D P S   ) ( ) ( ) ( ) ( * * s s s s s s S P D     1 *) (  s D   *) ( * s s  ) )( ( ) )( ( ) )( ( *) ( * * s s s s s s q P q q D S        *) )( ( s q P S  の形で密度推定値を復元
  8. 潜在空間上での平滑化 l 状態を潜在空間へ写像した後に平滑化を行う。 ü 画像のような高次元の状態は、実際には低次元の多様体に沿って存在しているため、  オリジナルの状態に対してノイズを追加すると、この多様体上から離れる場合がある。 ü 状態を潜在空間に写像した後、潜在空間上でノイズを追加させる。 Ø 例えばAtariドメインでは、潜在空間での平滑化は「画面上のプレイヤー/移動物体の平滑化」

    に対応。(直接画像にガウシアンフィルタをかけてもそうならない) ü 潜在空間上での識別器 9   ) 1 | ( ) 0 | ( ) 1 | ( ) ( ) | 1 (        y z q y z q y z q z D z y p      s s s s s s s s s s s s s s d z q P d z q d z q S ) | ( ) ( ) | ( ) ( ) | ( ) ( * *   s=s*の時y=1 s!=s*の時y=0 )] ( [ ) ( z D E D q  s 密度推定値を復元する場合は、