Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Reinforcement Learning Second edition - Notes on DQN

Reinforcement Learning Second edition - Notes on DQN

Etsuji Nakai

February 10, 2020
Tweet

More Decks by Etsuji Nakai

Other Decks in Technology

Transcript

  1. Reinforcement Learning
    Second edition
    - Notes on DQN
    Etsuji Nakai (@enakai00)

    View Slide

  2. Functional Approximation
    2
    ● これまでは、State Value Function v(s) 、もしくは、Action-State Value Function q(s, a)
    の値をすべての状態 s について個別に記録(Tabular Method)
    ● 状態数が爆発的に増加する問題では、メモリーの不足、計算時間の増加といった問題が発生
    ● 少数のパラメーター w を持った関数で v(s) 、もしくは、 q(s, a) を表現して、w をチューニン
    グすることで、近似的に計算する

    View Slide

  3. Functional Approximation
    3
    ● 近似関数が正しい価値関数の振る舞いとかけ離れていると、計算が収束しない可能性がある
    ● 例:2つの状態 A, B があり相互の遷移に伴う報酬は 0。つまり、v(A) = v(B) = 0 が正解。
    ○ v(A) = w, v(B) = 2w と線形近似すると、A のベルマン方程式は、w を増加させようと
    して、B のベルマン方程式は、w を減少させようとするので、w は振動を続ける。
    ● パラメーターが発散するような例を作ることも可能

    View Slide

  4. Functional Approximation
    4

    View Slide

  5. DQN
    5
    ● 近似関数として、ニューラルネットワークを使用する(表現力の高い関数を用いることで、
    前述の問題を避ける。)
    ● Action - State Value Function を下記の「方針」でアップデートする(Q-Learning)
    ○ Off-policy メソッドなので、エピソードの収集は任意のポリシーで実施可能

    View Slide

  6. DQN
    6
    ● 実際の学習方法としては、エピソードに含まれる       の4つ組を大量にストック
    しておいて、下記の誤差関数を最小化するようにバッチで学習する。(勾配降下法)
    ● エピソードの収集は、たとえば、現在の Q(S, A) に基づいた ε-Greedy を用いる。

    View Slide

  7. DQN
    7
    ● あくまで近似なので、「真の関数」との距離をどのように測るかで、最適化の結果は異なる
    真の関数を何らかの
    意味で射影したもの
    近似空間の中で誤差
    を最小にするもの

    View Slide

  8. Monte Carlo Tree Search
    ● 関数近似は原理的に不正確なので、学習済みのエージェントを用いて、実際にアクションを
    選択する前に、現在の状態 S を出発点とするエピソードを(シミュレーションで)収集し
    て、Tabular Method で価値関数を再見積もりする。
    ○ 現在の状態 S の周りに限定して実施するので、Tabular Method でもメモリー不足は起
    きない

    View Slide

  9. 9
    Monte Carlo Tree Search
    シミュレーション対象
    のパスを一定のルール
    で決定する
    終了状態に至る
    エピソードを収集
    実際に得られた報酬を用
    いて、パス上の価値関数
    の値を更新

    View Slide

  10. 10
    あるけあるけゲーム

    View Slide

  11. 11
    あるけあるけゲーム
    https://github.com/enakai00/rl_book_solutions/blob/master/DQN/walk_game_dqn.ipynb

    View Slide