Reinforcement Learning Second edition - Notes on Chapter 4

Reinforcement Learning Second edition - Notes on Chapter 4

Da467feb3ca0106d571915faedb714f2?s=128

Etsuji Nakai

November 18, 2019
Tweet

Transcript

  1. Reinforcement Learning Second edition - Notes on Chapter 4 Etsuji

    Nakai (@enakai00)
  2. Policy Iteration (ポリシーの改善ステップ) 2 ※ ここでは、       は既知とする。 ・任意のポリシー     を1つ選択する ・Value function

        を(何らかの方法で)計算する ・Action-Value function が決まる ・Greedy ポリシー             (     が最大の a を確率 1 で選択する) この時、任意の s について         が成り立つ。 つまり、π' は、π よりも優れたポリシーと言える。この改善処理を繰り返す。 この方法は 次ページで説明
  3. Bellman Equation の右辺を用いて、左辺を漸化的にアップデートしていくと、最終的に両辺が等しくなる。 Policy Evaluation 3

  4. Policy Iteration の課題:計算が長い! 4 全状態についての ループを・・・ 収束するまで 何度も繰り返す ポリシーの更新も 状態数×アクション数

    回のループが必要
  5. 改善案 5 • Value Function を真面目に収束するまで計算しても、次のステップで Policy が更新される と、そこからまた再更新が必要。収束する手前で、早めに打ち切ってもよくない? •

    Policy 更新のために全状態をループするのと、Value Function の計算のために全状態をルー プするの、別々にやるのってもったいなくない? Value Function の計算ループの中に、Policy の更新も埋め込んでしまえ! ⇨ Value Iteration
  6. Value Iteration 6 実質的に Greedy Policy を更新・適用している

  7. Value Iteration 7 更新済みの Policy を適用 https://github.com/enakai00/rl_book_solutions/blob/master/Chapter04/Exercise_4_7_(Value_Iteration)_part1.ipynb

  8. Generalized Policy Iteration (GPI) 8