Reinforcement Learning Second edition - Notes on Chapter 4

Reinforcement Learning Second edition - Notes on Chapter 4 Etsuji
Nakai (@enakai00)

Policy Iteration （ポリシーの改善ステップ） 2 ※ ここでは、　　　　　　は既知とする。・任意のポリシー　　　　　を１つ選択する・Value function
　　　　を（何らかの方法で）計算する・Action-Value function が決まる・Greedy ポリシー　　　　　　　　　　　　　（　　　　　が最大の a を確率 1 で選択する）この時、任意の s について　　　　　　　　が成り立つ。つまり、π' は、π よりも優れたポリシーと言える。この改善処理を繰り返す。この方法は次ページで説明

Bellman Equation の右辺を用いて、左辺を漸化的にアップデートしていくと、最終的に両辺が等しくなる。 Policy Evaluation 3

Policy Iteration の課題：計算が長い！ 4 全状態についてのループを・・・収束するまで何度も繰り返すポリシーの更新も状態数×アクション数
回のループが必要

改善案 5 • Value Function を真面目に収束するまで計算しても、次のステップで Policy が更新されると、そこからまた再更新が必要。収束する手前で、早めに打ち切ってもよくない？ •
Policy 更新のために全状態をループするのと、Value Function の計算のために全状態をループするの、別々にやるのってもったいなくない？ Value Function の計算ループの中に、Policy の更新も埋め込んでしまえ！ ⇨ Value Iteration

Value Iteration 6 実質的に Greedy Policy を更新・適用している

Value Iteration 7 更新済みの Policy を適用 https://github.com/enakai00/rl_book_solutions/blob/master/Chapter04/Exercise_4_7_(Value_Iteration)_part1.ipynb

Generalized Policy Iteration (GPI) 8

Reinforcement Learning Second edition - Notes o...

Reinforcement Learning Second edition - Notes on Chapter 4

Etsuji Nakai

More Decks by Etsuji Nakai

Other Decks in Technology

Featured

Transcript