Reinforcement Learning Second edition - Notes on Chapter 3 and 4

Reinforcement Learning Second edition - Notes on Chapter 3 and
4 Etsuji Nakai (@enakai00)

General Framework of Agent-Environment 2 : 状態 s でアクション a
を選んだ時に、「報酬 r が得られて次の状態が s' になる」確率

Example : 3

Example : ゴミ箱ロボット 4 問題：起こり得るすべての行動パターンをツリーとして展開するとどうなるか？

Example : ゴミ箱ロボット 5 high wait search low high wait
search low high wait search low high high high high r r r wait search

Total Reward 6 現在の時刻を t として、それ以降に得られる報酬の総量：これができるだけ大きくなるパスをたどりたい。 ※ 途中でゲームオーバーになった場合は、状態 s
は終端状態 ▪ になったものとする。（終端状態 s = ▪ では、すべてのアクションに対して、r = 0, s' = ▪ と定義する。）

Policy and Value function 7 ・ポリシー：状態 s の時にアクション a を選ぶ確率
→ 総報酬 G ができるだけ大きくなるポリシーを発見したい。・Value function : 状態 s から出発して、ポリシー π で行動した際の総報酬 G の期待値 → 任意のポリシー π' に対して　　　　　　　　　を満たすポリシー π （最適ポリシー）を見つけることを強化学習の目標とする。

Bellman equation for v(s) 8 { a を選んだ時のその後の総報酬の期待値 } :
State-Action value function → Bellman Equation

State-Action value function 9 → Bellman Equation

Policy Iteration （ポリシーの改善ステップ） 10 ※ ここでは、　　　　　　は既知とする。・任意のポリシー　　　　　を１つ選択する・Value function
　　　　を（何らかの方法で）計算する・Action-Value function が決まる・Greedy ポリシー　　　　　　　　　　　　　（　　　　　が最大の a を確率 1 で選択する）この時、任意の s について　　　　　　　　が成り立つ。つまり、π' は、π よりも優れたポリシーと言える。この改善処理を繰り返す。この方法は次ページで説明

Bellman Equation の右辺を用いて、左辺を漸化的にアップデートしていくと、最終的に両辺が等しくなる。 Policy Evaluation 11

Policy Evaluation - How it works (1) 12 Goal Policy
: 確率 1 で ← に移動 Start ← +1 Update ↓ Update ↓ Update ↓ ・・・各 state についてのループで更新 https://github.com/enakai00/rl_book_solutions/blob/master/Chapter03/Policy_Evaluation_Example.ipynb

Policy Evaluation - How it works (2) 13 Goal Policy
: 確率 1/2 で左右どちらかに移動 Goal ← +1 Update ↓ Update ↓ Update ↓ ・・・ https://github.com/enakai00/rl_book_solutions/blob/master/Chapter03/Policy_Evaluation_Example.ipynb → +1 Start 各 state についてのループで更新このループを繰り返すと最終的にこうなる

Example: Gridworld 14 https://github.com/enakai00/rl_book_solutions/blob/master/Chapter03/Example_3_5_%26_3_8_(Gridworld).ipynb Random policy Optimal policy

Example: Car Rental Problem 15 https://github.com/enakai00/rl_book_solutions/blob/master/Chapter04/Exercise_4_7_(Policy_Iteration)_part1.ipynb

Example: Car Rental Problem (Exercise 4.7) 16 https://github.com/enakai00/rl_book_solutions/blob/master/Chapter04/Exercise_4_7_(Policy_Iteration)_part2.ipynb

Summary 17 • Bellman 方程式を漸化式とみなして、「Iterative に Value Function を求める」方法を説明 →
Dynamic Programming （動的計画法） ◦ 手続きは漸近的であるが、最終的には厳密解を求める手法である点に注意 ◦ 環境の Dynamics 　　　　　　　が分かっている前提の手法 • 欠点 ◦ Value Function の計算が収束するまで時間がかかる ◦ Policy Update の度に Value Function の再計算が必要 ◦ 環境の Dynamics 　　　　　　　が分からないと使えない Bootstrapping と言う Value Iteration で改善 Monte Carlo 法で対応

Reinforcement Learning Second edition - Notes o...

Reinforcement Learning Second edition - Notes on Chapter 3 and 4

Etsuji Nakai

More Decks by Etsuji Nakai

Other Decks in Technology

Featured

Transcript