Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Reinforcement Learning Second edition - Notes o...

Etsuji Nakai
September 21, 2019

Reinforcement Learning Second edition - Notes on Chapter 3 and 4

Etsuji Nakai

September 21, 2019
Tweet

More Decks by Etsuji Nakai

Other Decks in Technology

Transcript

  1. General Framework of Agent-Environment 2 : 状態 s でアクション a

    を選んだ時に、「報酬 r が得られて次の状態が s' になる」確率
  2. Example : ゴミ箱ロボット 5 high wait search low high wait

    search low high wait search low high high high high r r r wait search
  3. Total Reward 6 現在の時刻を t として、それ以降に得られる報酬の総量: これができるだけ大きくなるパスをたどりたい。 ※ 途中でゲームオーバーになった場合は、状態 s

    は終端状態 ▪ になったものとする。 (終端状態 s = ▪ では、すべてのアクションに対して、r = 0, s' = ▪ と定義する。)
  4. Policy and Value function 7 ・ポリシー:状態 s の時にアクション a を選ぶ確率

    → 総報酬 G ができるだけ大きくなるポリシーを発見したい。 ・Value function : 状態 s から出発して、ポリシー π で行動した際の総報酬 G の期待値 → 任意のポリシー π' に対して          を満たすポリシー π (最適ポリシー)を見つけることを強化学習の目標とする。
  5. Policy Iteration (ポリシーの改善ステップ) 10 ※ ここでは、       は既知とする。 ・任意のポリシー     を1つ選択する ・Value function

        を(何らかの方法で)計算する ・Action-Value function が決まる ・Greedy ポリシー             (     が最大の a を確率 1 で選択する) この時、任意の s について         が成り立つ。 つまり、π' は、π よりも優れたポリシーと言える。この改善処理を繰り返す。 この方法は 次ページで説明
  6. Policy Evaluation - How it works (1) 12 Goal Policy

    : 確率 1 で ← に移動 Start ← +1 Update ↓ Update ↓ Update ↓ ・・・ 各 state について のループで更新 https://github.com/enakai00/rl_book_solutions/blob/master/Chapter03/Policy_Evaluation_Example.ipynb
  7. Policy Evaluation - How it works (2) 13 Goal Policy

    : 確率 1/2 で左右どちらかに移動 Goal ← +1 Update ↓ Update ↓ Update ↓ ・・・ https://github.com/enakai00/rl_book_solutions/blob/master/Chapter03/Policy_Evaluation_Example.ipynb → +1 Start 各 state について のループで更新 このループを 繰り返すと 最終的にこうなる
  8. Summary 17 • Bellman 方程式を漸化式とみなして、「Iterative に Value Function を求める」方法を説明 →

    Dynamic Programming (動的計画法) ◦ 手続きは漸近的であるが、最終的には厳密解を求める手法である点に注意 ◦ 環境の Dynamics        が分かっている前提の手法 • 欠点 ◦ Value Function の計算が収束するまで時間がかかる ◦ Policy Update の度に Value Function の再計算が必要 ◦ 環境の Dynamics        が分からないと使えない Bootstrapping と言う Value Iteration で改善 Monte Carlo 法で対応