Reinforcement Learning Second edition - Notes on Chapter 6

Reinforcement Learning Second edition - Notes on Chapter 6 Etsuji
Nakai (@enakai00)

Oﬀ-policy MC control with ε - greedy の課題 2 •
ゴールから逆向きにエピソードをスキャンして、Value Function を更新していく。 • Target policy π が Greedy（非確率的）なので、π と異なるアクションがあると、それ以前を含むパスの確率は 0 になり、そこでスキャンは打ち切られる。 • スタートからゴールまで Target policy にしたがって行動するエピソードがないと、スタート付近の価値関数が学習できない。 ◦ つまり、長距離にわたる学習が困難 ⇨「Bootstrapping でない手法」の課題

Temporal Diﬀerence Prediction 3 • ゴールに至るまでの Total Reward で Value
function を見積もるのではなく、DP Method と同様に、エピソードに含まれる個々のステップを個別に評価する。 • S → A → R → S' というステップに対して、S' 以降の Total Reward は、現在の V(S') の値で近似すると、　　　　　　　　　という見積もりができる。 • 現状の V(S) とここで得られた見積もりとの差分を TD Error と呼ぶ。 • 一定の重み α で TD Error による修正を加えていく。

Temporal Diﬀerence Prediction 4 • 問題点：Greedy Policy を採用すると、その Policy では到達しない状態のサンプルが得られ
なくなる。

MC vs TD for random policy 5 • ・・・という問題は一旦置いておき、random policy
に対する Value function の評価を MC と TD で比較してみる。 https://github.com/enakai00/rl_book_solutions/blob/master/Chapter06/Exercise_6_4.ipynb

ポリシーの改善方法（Policy Iteration の復習） 6 ※ ここでは、　　　　　　は既知とする。・任意のポリシー　　　　　を１つ選択する・Value function
　　　　を（何らかの方法で）計算する・Action-Value function が決まる・Greedy ポリシー　　　　　　　　　　　　　（　　　　　が最大の a を確率 1 で選択する）この時、任意の s について　　　　　　　　が成り立つ。つまり、π' は、π よりも優れたポリシーと言える。この改善処理を繰り返す。 TD の場合は、q π (s, a) を求めておくことが必要

ポリシーの改善方法（SARSA） 7 • 　　　　: 状態 S で Action A を取り、その後は、ポリシー
π で行動を続けた場合の Total Reward • ポリシー π の下に、　　　　　　　を取得して、Action-value function の見積もりを下記でアップデートする。 • ポリシー π として、　　　を用いた Greedy policy を採用すると、　　　の更新に伴って、ポリシーも改善されていく。

ポリシーの改善方法（SARSA） 8 • 問題点：Greedy Policy を採用すると、その Policy では到達しない状態のサンプルが得られなくなる！！！！！！！ •
あきらめて、ε - greedy （一般には、　　　に基づいた何らかの Soft policy）を採用して、ε を徐々に 0 に近づけるなどの工夫をする。 ⇨ これが、一般に SARSA （on-policy TD）と呼ばれる手法

ポリシーの改善方法（SARSA） 9

MC / TD の根本問題をもう一度よく考えてみよう 10 • 問題点：Greedy Policy を採用すると、その Policy
では到達しない状態のサンプルが得られなくなる！！！！！！！と言ったけど・・・・ • Greedy でない Policy を採用すると、Greedy policy でその経路が得られる確率が 0 になり、oﬀ-policy MC における Importance sampling ができないことが真の問題点 • あれ？　じゃあ、TD の場合、上記の問題ってあるんだっけ・・・・？

MC / TD の根本問題をもう一度よく考えてみよう 11 • 下記のアップデートの根本原理は、　　　　　　　　　　　という関係式。 • 　　　　:「状態
S で Action A を取り、その後は、ポリシー π で行動を続けた場合の Total Reward」なので、上記のアップデートにおいて、Action A は、任意のポリシーで取得して構わない。 • 一方、Action A' は、ポリシー π で取得したものを選択する必要がある。したがって、ここで、Greedy policy を適用すれば、Greedy policy に基づいたポリシーの更新ができる。 ⇨ Q - Learning

• MC の場合 • Q - Learning の場合 MC と
Q-Learning の違い 12 この部分の Total reward をリアルなエピソードから取得するこの部分の Total reward は、　　　　　で見積もる（なので、これ以降の経路は、　　　とは無関係で何でもよい。）

• 任意のポリシーでエピソードを集めまくれば、最適な Greedy ポリシーが決定できる。 • よって、エピソード収集用のポリシー（Behavior policy）を工夫することで、より長期的な経路のデータを効率的に収集することができえる。 Q-Learning =
Oﬀ - policy TD 13

• Q - Learning ： Q(S, A) は、Optimal path を学習していくが、Behavior
policy が Q(S, A) に基づく ε - greedy なので、エピソードの収集中は、Cliﬀ に落ちやすい。 • SARSA： Q(S, A) は、ε - greedy ポリシーに対する価値を学習するので、Cliﬀ の近くは危険（価値が低い）と学習されてしまう。 SARSA と Q - Learning の比較 14 Behavior policy は ε - greedy

• 前ページの例は、Q-Learning が不利になるように作為的に作った例で、一般には、 Q-Learning の方が効率的に学習が進む。 SARSA と Q - Learning
の比較 15 https://github.com/enakai00/rl_book_solutions/blob/master/Chapter06/SARSA_vs_Q_Learning_vs_MC.ipynb SARSA: 17 ############ # 901# # 2# # 8 3# #01 7 G 4# # 2 6 65# # 345 # # # ############ Q-Learning: 15 ############ # 6789# # 5 0# # 4 1# #0123 G 2# # 43# # # # # ############ MC: 15 ############ # 6789# # 5 0# # 4 1# #0123 G 2# # 43# # # # # ############ • この例では Q(S, A) の初期値が 0 なので、 Exploration がより積極的に行われる点に注意

Reinforcement Learning Second edition - Notes o...

Reinforcement Learning Second edition - Notes on Chapter 6

Etsuji Nakai

More Decks by Etsuji Nakai

Other Decks in Technology

Featured

Transcript

Reinforcement Learning Second edition - Notes on Chapter 6 Etsuji

Oﬀ-policy MC control with ε - greedy の課題 2 •

Temporal Diﬀerence Prediction 3 • ゴールに至るまでの Total Reward で Value

Temporal Diﬀerence Prediction 4 • 問題点：Greedy Policy を採用すると、その Policy では到達しない状態のサンプルが得られ

MC vs TD for random policy 5 • ・・・という問題は一旦置いておき、random policy

ポリシーの改善方法（Policy Iteration の復習） 6 ※ ここでは、　　　　　　は既知とする。・任意のポリシー　　　　　を１つ選択する・Value function

ポリシーの改善方法（SARSA） 7 • 　　　　: 状態 S で Action A を取り、その後は、ポリシー

ポリシーの改善方法（SARSA） 8 • 問題点：Greedy Policy を採用すると、その Policy では到達しない状態のサンプルが得られなくなる！！！！！！！ •

ポリシーの改善方法（SARSA） 9

MC / TD の根本問題をもう一度よく考えてみよう 10 • 問題点：Greedy Policy を採用すると、その Policy

MC / TD の根本問題をもう一度よく考えてみよう 11 • 下記のアップデートの根本原理は、　　　　　　　　　　　という関係式。 • 　　　　:「状態

• MC の場合 • Q - Learning の場合 MC と

• Q - Learning ： Q(S, A) は、Optimal path を学習していくが、Behavior

• 前ページの例は、Q-Learning が不利になるように作為的に作った例で、一般には、 Q-Learning の方が効率的に学習が進む。 SARSA と Q - Learning