Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Speaker Deck
PRO
Sign in
Sign up
for free
Reinforcement Learning Second edition - Notes on Chapter 4
Etsuji Nakai
November 18, 2019
Technology
0
48
Reinforcement Learning Second edition - Notes on Chapter 4
Etsuji Nakai
November 18, 2019
Tweet
Share
More Decks by Etsuji Nakai
See All by Etsuji Nakai
enakai00
3
460
enakai00
0
300
enakai00
0
160
enakai00
0
29
enakai00
4
2.3k
enakai00
0
3.2k
enakai00
1
47
enakai00
0
66
enakai00
12
2.1k
Other Decks in Technology
See All in Technology
hamadakoji
1
1.1k
clustervr
0
150
suzukiry
0
210
muras
0
100
asaju7142501
0
330
papix
0
130
kanaugust
PRO
0
180
_kensh
1
150
hololab
0
300
helayoty
0
130
ymas0315
0
170
kakka
0
3.7k
Featured
See All Featured
malarkey
393
60k
mojombo
358
62k
keithpitt
401
20k
bermonpainter
342
26k
addyosmani
310
21k
addyosmani
1348
190k
keavy
106
14k
lara
16
2.6k
tenderlove
52
3.4k
keathley
18
640
marcelosomers
220
15k
bryan
100
11k
Transcript
Reinforcement Learning Second edition - Notes on Chapter 4 Etsuji
Nakai (@enakai00)
Policy Iteration (ポリシーの改善ステップ) 2 ※ ここでは、 は既知とする。 ・任意のポリシー を1つ選択する ・Value function
を(何らかの方法で)計算する ・Action-Value function が決まる ・Greedy ポリシー ( が最大の a を確率 1 で選択する) この時、任意の s について が成り立つ。 つまり、π' は、π よりも優れたポリシーと言える。この改善処理を繰り返す。 この方法は 次ページで説明
Bellman Equation の右辺を用いて、左辺を漸化的にアップデートしていくと、最終的に両辺が等しくなる。 Policy Evaluation 3
Policy Iteration の課題:計算が長い! 4 全状態についての ループを・・・ 収束するまで 何度も繰り返す ポリシーの更新も 状態数×アクション数
回のループが必要
改善案 5 • Value Function を真面目に収束するまで計算しても、次のステップで Policy が更新される と、そこからまた再更新が必要。収束する手前で、早めに打ち切ってもよくない? •
Policy 更新のために全状態をループするのと、Value Function の計算のために全状態をルー プするの、別々にやるのってもったいなくない? Value Function の計算ループの中に、Policy の更新も埋め込んでしまえ! ⇨ Value Iteration
Value Iteration 6 実質的に Greedy Policy を更新・適用している
Value Iteration 7 更新済みの Policy を適用 https://github.com/enakai00/rl_book_solutions/blob/master/Chapter04/Exercise_4_7_(Value_Iteration)_part1.ipynb
Generalized Policy Iteration (GPI) 8