Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Reinforcement Learning Second edition - Notes o...
Search
Etsuji Nakai
November 18, 2019
Technology
0
99
Reinforcement Learning Second edition - Notes on Chapter 4
Etsuji Nakai
November 18, 2019
Tweet
Share
More Decks by Etsuji Nakai
See All by Etsuji Nakai
GDG Tokyo 生成 AI 論文をわいわい読む会
enakai00
0
490
Lecture course on Microservices : Part 1
enakai00
1
3.3k
Lecture course on Microservices : Part 2
enakai00
1
3.3k
Lecture course on Microservices : Part 3
enakai00
1
3.2k
Lecture course on Microservices : Part 4
enakai00
1
3.2k
JAX / Flax 入門
enakai00
1
450
生成 AI の基礎 〜 サンプル実装で学ぶ基本原理
enakai00
7
3.7k
大規模言語モデルを支える分散学習インフラ Pathways
enakai00
3
470
Python × 数学ブートキャンプガイド
enakai00
1
730
Other Decks in Technology
See All in Technology
Change Managerを活用して本番環境へのセキュアなGUIアクセスを統制する / Control Secure GUI Access to the Production Environment with Change Manager
yuj1osm
0
100
IAMのマニアックな話2025
nrinetcom
PRO
2
250
クラウド関連のインシデントケースを収集して見えてきたもの
lhazy
3
330
実は強い 非ViTな画像認識モデル
tattaka
2
1.2k
コンピュータビジョンの社会実装について考えていたらゲームを作っていた話
takmin
1
600
わたしがEMとして入社した「最初の100日」の過ごし方 / EMConfJp2025
daiksy
14
4.9k
Amazon Aurora のバージョンアップ手法について
smt7174
2
140
Potential EM 制度を始めた理由、そして2年後にやめた理由 - EMConf JP 2025
hoyo
2
2.6k
1行のコードから社会課題の解決へ: EMの探究、事業・技術・組織を紡ぐ実践知 / EM Conf 2025
9ma3r
10
3.7k
EMConf JP 2025 懇親会LT / EMConf JP 2025 social gathering
sugamasao
2
190
役員・マネージャー・著者・エンジニアそれぞれの立場から見たAWS認定資格
nrinetcom
PRO
3
5.9k
RayでPHPのデバッグをちょっと快適にする
muno92
PRO
0
190
Featured
See All Featured
Dealing with People You Can't Stand - Big Design 2015
cassininazir
366
25k
The Cost Of JavaScript in 2023
addyosmani
47
7.4k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
129
19k
Building Applications with DynamoDB
mza
93
6.2k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
193
16k
Art, The Web, and Tiny UX
lynnandtonic
298
20k
Fontdeck: Realign not Redesign
paulrobertlloyd
83
5.4k
Embracing the Ebb and Flow
colly
84
4.6k
Mobile First: as difficult as doing things right
swwweet
223
9.4k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
27
1.6k
Rails Girls Zürich Keynote
gr2m
94
13k
Transcript
Reinforcement Learning Second edition - Notes on Chapter 4 Etsuji
Nakai (@enakai00)
Policy Iteration (ポリシーの改善ステップ) 2 ※ ここでは、 は既知とする。 ・任意のポリシー を1つ選択する ・Value function
を(何らかの方法で)計算する ・Action-Value function が決まる ・Greedy ポリシー ( が最大の a を確率 1 で選択する) この時、任意の s について が成り立つ。 つまり、π' は、π よりも優れたポリシーと言える。この改善処理を繰り返す。 この方法は 次ページで説明
Bellman Equation の右辺を用いて、左辺を漸化的にアップデートしていくと、最終的に両辺が等しくなる。 Policy Evaluation 3
Policy Iteration の課題:計算が長い! 4 全状態についての ループを・・・ 収束するまで 何度も繰り返す ポリシーの更新も 状態数×アクション数
回のループが必要
改善案 5 • Value Function を真面目に収束するまで計算しても、次のステップで Policy が更新される と、そこからまた再更新が必要。収束する手前で、早めに打ち切ってもよくない? •
Policy 更新のために全状態をループするのと、Value Function の計算のために全状態をルー プするの、別々にやるのってもったいなくない? Value Function の計算ループの中に、Policy の更新も埋め込んでしまえ! ⇨ Value Iteration
Value Iteration 6 実質的に Greedy Policy を更新・適用している
Value Iteration 7 更新済みの Policy を適用 https://github.com/enakai00/rl_book_solutions/blob/master/Chapter04/Exercise_4_7_(Value_Iteration)_part1.ipynb
Generalized Policy Iteration (GPI) 8