Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Reinforcement Learning Second edition - Notes o...
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
Etsuji Nakai
November 18, 2019
Technology
110
0
Share
Reinforcement Learning Second edition - Notes on Chapter 4
Etsuji Nakai
November 18, 2019
More Decks by Etsuji Nakai
See All by Etsuji Nakai
ハミルトン・ヤコビ方程式の解の性質と物理的意味
enakai00
0
450
Agent Development Kit によるエージェント開発入門
enakai00
23
8.9k
GDG Tokyo 生成 AI 論文をわいわい読む会
enakai00
1
680
Lecture course on Microservices : Part 1
enakai00
1
3.8k
Lecture course on Microservices : Part 2
enakai00
2
3.7k
Lecture course on Microservices : Part 3
enakai00
1
3.7k
Lecture course on Microservices : Part 4
enakai00
1
3.7k
JAX / Flax 入門
enakai00
1
1.3k
生成 AI の基礎 〜 サンプル実装で学ぶ基本原理
enakai00
7
4.3k
Other Decks in Technology
See All in Technology
layerx-fde-practices
cipepser
6
2.7k
『家族アルバム みてね』における インシデント対応との向き合い方 / Approach incident response in Family Album
kohbis
2
180
管理アカウント単一運用からAWS Organizationsに移行するの大変で滅
hiramax
0
230
サプライチェーン攻撃への備えについて考えている #湘なんか
stefafafan
3
2.4k
AIが変えた"品質の守り方"
kkakizaki
4
1.9k
CARTA HOLDINGS エンジニア向け 採用ピッチ資料 / CARTA-GUIDE-for-Engineers
carta_engineering
0
47k
ビジュアルプログラミングIoTLT vol.23
1ftseabass
PRO
0
110
イベントストーミングとKiroの仕様駆動開発で実現する要件の認識合わせプロセス
syobochim
4
230
TypeScript で Platform SDK を作る技術
toiroakr
1
290
テストコードのないプロジェクトにテストを根付かせる
tttol
0
130
DI コンテナ自動生成ツールを実装してみた / intro-autodi
uhzz
0
870
AIコーディングエージェントの活用で、コードは静かに肥大化した
yosukeshinoda
1
350
Featured
See All Featured
Become a Pro
speakerdeck
PRO
31
5.9k
HTML-Aware ERB: The Path to Reactive Rendering @ RubyCon 2026, Rimini, Italy
marcoroth
1
97
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.5k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.7k
Leo the Paperboy
mayatellez
7
1.8k
Money Talks: Using Revenue to Get Sh*t Done
nikkihalliwell
0
230
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
118
120k
Ethics towards AI in product and experience design
skipperchong
2
280
Sam Torres - BigQuery for SEOs
techseoconnect
PRO
0
270
Chasing Engaging Ingredients in Design
codingconduct
0
200
GitHub's CSS Performance
jonrohan
1033
470k
Paper Plane
katiecoart
PRO
1
50k
Transcript
Reinforcement Learning Second edition - Notes on Chapter 4 Etsuji
Nakai (@enakai00)
Policy Iteration (ポリシーの改善ステップ) 2 ※ ここでは、 は既知とする。 ・任意のポリシー を1つ選択する ・Value function
を(何らかの方法で)計算する ・Action-Value function が決まる ・Greedy ポリシー ( が最大の a を確率 1 で選択する) この時、任意の s について が成り立つ。 つまり、π' は、π よりも優れたポリシーと言える。この改善処理を繰り返す。 この方法は 次ページで説明
Bellman Equation の右辺を用いて、左辺を漸化的にアップデートしていくと、最終的に両辺が等しくなる。 Policy Evaluation 3
Policy Iteration の課題:計算が長い! 4 全状態についての ループを・・・ 収束するまで 何度も繰り返す ポリシーの更新も 状態数×アクション数
回のループが必要
改善案 5 • Value Function を真面目に収束するまで計算しても、次のステップで Policy が更新される と、そこからまた再更新が必要。収束する手前で、早めに打ち切ってもよくない? •
Policy 更新のために全状態をループするのと、Value Function の計算のために全状態をルー プするの、別々にやるのってもったいなくない? Value Function の計算ループの中に、Policy の更新も埋め込んでしまえ! ⇨ Value Iteration
Value Iteration 6 実質的に Greedy Policy を更新・適用している
Value Iteration 7 更新済みの Policy を適用 https://github.com/enakai00/rl_book_solutions/blob/master/Chapter04/Exercise_4_7_(Value_Iteration)_part1.ipynb
Generalized Policy Iteration (GPI) 8