Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Reinforcement Learning Second edition - Notes o...
Search
Etsuji Nakai
November 18, 2019
Technology
0
110
Reinforcement Learning Second edition - Notes on Chapter 4
Etsuji Nakai
November 18, 2019
Tweet
Share
More Decks by Etsuji Nakai
See All by Etsuji Nakai
Agent Development Kit によるエージェント開発入門
enakai00
19
3.7k
GDG Tokyo 生成 AI 論文をわいわい読む会
enakai00
1
570
Lecture course on Microservices : Part 1
enakai00
1
3.6k
Lecture course on Microservices : Part 2
enakai00
2
3.6k
Lecture course on Microservices : Part 3
enakai00
1
3.5k
Lecture course on Microservices : Part 4
enakai00
1
3.5k
JAX / Flax 入門
enakai00
1
550
生成 AI の基礎 〜 サンプル実装で学ぶ基本原理
enakai00
7
3.9k
大規模言語モデルを支える分散学習インフラ Pathways
enakai00
3
510
Other Decks in Technology
See All in Technology
Tech-Verse 2025 Global CTO Session
lycorptech_jp
PRO
0
760
Yamla: Rustでつくるリアルタイム性を追求した機械学習基盤 / Yamla: A Rust-Based Machine Learning Platform Pursuing Real-Time Capabilities
lycorptech_jp
PRO
4
150
Leveraging Open-Source Tools for Creating 3D Tiles in the Urban Environment
simboss
PRO
0
120
KubeCon + CloudNativeCon Japan 2025 Recap by CA
ponkio_o
PRO
0
150
2025-06-26_Lightning_Talk_for_Lightning_Talks
_hashimo2
2
100
AIとともに進化するエンジニアリング / Engineering-Evolving-with-AI_final.pdf
lycorptech_jp
PRO
0
120
SpringBoot x TestContainerで実現するポータブル自動結合テスト
demaecan
0
100
PHPでWebブラウザのレンダリングエンジンを実装する
dip_tech
PRO
0
210
生まれ変わった AWS Security Hub (Preview) を紹介 #reInforce_osaka / reInforce New Security Hub
masahirokawahara
0
260
rubygem開発で鍛える設計力
joker1007
2
220
強化されたAmazon Location Serviceによる新機能と開発者体験
dayjournal
3
230
AIエージェント最前線! Amazon Bedrock、Amazon Q、そしてMCPを使いこなそう
minorun365
PRO
15
5.4k
Featured
See All Featured
4 Signs Your Business is Dying
shpigford
184
22k
We Have a Design System, Now What?
morganepeng
53
7.7k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.3k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
31
1.2k
Embracing the Ebb and Flow
colly
86
4.7k
Documentation Writing (for coders)
carmenintech
72
4.9k
Statistics for Hackers
jakevdp
799
220k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
48
2.8k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
50k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
20
1.3k
Optimizing for Happiness
mojombo
379
70k
Facilitating Awesome Meetings
lara
54
6.4k
Transcript
Reinforcement Learning Second edition - Notes on Chapter 4 Etsuji
Nakai (@enakai00)
Policy Iteration (ポリシーの改善ステップ) 2 ※ ここでは、 は既知とする。 ・任意のポリシー を1つ選択する ・Value function
を(何らかの方法で)計算する ・Action-Value function が決まる ・Greedy ポリシー ( が最大の a を確率 1 で選択する) この時、任意の s について が成り立つ。 つまり、π' は、π よりも優れたポリシーと言える。この改善処理を繰り返す。 この方法は 次ページで説明
Bellman Equation の右辺を用いて、左辺を漸化的にアップデートしていくと、最終的に両辺が等しくなる。 Policy Evaluation 3
Policy Iteration の課題:計算が長い! 4 全状態についての ループを・・・ 収束するまで 何度も繰り返す ポリシーの更新も 状態数×アクション数
回のループが必要
改善案 5 • Value Function を真面目に収束するまで計算しても、次のステップで Policy が更新される と、そこからまた再更新が必要。収束する手前で、早めに打ち切ってもよくない? •
Policy 更新のために全状態をループするのと、Value Function の計算のために全状態をルー プするの、別々にやるのってもったいなくない? Value Function の計算ループの中に、Policy の更新も埋め込んでしまえ! ⇨ Value Iteration
Value Iteration 6 実質的に Greedy Policy を更新・適用している
Value Iteration 7 更新済みの Policy を適用 https://github.com/enakai00/rl_book_solutions/blob/master/Chapter04/Exercise_4_7_(Value_Iteration)_part1.ipynb
Generalized Policy Iteration (GPI) 8