Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Reinforcement Learning Second edition - Notes o...
Search
Etsuji Nakai
November 18, 2019
Technology
0
110
Reinforcement Learning Second edition - Notes on Chapter 4
Etsuji Nakai
November 18, 2019
Tweet
Share
More Decks by Etsuji Nakai
See All by Etsuji Nakai
Agent Development Kit によるエージェント開発入門
enakai00
23
8.3k
GDG Tokyo 生成 AI 論文をわいわい読む会
enakai00
1
640
Lecture course on Microservices : Part 1
enakai00
1
3.7k
Lecture course on Microservices : Part 2
enakai00
2
3.7k
Lecture course on Microservices : Part 3
enakai00
1
3.6k
Lecture course on Microservices : Part 4
enakai00
1
3.6k
JAX / Flax 入門
enakai00
1
960
生成 AI の基礎 〜 サンプル実装で学ぶ基本原理
enakai00
7
4.2k
大規模言語モデルを支える分散学習インフラ Pathways
enakai00
3
540
Other Decks in Technology
See All in Technology
10Xにおける品質保証活動の全体像と改善 #no_more_wait_for_test
nihonbuson
PRO
2
310
量子クラウドサービスの裏側 〜Deep Dive into OQTOPUS〜
oqtopus
0
130
20260208_第66回 コンピュータビジョン勉強会
keiichiito1978
0
150
小さく始めるBCP ― 多プロダクト環境で始める最初の一歩
kekke_n
1
440
マーケットプレイス版Oracle WebCenter Content For OCI
oracle4engineer
PRO
5
1.6k
顧客の言葉を、そのまま信じない勇気
yamatai1212
1
360
Cosmos World Foundation Model Platform for Physical AI
takmin
0
930
データの整合性を保ちたいだけなんだ
shoheimitani
8
3.1k
制約が導く迷わない設計 〜 信頼性と運用性を両立するマイナンバー管理システムの実践 〜
bwkw
3
960
会社紹介資料 / Sansan Company Profile
sansan33
PRO
15
400k
2026年、サーバーレスの現在地 -「制約と戦う技術」から「当たり前の実行基盤」へ- /serverless2026
slsops
2
250
OWASP Top 10:2025 リリースと 少しの日本語化にまつわる裏話
okdt
PRO
3
810
Featured
See All Featured
Evolving SEO for Evolving Search Engines
ryanjones
0
130
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
240
Ecommerce SEO: The Keys for Success Now & Beyond - #SERPConf2024
aleyda
1
1.8k
The Anti-SEO Checklist Checklist. Pubcon Cyber Week
ryanjones
0
68
Jess Joyce - The Pitfalls of Following Frameworks
techseoconnect
PRO
1
66
Reality Check: Gamification 10 Years Later
codingconduct
0
2k
State of Search Keynote: SEO is Dead Long Live SEO
ryanjones
0
120
The Illustrated Guide to Node.js - THAT Conference 2024
reverentgeek
0
260
Design of three-dimensional binary manipulators for pick-and-place task avoiding obstacles (IECON2024)
konakalab
0
350
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
1
100
The Director’s Chair: Orchestrating AI for Truly Effective Learning
tmiket
1
96
Optimizing for Happiness
mojombo
379
71k
Transcript
Reinforcement Learning Second edition - Notes on Chapter 4 Etsuji
Nakai (@enakai00)
Policy Iteration (ポリシーの改善ステップ) 2 ※ ここでは、 は既知とする。 ・任意のポリシー を1つ選択する ・Value function
を(何らかの方法で)計算する ・Action-Value function が決まる ・Greedy ポリシー ( が最大の a を確率 1 で選択する) この時、任意の s について が成り立つ。 つまり、π' は、π よりも優れたポリシーと言える。この改善処理を繰り返す。 この方法は 次ページで説明
Bellman Equation の右辺を用いて、左辺を漸化的にアップデートしていくと、最終的に両辺が等しくなる。 Policy Evaluation 3
Policy Iteration の課題:計算が長い! 4 全状態についての ループを・・・ 収束するまで 何度も繰り返す ポリシーの更新も 状態数×アクション数
回のループが必要
改善案 5 • Value Function を真面目に収束するまで計算しても、次のステップで Policy が更新される と、そこからまた再更新が必要。収束する手前で、早めに打ち切ってもよくない? •
Policy 更新のために全状態をループするのと、Value Function の計算のために全状態をルー プするの、別々にやるのってもったいなくない? Value Function の計算ループの中に、Policy の更新も埋め込んでしまえ! ⇨ Value Iteration
Value Iteration 6 実質的に Greedy Policy を更新・適用している
Value Iteration 7 更新済みの Policy を適用 https://github.com/enakai00/rl_book_solutions/blob/master/Chapter04/Exercise_4_7_(Value_Iteration)_part1.ipynb
Generalized Policy Iteration (GPI) 8