Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Reinforcement Learning Second edition - Notes o...
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
Etsuji Nakai
November 18, 2019
Technology
0
110
Reinforcement Learning Second edition - Notes on Chapter 4
Etsuji Nakai
November 18, 2019
Tweet
Share
More Decks by Etsuji Nakai
See All by Etsuji Nakai
Agent Development Kit によるエージェント開発入門
enakai00
23
8.3k
GDG Tokyo 生成 AI 論文をわいわい読む会
enakai00
1
640
Lecture course on Microservices : Part 1
enakai00
1
3.7k
Lecture course on Microservices : Part 2
enakai00
2
3.7k
Lecture course on Microservices : Part 3
enakai00
1
3.6k
Lecture course on Microservices : Part 4
enakai00
1
3.6k
JAX / Flax 入門
enakai00
1
960
生成 AI の基礎 〜 サンプル実装で学ぶ基本原理
enakai00
7
4.2k
大規模言語モデルを支える分散学習インフラ Pathways
enakai00
3
540
Other Decks in Technology
See All in Technology
CDKで始めるTypeScript開発のススメ
tsukuboshi
1
450
こんなところでも(地味に)活躍するImage Modeさんを知ってるかい?- Image Mode for OpenShift -
tsukaman
0
140
登壇駆動学習のすすめ — CfPのネタの見つけ方と書くときに意識していること
bicstone
3
110
What happened to RubyGems and what can we learn?
mikemcquaid
0
300
SREチームをどう作り、どう育てるか ― Findy横断SREのマネジメント
rvirus0817
0
290
顧客との商談議事録をみんなで読んで顧客解像度を上げよう
shibayu36
0
250
Amazon S3 Vectorsを使って資格勉強用AIエージェントを構築してみた
usanchuu
3
450
30万人の同時アクセスに耐えたい!新サービスの盤石なリリースを支える負荷試験 / SRE Kaigi 2026
genda
4
1.3k
顧客の言葉を、そのまま信じない勇気
yamatai1212
1
360
FinTech SREのAWSサービス活用/Leveraging AWS Services in FinTech SRE
maaaato
0
130
GitHub Issue Templates + Coding Agentで簡単みんなでIaC/Easy IaC for Everyone with GitHub Issue Templates + Coding Agent
aeonpeople
1
240
Introduction to Sansan, inc / Sansan Global Development Center, Inc.
sansan33
PRO
0
3k
Featured
See All Featured
Building a Modern Day E-commerce SEO Strategy
aleyda
45
8.7k
Utilizing Notion as your number one productivity tool
mfonobong
3
220
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.3k
VelocityConf: Rendering Performance Case Studies
addyosmani
333
24k
Visual Storytelling: How to be a Superhuman Communicator
reverentgeek
2
430
Leadership Guide Workshop - DevTernity 2021
reverentgeek
1
200
The Pragmatic Product Professional
lauravandoore
37
7.1k
WENDY [Excerpt]
tessaabrams
9
36k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
61k
Darren the Foodie - Storyboard
khoart
PRO
2
2.4k
My Coaching Mixtape
mlcsv
0
48
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
254
22k
Transcript
Reinforcement Learning Second edition - Notes on Chapter 4 Etsuji
Nakai (@enakai00)
Policy Iteration (ポリシーの改善ステップ) 2 ※ ここでは、 は既知とする。 ・任意のポリシー を1つ選択する ・Value function
を(何らかの方法で)計算する ・Action-Value function が決まる ・Greedy ポリシー ( が最大の a を確率 1 で選択する) この時、任意の s について が成り立つ。 つまり、π' は、π よりも優れたポリシーと言える。この改善処理を繰り返す。 この方法は 次ページで説明
Bellman Equation の右辺を用いて、左辺を漸化的にアップデートしていくと、最終的に両辺が等しくなる。 Policy Evaluation 3
Policy Iteration の課題:計算が長い! 4 全状態についての ループを・・・ 収束するまで 何度も繰り返す ポリシーの更新も 状態数×アクション数
回のループが必要
改善案 5 • Value Function を真面目に収束するまで計算しても、次のステップで Policy が更新される と、そこからまた再更新が必要。収束する手前で、早めに打ち切ってもよくない? •
Policy 更新のために全状態をループするのと、Value Function の計算のために全状態をルー プするの、別々にやるのってもったいなくない? Value Function の計算ループの中に、Policy の更新も埋め込んでしまえ! ⇨ Value Iteration
Value Iteration 6 実質的に Greedy Policy を更新・適用している
Value Iteration 7 更新済みの Policy を適用 https://github.com/enakai00/rl_book_solutions/blob/master/Chapter04/Exercise_4_7_(Value_Iteration)_part1.ipynb
Generalized Policy Iteration (GPI) 8