Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Reinforcement Learning Second edition - Notes o...
Search
Etsuji Nakai
November 18, 2019
Technology
0
110
Reinforcement Learning Second edition - Notes on Chapter 4
Etsuji Nakai
November 18, 2019
Tweet
Share
More Decks by Etsuji Nakai
See All by Etsuji Nakai
Agent Development Kit によるエージェント開発入門
enakai00
23
7.8k
GDG Tokyo 生成 AI 論文をわいわい読む会
enakai00
1
630
Lecture course on Microservices : Part 1
enakai00
1
3.7k
Lecture course on Microservices : Part 2
enakai00
2
3.6k
Lecture course on Microservices : Part 3
enakai00
1
3.6k
Lecture course on Microservices : Part 4
enakai00
1
3.6k
JAX / Flax 入門
enakai00
1
810
生成 AI の基礎 〜 サンプル実装で学ぶ基本原理
enakai00
7
4.2k
大規模言語モデルを支える分散学習インフラ Pathways
enakai00
3
540
Other Decks in Technology
See All in Technology
2025年のデザインシステムとAI 活用を振り返る
leveragestech
0
320
Amazon Connect アップデート! AIエージェントにMCPツールを設定してみた!
ysuzuki
0
140
モダンデータスタックの理想と現実の間で~1.3億人Vポイントデータ基盤の現在地とこれから~
taromatsui_cccmkhd
2
270
事業の財務責任に向き合うリクルートデータプラットフォームのFinOps
recruitengineers
PRO
2
230
[Neurogica] 採用ポジション/ Recruitment Position
neurogica
1
130
AWS re:Invent 2025~初参加の成果と学び~
kubomasataka
1
200
なぜ あなたはそんなに re:Invent に行くのか?
miu_crescent
PRO
0
210
Oracle Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
1
770
意外と知らない状態遷移テストの世界
nihonbuson
PRO
1
270
AIBuildersDay_track_A_iidaxs
iidaxs
4
1.4k
AWSインフルエンサーへの道 / load of AWS Influencer
whisaiyo
0
220
AI駆動開発ライフサイクル(AI-DLC)の始め方
ryansbcho79
0
200
Featured
See All Featured
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
エンジニアに許された特別な時間の終わり
watany
106
220k
Done Done
chrislema
186
16k
Designing for Performance
lara
610
69k
Automating Front-end Workflow
addyosmani
1371
200k
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
240
How STYLIGHT went responsive
nonsquared
100
6k
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
200
From Legacy to Launchpad: Building Startup-Ready Communities
dugsong
0
110
Building Adaptive Systems
keathley
44
2.9k
Optimizing for Happiness
mojombo
379
70k
Bioeconomy Workshop: Dr. Julius Ecuru, Opportunities for a Bioeconomy in West Africa
akademiya2063
PRO
0
31
Transcript
Reinforcement Learning Second edition - Notes on Chapter 4 Etsuji
Nakai (@enakai00)
Policy Iteration (ポリシーの改善ステップ) 2 ※ ここでは、 は既知とする。 ・任意のポリシー を1つ選択する ・Value function
を(何らかの方法で)計算する ・Action-Value function が決まる ・Greedy ポリシー ( が最大の a を確率 1 で選択する) この時、任意の s について が成り立つ。 つまり、π' は、π よりも優れたポリシーと言える。この改善処理を繰り返す。 この方法は 次ページで説明
Bellman Equation の右辺を用いて、左辺を漸化的にアップデートしていくと、最終的に両辺が等しくなる。 Policy Evaluation 3
Policy Iteration の課題:計算が長い! 4 全状態についての ループを・・・ 収束するまで 何度も繰り返す ポリシーの更新も 状態数×アクション数
回のループが必要
改善案 5 • Value Function を真面目に収束するまで計算しても、次のステップで Policy が更新される と、そこからまた再更新が必要。収束する手前で、早めに打ち切ってもよくない? •
Policy 更新のために全状態をループするのと、Value Function の計算のために全状態をルー プするの、別々にやるのってもったいなくない? Value Function の計算ループの中に、Policy の更新も埋め込んでしまえ! ⇨ Value Iteration
Value Iteration 6 実質的に Greedy Policy を更新・適用している
Value Iteration 7 更新済みの Policy を適用 https://github.com/enakai00/rl_book_solutions/blob/master/Chapter04/Exercise_4_7_(Value_Iteration)_part1.ipynb
Generalized Policy Iteration (GPI) 8