Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Reinforcement Learning Second edition - Notes o...
Search
Etsuji Nakai
November 18, 2019
Technology
0
110
Reinforcement Learning Second edition - Notes on Chapter 4
Etsuji Nakai
November 18, 2019
Tweet
Share
More Decks by Etsuji Nakai
See All by Etsuji Nakai
Agent Development Kit によるエージェント開発入門
enakai00
20
5.8k
GDG Tokyo 生成 AI 論文をわいわい読む会
enakai00
1
600
Lecture course on Microservices : Part 1
enakai00
1
3.7k
Lecture course on Microservices : Part 2
enakai00
2
3.6k
Lecture course on Microservices : Part 3
enakai00
1
3.6k
Lecture course on Microservices : Part 4
enakai00
1
3.6k
JAX / Flax 入門
enakai00
1
580
生成 AI の基礎 〜 サンプル実装で学ぶ基本原理
enakai00
7
4.1k
大規模言語モデルを支える分散学習インフラ Pathways
enakai00
3
520
Other Decks in Technology
See All in Technology
ZOZOマッチのアーキテクチャと技術構成
zozotech
PRO
3
1.3k
AWSで始める実践Dagster入門
kitagawaz
1
550
「どこから読む?」コードとカルチャーに最速で馴染むための実践ガイド
zozotech
PRO
0
120
下手な強制、ダメ!絶対! 「ガードレール」を「檻」にさせない"ガバナンス"の取り方とは?
tsukaman
2
410
テストを軸にした生き残り術
kworkdev
PRO
0
190
オブザーバビリティが広げる AIOps の世界 / The World of AIOps Expanded by Observability
aoto
PRO
0
320
Flutterでキャッチしないエラーはどこに行く
taiju59
0
220
DevIO2025_継続的なサービス開発のための技術的意思決定のポイント / how-to-tech-decision-makaing-devio2025
nologyance
1
350
シークレット管理だけじゃない!HashiCorp Vault でデータ暗号化をしよう / Beyond Secret Management! Let's Encrypt Data with HashiCorp Vault
nnstt1
3
230
開発者を支える Internal Developer Portal のイマとコレカラ / To-day and To-morrow of Internal Developer Portals: Supporting Developers
aoto
PRO
1
410
Function Body Macros で、SwiftUI の View に Accessibility Identifier を自動付与する/Function Body Macros: Autogenerate accessibility identifiers for SwiftUI Views
miichan
2
170
今!ソフトウェアエンジニアがハードウェアに手を出すには
mackee
11
4.5k
Featured
See All Featured
Imperfection Machines: The Place of Print at Facebook
scottboms
268
13k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.5k
GitHub's CSS Performance
jonrohan
1032
460k
Context Engineering - Making Every Token Count
addyosmani
1
17
Making the Leap to Tech Lead
cromwellryan
135
9.5k
Become a Pro
speakerdeck
PRO
29
5.5k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
1.5k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
44
2.5k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
Designing for humans not robots
tammielis
253
25k
[RailsConf 2023] Rails as a piece of cake
palkan
57
5.8k
Art, The Web, and Tiny UX
lynnandtonic
302
21k
Transcript
Reinforcement Learning Second edition - Notes on Chapter 4 Etsuji
Nakai (@enakai00)
Policy Iteration (ポリシーの改善ステップ) 2 ※ ここでは、 は既知とする。 ・任意のポリシー を1つ選択する ・Value function
を(何らかの方法で)計算する ・Action-Value function が決まる ・Greedy ポリシー ( が最大の a を確率 1 で選択する) この時、任意の s について が成り立つ。 つまり、π' は、π よりも優れたポリシーと言える。この改善処理を繰り返す。 この方法は 次ページで説明
Bellman Equation の右辺を用いて、左辺を漸化的にアップデートしていくと、最終的に両辺が等しくなる。 Policy Evaluation 3
Policy Iteration の課題:計算が長い! 4 全状態についての ループを・・・ 収束するまで 何度も繰り返す ポリシーの更新も 状態数×アクション数
回のループが必要
改善案 5 • Value Function を真面目に収束するまで計算しても、次のステップで Policy が更新される と、そこからまた再更新が必要。収束する手前で、早めに打ち切ってもよくない? •
Policy 更新のために全状態をループするのと、Value Function の計算のために全状態をルー プするの、別々にやるのってもったいなくない? Value Function の計算ループの中に、Policy の更新も埋め込んでしまえ! ⇨ Value Iteration
Value Iteration 6 実質的に Greedy Policy を更新・適用している
Value Iteration 7 更新済みの Policy を適用 https://github.com/enakai00/rl_book_solutions/blob/master/Chapter04/Exercise_4_7_(Value_Iteration)_part1.ipynb
Generalized Policy Iteration (GPI) 8