Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Reinforcement Learning Second edition - Notes on Chapter 4
Search
Etsuji Nakai
November 18, 2019
Technology
0
87
Reinforcement Learning Second edition - Notes on Chapter 4
Etsuji Nakai
November 18, 2019
Tweet
Share
More Decks by Etsuji Nakai
See All by Etsuji Nakai
Lecture course on Microservices : Part 1
enakai00
1
800
Lecture course on Microservices : Part 2
enakai00
1
780
Lecture course on Microservices : Part 3
enakai00
1
780
Lecture course on Microservices : Part 4
enakai00
1
780
JAX / Flax 入門
enakai00
1
210
生成 AI の基礎 〜 サンプル実装で学ぶ基本原理
enakai00
7
2.9k
大規模言語モデルを支える分散学習インフラ Pathways
enakai00
3
330
Python × 数学ブートキャンプガイド
enakai00
1
510
Riemann幾何学ユーザーのための情報幾何学入門
enakai00
0
200
Other Decks in Technology
See All in Technology
Introduction to Jetpack Compose
pohjus
1
110
生成AIサービスPanorama AIご説明資料
sdt
0
300
複数の LLM モデルを扱う上で直面した辛みまとめ
kazuyaseki
1
240
エンジニアブランディングチームの KPI / KPI's of engineer branding team
chaspy
1
140
Evolutionary Optimization of Model Merging Recipes
fuyu_quant0
3
520
Kubeflow Pipelines v2 で変わる機械学習パイプライン開発
asei
4
340
OpenTelemetry実践 はじめの一歩
taxin
0
310
TCA入門したてなので、自分が馴染みのある実装と比較しながらキャッチアップしてみる
fumiyasac0921
1
370
実務への応用例から考える 変更に強いオブジェクト指向設計 / 20240324-ooc2024
bengo4com
7
5.3k
なんで私に登壇依頼が?! ~頼られるエンジニアになるためには~ /
mixi_engineers
PRO
2
200
8週連続ウェビナー_イチから学ぶFivetran
cmsuzu
0
170
TypeScript Quiz (Encraft #12 Frontend Quiz Night)
uhyo
5
440
Featured
See All Featured
Typedesign – Prime Four
hannesfritz
36
2k
Gamification - CAS2011
davidbonilla
76
4.5k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
272
12k
What the flash - Photography Introduction
edds
64
11k
Web Components: a chance to create the future
zenorocha
304
41k
RailsConf 2023
tenderlove
0
510
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
39
4.3k
The Cult of Friendly URLs
andyhume
73
5.6k
Building Applications with DynamoDB
mza
88
5.6k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
153
14k
GraphQLとの向き合い方2022年版
quramy
28
12k
The Power of CSS Pseudo Elements
geoffreycrofte
58
4.9k
Transcript
Reinforcement Learning Second edition - Notes on Chapter 4 Etsuji
Nakai (@enakai00)
Policy Iteration (ポリシーの改善ステップ) 2 ※ ここでは、 は既知とする。 ・任意のポリシー を1つ選択する ・Value function
を(何らかの方法で)計算する ・Action-Value function が決まる ・Greedy ポリシー ( が最大の a を確率 1 で選択する) この時、任意の s について が成り立つ。 つまり、π' は、π よりも優れたポリシーと言える。この改善処理を繰り返す。 この方法は 次ページで説明
Bellman Equation の右辺を用いて、左辺を漸化的にアップデートしていくと、最終的に両辺が等しくなる。 Policy Evaluation 3
Policy Iteration の課題:計算が長い! 4 全状態についての ループを・・・ 収束するまで 何度も繰り返す ポリシーの更新も 状態数×アクション数
回のループが必要
改善案 5 • Value Function を真面目に収束するまで計算しても、次のステップで Policy が更新される と、そこからまた再更新が必要。収束する手前で、早めに打ち切ってもよくない? •
Policy 更新のために全状態をループするのと、Value Function の計算のために全状態をルー プするの、別々にやるのってもったいなくない? Value Function の計算ループの中に、Policy の更新も埋め込んでしまえ! ⇨ Value Iteration
Value Iteration 6 実質的に Greedy Policy を更新・適用している
Value Iteration 7 更新済みの Policy を適用 https://github.com/enakai00/rl_book_solutions/blob/master/Chapter04/Exercise_4_7_(Value_Iteration)_part1.ipynb
Generalized Policy Iteration (GPI) 8