Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Reinforcement Learning: An Introduction 輪読会 第3回
Search
kiyo
June 29, 2021
0
480
Reinforcement Learning: An Introduction 輪読会 第3回
強化学習若手の会で行っているReinforcement Learning: An Introduction 輪読会の第3回発表資料です。
kiyo
June 29, 2021
Tweet
Share
More Decks by kiyo
See All by kiyo
Active Retrieval Augmented Generation
kiyohiro8
3
750
Reinforcement Learning: An Introduction 輪読会 第5回
kiyohiro8
0
360
TransGAN: Two Transformers Can Make One Strong GAN
kiyohiro8
0
310
CycleGAN and InstaGAN
kiyohiro8
0
1.4k
Bridging_by_Word__Image-Grounded_Vocabulary_Construction_for_Visual_Captioning.pdf
kiyohiro8
0
950
Attention on Attention for Image Captioning
kiyohiro8
1
480
Progressive Growing of GANs for Improved Quality, Stability, and Variation
kiyohiro8
1
140
Graph-Based Global Reasoning Networks
kiyohiro8
0
1.3k
Featured
See All Featured
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
44
7k
Typedesign – Prime Four
hannesfritz
40
2.5k
Faster Mobile Websites
deanohume
306
31k
A Philosophy of Restraint
colly
203
16k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.1k
Code Reviewing Like a Champion
maltzj
521
39k
Fashionably flexible responsive web design (full day workshop)
malarkey
406
66k
StorybookのUI Testing Handbookを読んだ
zakiyama
28
5.5k
Designing for humans not robots
tammielis
250
25k
BBQ
matthewcrist
87
9.5k
A Tale of Four Properties
chriscoyier
158
23k
Java REST API Framework Comparison - PWX 2021
mraible
29
8.4k
Transcript
Reinforcement Learning 3章 2021年6月3日 kiyo
自己紹介 twitter : kiyo@hrs1985 https://qiita.com/hrs1985 https://github.com/kiyohiro8 株式会社カブクで機械学習エンジニアをしています。 • 深層生成モデル、画像の変換 •
ゲームの強化学習 • ポケモンとか風来のシレンとか に興味があります。 強化学習の勉強をちゃんとやりたいと思ったので若手の会チャンネルに参加しました。
3章の内容 Marcov Decision Process (有限マルコフ決定過程, MDP) の説明 ・エージェントと環境の相互作用 ・エージェントの目的と報酬 ・方策関数と価値関数
・最適方策関数と最適価値関数 pdfはこちらから Reinforcement Learning: An Introduction (http://incompleteideas.net/book/the-book.html)
多腕バンディット問題との違い 多腕バンディット問題では良い選択肢を見つけたら同じ選択肢を選び続ければよい 多腕バンディット問題については 第2回の資料参照 同じスロットを連打! 別のスロットを選ぶ
多腕バンディット問題との違い ずっと同じ池で釣る! 同じ池でばかり釣っていると魚がいなくなって釣れなくなってしまうかも? →状態に合わせて行動を決める必要がある
エージェントと環境 (3.1) 1. エージェント (Agent) は現在の状態 St に応じて行動 At を決める
2. 環境 (Environment) はエージェントの行動 At を受け取って状態を St+1 に遷移させる 3. 遷移後の状態 St+1 と報酬 Rt+1をエージェントに与える 4. 1~3を繰り返す
“Finite” Marcov Decision Process St、At、Rtの全体集合がそれぞれ有限集合 →Finite
Marcov Decision Process (MDP) 状態、行動、報酬を時系列順に並べると以下のような系列が得られる。 ただし 現在の状態Stと報酬Rtは1ステップ手前の状態 St-1とAt-1にのみ依存している(マルコフ性)
エージェントと環境の境界 Q.エージェントと環境の境界はどこに設定するべきか? A.問題に合わせて好きに決めていいよ 身体と外界などの物理的な境界とは必ずしも一致する必要はないよ エージェントの範囲はエージェントが知っている範囲ではなく絶対的にコントロールできるところまでが エージェント
例3-1: バイオリアクター 温度、原料濃度など 目的の物質濃度 撹拌速度など
例3-3: リサイクルロボット
エージェントの学習目的と報酬 (3.2) エージェントの目的は報酬を最大化すること。 報酬を基準にして学習を行わせることが強化学習の特徴。 報酬を正しく設定することが学習の肝。 例えば、チェスでは相手に勝利することに報酬を与えるべきであって相手の駒を取るこ とに報酬を与えてしまうと勝敗を無視して駒を取り始めてしまう。
Returns and Episodes (3.3) Return Gt をt以降の報酬の総和とする。 ただし、Tは状態が終端状態になったときのステップ数 終端状態に至るまでのひとまとまりの系列をエピソードと呼ぶ。 Return
= リターン
割引 (discounting) Return を計算する際に将来の報酬を安く見積もるようにする Gtを再帰的に表現できる(重要) 0 < γ < 1
で取るとGtが発散しない
Episodic TaskとContinuing Taskの統合 (3.4) Episodic Taskにおける終端状態では報酬を0とすることで T=∞として扱える(Continuing Taskのように扱える)
方策関数と価値関数 (3.5) 方策π:状態 s で行動 a を取る確率分布。状態に応じて行動を決める。
価値関数 各状態 s についてその後の割引報酬和を取ったものの期待値 報酬系列がどうなるかは方策に依存するので、 πに関する期待値として取る 状態価値 状態と行動の組み合わせについても状態価値と同様に価値を定義できる。 行動価値
ベルマン方程式 Gtの再帰的な定義から状態価値は以下のように変形できる
最適価値関数 (3.6) 全ての状態および状態-行動の組について 価値関数が最大になるような方策についての価値関数
ベルマン最適方程式 最適状態価値関数と最適行動価値関数についてもeq 3.14と同様の変形ができる。 finite MDPにおいてはベルマン最適方程式は唯一の解を持つ(らしい) 一旦最適状態価値が求まったら最適方策は容易に求まるとのこと
例3-6: Golf 行動としてドライバーかパターを選択できる。 1打ごとに報酬-1、カップインで報酬0 上図:常にパターを使う方策での状態価値 下図:ドライバーを使う場合の最適行動価値 グリーン上以外ではドライバーを使い、グリーン上ではパ ターを使うと良い
例3-5: Grid World どういう環境なのかよくわからない… 補足:A(B)のマスを踏むとA’(B’)に移動しつつ+10(+5)の報酬が得られる、という環境の ようです。
例3-9: リサイクルロボットのベルマン最適方程式 0 < α, β, γ < 1 でv*(h)とv*(l)の解は唯一に定まる。
None