Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
Reinforcement Learning 3章 2021年6月3日 kiyo
Slide 2
Slide 2 text
自己紹介 twitter : kiyo@hrs1985 https://qiita.com/hrs1985 https://github.com/kiyohiro8 株式会社カブクで機械学習エンジニアをしています。 ● 深層生成モデル、画像の変換 ● ゲームの強化学習 ● ポケモンとか風来のシレンとか に興味があります。 強化学習の勉強をちゃんとやりたいと思ったので若手の会チャンネルに参加しました。
Slide 3
Slide 3 text
3章の内容 Marcov Decision Process (有限マルコフ決定過程, MDP) の説明 ・エージェントと環境の相互作用 ・エージェントの目的と報酬 ・方策関数と価値関数 ・最適方策関数と最適価値関数 pdfはこちらから Reinforcement Learning: An Introduction (http://incompleteideas.net/book/the-book.html)
Slide 4
Slide 4 text
多腕バンディット問題との違い 多腕バンディット問題では良い選択肢を見つけたら同じ選択肢を選び続ければよい 多腕バンディット問題については 第2回の資料参照 同じスロットを連打! 別のスロットを選ぶ
Slide 5
Slide 5 text
多腕バンディット問題との違い ずっと同じ池で釣る! 同じ池でばかり釣っていると魚がいなくなって釣れなくなってしまうかも? →状態に合わせて行動を決める必要がある
Slide 6
Slide 6 text
エージェントと環境 (3.1) 1. エージェント (Agent) は現在の状態 St に応じて行動 At を決める 2. 環境 (Environment) はエージェントの行動 At を受け取って状態を St+1 に遷移させる 3. 遷移後の状態 St+1 と報酬 Rt+1をエージェントに与える 4. 1~3を繰り返す
Slide 7
Slide 7 text
“Finite” Marcov Decision Process St、At、Rtの全体集合がそれぞれ有限集合 →Finite
Slide 8
Slide 8 text
Marcov Decision Process (MDP) 状態、行動、報酬を時系列順に並べると以下のような系列が得られる。 ただし 現在の状態Stと報酬Rtは1ステップ手前の状態 St-1とAt-1にのみ依存している(マルコフ性)
Slide 9
Slide 9 text
エージェントと環境の境界 Q.エージェントと環境の境界はどこに設定するべきか? A.問題に合わせて好きに決めていいよ 身体と外界などの物理的な境界とは必ずしも一致する必要はないよ エージェントの範囲はエージェントが知っている範囲ではなく絶対的にコントロールできるところまでが エージェント
Slide 10
Slide 10 text
例3-1: バイオリアクター 温度、原料濃度など 目的の物質濃度 撹拌速度など
Slide 11
Slide 11 text
例3-3: リサイクルロボット
Slide 12
Slide 12 text
エージェントの学習目的と報酬 (3.2) エージェントの目的は報酬を最大化すること。 報酬を基準にして学習を行わせることが強化学習の特徴。 報酬を正しく設定することが学習の肝。 例えば、チェスでは相手に勝利することに報酬を与えるべきであって相手の駒を取るこ とに報酬を与えてしまうと勝敗を無視して駒を取り始めてしまう。
Slide 13
Slide 13 text
Returns and Episodes (3.3) Return Gt をt以降の報酬の総和とする。 ただし、Tは状態が終端状態になったときのステップ数 終端状態に至るまでのひとまとまりの系列をエピソードと呼ぶ。 Return = リターン
Slide 14
Slide 14 text
割引 (discounting) Return を計算する際に将来の報酬を安く見積もるようにする Gtを再帰的に表現できる(重要) 0 < γ < 1 で取るとGtが発散しない
Slide 15
Slide 15 text
Episodic TaskとContinuing Taskの統合 (3.4) Episodic Taskにおける終端状態では報酬を0とすることで T=∞として扱える(Continuing Taskのように扱える)
Slide 16
Slide 16 text
方策関数と価値関数 (3.5) 方策π:状態 s で行動 a を取る確率分布。状態に応じて行動を決める。
Slide 17
Slide 17 text
価値関数 各状態 s についてその後の割引報酬和を取ったものの期待値 報酬系列がどうなるかは方策に依存するので、 πに関する期待値として取る 状態価値 状態と行動の組み合わせについても状態価値と同様に価値を定義できる。 行動価値
Slide 18
Slide 18 text
ベルマン方程式 Gtの再帰的な定義から状態価値は以下のように変形できる
Slide 19
Slide 19 text
最適価値関数 (3.6) 全ての状態および状態-行動の組について 価値関数が最大になるような方策についての価値関数
Slide 20
Slide 20 text
ベルマン最適方程式 最適状態価値関数と最適行動価値関数についてもeq 3.14と同様の変形ができる。 finite MDPにおいてはベルマン最適方程式は唯一の解を持つ(らしい) 一旦最適状態価値が求まったら最適方策は容易に求まるとのこと
Slide 21
Slide 21 text
例3-6: Golf 行動としてドライバーかパターを選択できる。 1打ごとに報酬-1、カップインで報酬0 上図:常にパターを使う方策での状態価値 下図:ドライバーを使う場合の最適行動価値 グリーン上以外ではドライバーを使い、グリーン上ではパ ターを使うと良い
Slide 22
Slide 22 text
例3-5: Grid World どういう環境なのかよくわからない… 補足:A(B)のマスを踏むとA’(B’)に移動しつつ+10(+5)の報酬が得られる、という環境の ようです。
Slide 23
Slide 23 text
例3-9: リサイクルロボットのベルマン最適方程式 0 < α, β, γ < 1 でv*(h)とv*(l)の解は唯一に定まる。
Slide 24
Slide 24 text
No content