Reinforcement Learning: An Introduction 輪読会第3回

Slide 1

Slide 1 text

Reinforcement Learning 3章 2021年6月3日 kiyo

Slide 2

Slide 2 text

自己紹介 twitter : kiyo@hrs1985 https://qiita.com/hrs1985 https://github.com/kiyohiro8 株式会社カブクで機械学習エンジニアをしています。 ● 深層生成モデル、画像の変換 ● ゲームの強化学習 ● ポケモンとか風来のシレンとかに興味があります。強化学習の勉強をちゃんとやりたいと思ったので若手の会チャンネルに参加しました。

Slide 3

Slide 3 text

3章の内容 Marcov Decision Process (有限マルコフ決定過程, MDP) の説明・エージェントと環境の相互作用・エージェントの目的と報酬・方策関数と価値関数・最適方策関数と最適価値関数 pdfはこちらから Reinforcement Learning: An Introduction 　 (http://incompleteideas.net/book/the-book.html)

Slide 4

Slide 4 text

多腕バンディット問題との違い多腕バンディット問題では良い選択肢を見つけたら同じ選択肢を選び続ければよい多腕バンディット問題については第2回の資料参照同じスロットを連打！別のスロットを選ぶ

Slide 5

Slide 5 text

多腕バンディット問題との違いずっと同じ池で釣る！同じ池でばかり釣っていると魚がいなくなって釣れなくなってしまうかも？ →状態に合わせて行動を決める必要がある

Slide 6

Slide 6 text

エージェントと環境 (3.1) 1. エージェント (Agent) は現在の状態 St に応じて行動 At を決める 2. 環境 (Environment) はエージェントの行動 At を受け取って状態を St+1 に遷移させる 3. 遷移後の状態 St+1 と報酬 Rt+1をエージェントに与える 4. 1~3を繰り返す

Slide 7

Slide 7 text

“Finite” Marcov Decision Process St、At、Rtの全体集合がそれぞれ有限集合 →Finite

Slide 8

Slide 8 text

Marcov Decision Process (MDP) 状態、行動、報酬を時系列順に並べると以下のような系列が得られる。ただし現在の状態Stと報酬Rtは1ステップ手前の状態 St-1とAt-1にのみ依存している（マルコフ性）

Slide 9

Slide 9 text

エージェントと環境の境界 Q.エージェントと環境の境界はどこに設定するべきか？ A.問題に合わせて好きに決めていいよ身体と外界などの物理的な境界とは必ずしも一致する必要はないよエージェントの範囲はエージェントが知っている範囲ではなく絶対的にコントロールできるところまでがエージェント

Slide 10

Slide 10 text

例3-1: バイオリアクター温度、原料濃度など目的の物質濃度撹拌速度など

Slide 11

Slide 11 text

例3-3: リサイクルロボット

Slide 12

Slide 12 text

エージェントの学習目的と報酬 (3.2) エージェントの目的は報酬を最大化すること。報酬を基準にして学習を行わせることが強化学習の特徴。報酬を正しく設定することが学習の肝。例えば、チェスでは相手に勝利することに報酬を与えるべきであって相手の駒を取ることに報酬を与えてしまうと勝敗を無視して駒を取り始めてしまう。

Slide 13

Slide 13 text

Returns and Episodes (3.3) Return Gt をt以降の報酬の総和とする。ただし、Tは状態が終端状態になったときのステップ数終端状態に至るまでのひとまとまりの系列をエピソードと呼ぶ。 Return = リターン

Slide 14

Slide 14 text

割引 (discounting) Return を計算する際に将来の報酬を安く見積もるようにする Gtを再帰的に表現できる（重要） 0 < γ < 1 で取るとGtが発散しない

Slide 15

Slide 15 text

Episodic TaskとContinuing Taskの統合 (3.4) Episodic Taskにおける終端状態では報酬を0とすることで T=∞として扱える（Continuing Taskのように扱える）

Slide 16

Slide 16 text

方策関数と価値関数 (3.5) 方策π：状態 s で行動 a を取る確率分布。状態に応じて行動を決める。

Slide 17

Slide 17 text

価値関数各状態 s についてその後の割引報酬和を取ったものの期待値報酬系列がどうなるかは方策に依存するので、 πに関する期待値として取る状態価値状態と行動の組み合わせについても状態価値と同様に価値を定義できる。行動価値

Slide 18

Slide 18 text

ベルマン方程式 Gtの再帰的な定義から状態価値は以下のように変形できる

Slide 19

Slide 19 text

最適価値関数 (3.6) 全ての状態および状態-行動の組について価値関数が最大になるような方策についての価値関数

Slide 20

Slide 20 text

ベルマン最適方程式最適状態価値関数と最適行動価値関数についてもeq 3.14と同様の変形ができる。 finite MDPにおいてはベルマン最適方程式は唯一の解を持つ（らしい）一旦最適状態価値が求まったら最適方策は容易に求まるとのこと

Slide 21

Slide 21 text

例3-6: Golf 行動としてドライバーかパターを選択できる。 1打ごとに報酬-1、カップインで報酬0 上図：常にパターを使う方策での状態価値下図：ドライバーを使う場合の最適行動価値グリーン上以外ではドライバーを使い、グリーン上ではパターを使うと良い

Slide 22

Slide 22 text

例3-5: Grid World どういう環境なのかよくわからない… 補足：A(B)のマスを踏むとA’(B’)に移動しつつ+10(+5)の報酬が得られる、という環境のようです。

Slide 23

Slide 23 text

例3-9: リサイクルロボットのベルマン最適方程式 0 < α, β, γ < 1 でv*(h)とv*(l)の解は唯一に定まる。

Slide 24

Slide 24 text

No content