Reinforcement Learning: An Introduction 輪読会第3回

Reinforcement Learning 3章 2021年6月3日 kiyo

自己紹介 twitter : kiyo@hrs1985 https://qiita.com/hrs1985 https://github.com/kiyohiro8 株式会社カブクで機械学習エンジニアをしています。 • 深層生成モデル、画像の変換 •
ゲームの強化学習 • ポケモンとか風来のシレンとかに興味があります。強化学習の勉強をちゃんとやりたいと思ったので若手の会チャンネルに参加しました。

3章の内容 Marcov Decision Process (有限マルコフ決定過程, MDP) の説明・エージェントと環境の相互作用・エージェントの目的と報酬・方策関数と価値関数
・最適方策関数と最適価値関数 pdfはこちらから Reinforcement Learning: An Introduction 　 (http://incompleteideas.net/book/the-book.html)

多腕バンディット問題との違い多腕バンディット問題では良い選択肢を見つけたら同じ選択肢を選び続ければよい多腕バンディット問題については第2回の資料参照同じスロットを連打！別のスロットを選ぶ

多腕バンディット問題との違いずっと同じ池で釣る！同じ池でばかり釣っていると魚がいなくなって釣れなくなってしまうかも？ →状態に合わせて行動を決める必要がある

エージェントと環境 (3.1) 1. エージェント (Agent) は現在の状態 St に応じて行動 At を決める
2. 環境 (Environment) はエージェントの行動 At を受け取って状態を St+1 に遷移させる 3. 遷移後の状態 St+1 と報酬 Rt+1をエージェントに与える 4. 1~3を繰り返す

“Finite” Marcov Decision Process St、At、Rtの全体集合がそれぞれ有限集合 →Finite

Marcov Decision Process (MDP) 状態、行動、報酬を時系列順に並べると以下のような系列が得られる。ただし現在の状態Stと報酬Rtは1ステップ手前の状態 St-1とAt-1にのみ依存している（マルコフ性）

エージェントと環境の境界 Q.エージェントと環境の境界はどこに設定するべきか？ A.問題に合わせて好きに決めていいよ身体と外界などの物理的な境界とは必ずしも一致する必要はないよエージェントの範囲はエージェントが知っている範囲ではなく絶対的にコントロールできるところまでがエージェント

例3-1: バイオリアクター温度、原料濃度など目的の物質濃度撹拌速度など

例3-3: リサイクルロボット

エージェントの学習目的と報酬 (3.2) エージェントの目的は報酬を最大化すること。報酬を基準にして学習を行わせることが強化学習の特徴。報酬を正しく設定することが学習の肝。例えば、チェスでは相手に勝利することに報酬を与えるべきであって相手の駒を取ることに報酬を与えてしまうと勝敗を無視して駒を取り始めてしまう。

Returns and Episodes (3.3) Return Gt をt以降の報酬の総和とする。ただし、Tは状態が終端状態になったときのステップ数終端状態に至るまでのひとまとまりの系列をエピソードと呼ぶ。 Return
= リターン

割引 (discounting) Return を計算する際に将来の報酬を安く見積もるようにする Gtを再帰的に表現できる（重要） 0 < γ < 1
で取るとGtが発散しない

Episodic TaskとContinuing Taskの統合 (3.4) Episodic Taskにおける終端状態では報酬を0とすることで T=∞として扱える（Continuing Taskのように扱える）

方策関数と価値関数 (3.5) 方策π：状態 s で行動 a を取る確率分布。状態に応じて行動を決める。

価値関数各状態 s についてその後の割引報酬和を取ったものの期待値報酬系列がどうなるかは方策に依存するので、 πに関する期待値として取る状態価値状態と行動の組み合わせについても状態価値と同様に価値を定義できる。行動価値

ベルマン方程式 Gtの再帰的な定義から状態価値は以下のように変形できる

最適価値関数 (3.6) 全ての状態および状態-行動の組について価値関数が最大になるような方策についての価値関数

ベルマン最適方程式最適状態価値関数と最適行動価値関数についてもeq 3.14と同様の変形ができる。 finite MDPにおいてはベルマン最適方程式は唯一の解を持つ（らしい）一旦最適状態価値が求まったら最適方策は容易に求まるとのこと

例3-6: Golf 行動としてドライバーかパターを選択できる。 1打ごとに報酬-1、カップインで報酬0 上図：常にパターを使う方策での状態価値下図：ドライバーを使う場合の最適行動価値グリーン上以外ではドライバーを使い、グリーン上ではパターを使うと良い

例3-5: Grid World どういう環境なのかよくわからない… 補足：A(B)のマスを踏むとA’(B’)に移動しつつ+10(+5)の報酬が得られる、という環境のようです。

例3-9: リサイクルロボットのベルマン最適方程式 0 < α, β, γ < 1 でv*(h)とv*(l)の解は唯一に定まる。

Reinforcement Learning: An Introduction 輪読会第3回

Reinforcement Learning: An Introduction 輪読会第3回

kiyo

More Decks by kiyo

Featured

Transcript

Reinforcement Learning 3章 2021年6月3日 kiyo

自己紹介 twitter : kiyo@hrs1985 https://qiita.com/hrs1985 https://github.com/kiyohiro8 株式会社カブクで機械学習エンジニアをしています。 • 深層生成モデル、画像の変換 •

3章の内容 Marcov Decision Process (有限マルコフ決定過程, MDP) の説明・エージェントと環境の相互作用・エージェントの目的と報酬・方策関数と価値関数

多腕バンディット問題との違い多腕バンディット問題では良い選択肢を見つけたら同じ選択肢を選び続ければよい多腕バンディット問題については第2回の資料参照同じスロットを連打！別のスロットを選ぶ

多腕バンディット問題との違いずっと同じ池で釣る！同じ池でばかり釣っていると魚がいなくなって釣れなくなってしまうかも？ →状態に合わせて行動を決める必要がある

エージェントと環境 (3.1) 1. エージェント (Agent) は現在の状態 St に応じて行動 At を決める

“Finite” Marcov Decision Process St、At、Rtの全体集合がそれぞれ有限集合 →Finite

Marcov Decision Process (MDP) 状態、行動、報酬を時系列順に並べると以下のような系列が得られる。ただし現在の状態Stと報酬Rtは1ステップ手前の状態 St-1とAt-1にのみ依存している（マルコフ性）

例3-1: バイオリアクター温度、原料濃度など目的の物質濃度撹拌速度など

例3-3: リサイクルロボット

Returns and Episodes (3.3) Return Gt をt以降の報酬の総和とする。ただし、Tは状態が終端状態になったときのステップ数終端状態に至るまでのひとまとまりの系列をエピソードと呼ぶ。 Return

割引 (discounting) Return を計算する際に将来の報酬を安く見積もるようにする Gtを再帰的に表現できる（重要） 0 < γ < 1

Episodic TaskとContinuing Taskの統合 (3.4) Episodic Taskにおける終端状態では報酬を0とすることで T=∞として扱える（Continuing Taskのように扱える）

方策関数と価値関数 (3.5) 方策π：状態 s で行動 a を取る確率分布。状態に応じて行動を決める。

ベルマン方程式 Gtの再帰的な定義から状態価値は以下のように変形できる

最適価値関数 (3.6) 全ての状態および状態-行動の組について価値関数が最大になるような方策についての価値関数

例3-5: Grid World どういう環境なのかよくわからない… 補足：A(B)のマスを踏むとA’(B’)に移動しつつ+10(+5)の報酬が得られる、という環境のようです。

例3-9: リサイクルロボットのベルマン最適方程式 0 < α, β, γ < 1 でv(h)とv(l)の解は唯一に定まる。

Reinforcement Learning: An Introduction 輪読会 第3回

Reinforcement Learning: An Introduction 輪読会 第3回

More Decks by kiyo

Featured

Transcript

Reinforcement Learning: An Introduction 輪読会第3回

Reinforcement Learning: An Introduction 輪読会第3回