Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Reinforcement Learning: An Introduction 輪読会 第3回

2770ae74da88f39bd2821538feb393a7?s=47 kiyo
June 29, 2021
200

Reinforcement Learning: An Introduction 輪読会 第3回

強化学習若手の会で行っているReinforcement Learning: An Introduction 輪読会の第3回発表資料です。

2770ae74da88f39bd2821538feb393a7?s=128

kiyo

June 29, 2021
Tweet

Transcript

  1. Reinforcement Learning 3章 2021年6月3日 kiyo

  2. 自己紹介 twitter : kiyo@hrs1985 https://qiita.com/hrs1985 https://github.com/kiyohiro8 株式会社カブクで機械学習エンジニアをしています。 • 深層生成モデル、画像の変換 •

    ゲームの強化学習 • ポケモンとか風来のシレンとか に興味があります。 強化学習の勉強をちゃんとやりたいと思ったので若手の会チャンネルに参加しました。
  3. 3章の内容 Marcov Decision Process (有限マルコフ決定過程, MDP) の説明 ・エージェントと環境の相互作用 ・エージェントの目的と報酬 ・方策関数と価値関数

    ・最適方策関数と最適価値関数 pdfはこちらから Reinforcement Learning: An Introduction   (http://incompleteideas.net/book/the-book.html)
  4. 多腕バンディット問題との違い 多腕バンディット問題では良い選択肢を見つけたら同じ選択肢を選び続ければよい 多腕バンディット問題については 第2回の資料参照 同じスロットを連打! 別のスロットを選ぶ

  5. 多腕バンディット問題との違い ずっと同じ池で釣る! 同じ池でばかり釣っていると魚がいなくなって釣れなくなってしまうかも? →状態に合わせて行動を決める必要がある

  6. エージェントと環境 (3.1) 1. エージェント (Agent) は現在の状態 St に応じて行動 At を決める

    2. 環境 (Environment) はエージェントの行動 At を受け取って状態を St+1 に遷移させる 3. 遷移後の状態 St+1 と報酬 Rt+1をエージェントに与える 4. 1~3を繰り返す
  7. “Finite” Marcov Decision Process St、At、Rtの全体集合がそれぞれ有限集合 →Finite

  8. Marcov Decision Process (MDP) 状態、行動、報酬を時系列順に並べると以下のような系列が得られる。 ただし 現在の状態Stと報酬Rtは1ステップ手前の状態 St-1とAt-1にのみ依存している(マルコフ性)

  9. エージェントと環境の境界 Q.エージェントと環境の境界はどこに設定するべきか? A.問題に合わせて好きに決めていいよ 身体と外界などの物理的な境界とは必ずしも一致する必要はないよ エージェントの範囲はエージェントが知っている範囲ではなく絶対的にコントロールできるところまでが エージェント

  10. 例3-1: バイオリアクター 温度、原料濃度など 目的の物質濃度 撹拌速度など

  11. 例3-3: リサイクルロボット

  12. エージェントの学習目的と報酬 (3.2) エージェントの目的は報酬を最大化すること。 報酬を基準にして学習を行わせることが強化学習の特徴。 報酬を正しく設定することが学習の肝。 例えば、チェスでは相手に勝利することに報酬を与えるべきであって相手の駒を取るこ とに報酬を与えてしまうと勝敗を無視して駒を取り始めてしまう。

  13. Returns and Episodes (3.3) Return Gt をt以降の報酬の総和とする。 ただし、Tは状態が終端状態になったときのステップ数 終端状態に至るまでのひとまとまりの系列をエピソードと呼ぶ。 Return

    = リターン
  14. 割引 (discounting) Return を計算する際に将来の報酬を安く見積もるようにする Gtを再帰的に表現できる(重要) 0 < γ < 1

    で取るとGtが発散しない
  15. Episodic TaskとContinuing Taskの統合 (3.4) Episodic Taskにおける終端状態では報酬を0とすることで T=∞として扱える(Continuing Taskのように扱える)

  16. 方策関数と価値関数 (3.5) 方策π:状態 s で行動 a を取る確率分布。状態に応じて行動を決める。

  17. 価値関数 各状態 s についてその後の割引報酬和を取ったものの期待値 報酬系列がどうなるかは方策に依存するので、 πに関する期待値として取る 状態価値 状態と行動の組み合わせについても状態価値と同様に価値を定義できる。 行動価値

  18. ベルマン方程式 Gtの再帰的な定義から状態価値は以下のように変形できる

  19. 最適価値関数 (3.6) 全ての状態および状態-行動の組について 価値関数が最大になるような方策についての価値関数

  20. ベルマン最適方程式 最適状態価値関数と最適行動価値関数についてもeq 3.14と同様の変形ができる。 finite MDPにおいてはベルマン最適方程式は唯一の解を持つ(らしい) 一旦最適状態価値が求まったら最適方策は容易に求まるとのこと

  21. 例3-6: Golf 行動としてドライバーかパターを選択できる。 1打ごとに報酬-1、カップインで報酬0 上図:常にパターを使う方策での状態価値 下図:ドライバーを使う場合の最適行動価値 グリーン上以外ではドライバーを使い、グリーン上ではパ ターを使うと良い

  22. 例3-5: Grid World どういう環境なのかよくわからない… 補足:A(B)のマスを踏むとA’(B’)に移動しつつ+10(+5)の報酬が得られる、という環境の ようです。

  23. 例3-9: リサイクルロボットのベルマン最適方程式 0 < α, β, γ < 1 でv*(h)とv*(l)の解は唯一に定まる。

  24. None