Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Reinforcement Learning: An Introduction 輪読会 第5回

kiyo
September 30, 2021

Reinforcement Learning: An Introduction 輪読会 第5回

2021年8月12日の第5回Reinforcement Learning: An Introduction輪読会で使用した資料です。輪読会後に5.8節、5.9節の内容を追記しました。

kiyo

September 30, 2021
Tweet

More Decks by kiyo

Other Decks in Science

Transcript

  1. 自己紹介 • twitter : kiyo@hrs1985 • https://qiita.com/hrs1985 • https://github.com/kiyohiro8 株式会社カブクで機械学習エンジニアをしています。

    • 深層生成モデル、画像の変換 • ゲームの強化学習 • ポケモンとか風来のシレンとか に興味があります。 強化学習の勉強をちゃんとやりたいと思ったので若手の会チャンネルに参加しました。 2
  2. 5.1 Monte Carlo Prediction 方策𝜋の下での状態𝑠の状態価値𝑣𝜋 𝑠 は割引報酬和の期待値 𝑣𝜋 𝑠 =

    𝐸[𝐺𝑡 |𝑆𝑡 = 𝑠] 単純に考えると、 𝑆𝑡 = 𝑠となって以降の𝐺𝑡 を平均化すればよい 割引報酬和を沢山観測して平均を取れば期待値に収束するはず 4
  3. 5.2 Monte Carlo Estimation of Action Values Pr(𝑠′|𝑠, 𝑎)が既知の場合、𝑣𝜋 だけあれば最適方策が得られる。

    4章と異なりダイナミクスが未知なので 各アクションに対する𝑞𝜋 を推定する必要がある。 8
  4. Exploring Starts 𝑞𝜋 を基に方策を改善するには方策𝜋の下での各𝑠-𝑎ペアの期待報酬和を計算する必要がある しかし、各𝑠についてすべての𝑎を選択しうる (𝜋(𝑎|𝑠)>0) 方策でないと破綻する (特に𝜋がgreedyな方策の場合𝑎が1択になってしまうので𝑞𝜋 (𝑠, 𝑎)が比較できない)

    →エピソードの開始をランダムな𝑠−𝑎のペアから開始することにすれば (エピソード数が無限なら)全ての𝑠-𝑎ペアが選択されることを保証できる (Exploring Starts) これは多少複雑な問題になると非現実的。 現実的には𝜋 𝑎 𝑠 > 0が全ての𝑠-𝑎ペアで成り立つよう確率的な方策を用いるだけでもいい。 でもここではExploring Startsの仮定を一旦置いて議論を進めている、とのこと。 9
  5. 5.3 Monte Carlo Control 1. 方策𝜋0 下でデータを(無限に)収集して行動価値関数𝑞𝜋0 を推定する 2. 行動価値関数𝑞𝜋0

    の下で改善された方策𝜋1 を得る 3. 方策𝜋1 下でデータを(無限に)収集して行動価値関数𝑞𝜋1 を推定する 4. 行動価値関数𝑞𝜋1 の下で改善された方策𝜋2 を得る 5. 1~4を繰り返して𝜋∗ と𝑞∗ を得る 方策を𝜋𝑘+1 ≝ 𝑎𝑟𝑔𝑚𝑎𝑥 𝑞𝜋𝑘 (𝑠, 𝑎) としたとき、 𝜋𝑘+1 が𝜋𝑘 よりも良い方策であることはPolicy Improvement Theorem(4.2節)より保証される。 これで経験だけから良い方策と価値関数を得ることはできたが…… 10
  6. 5.4 Monte Carlo Control without Exploring Starts 16 Exploring Startsなしでモンテカルロ法を使いたい。

    →𝜋 𝑎 𝑠 > 0が保証されている方策を持つエージェントに データ(𝑆0 , 𝐴0 , 𝑅1 , … , 𝑆𝑇−1 , 𝐴𝑇−1 , 𝑅𝑇 )を生成させればよい データを生成するための方策behavior policyと学習を行いたい方策target policyについて On-Policy: behavior policy=target policy Off-Policy: behavior policy≠target policy の2パターンが考えられる
  7. 5.5 Off-policy Prediction via Importance Sampling データを生成するためのbehavior policyとして方策𝑏(𝑏 ≠ 𝜋)を導入する。

    そのままでは期待報酬和は𝑣𝑏 (≠ 𝑣𝜋 )に収束してしまうので工夫が必要。 →Importance Samplingを用いる 18
  8. Importance Sampling 状態𝑆𝑡 からスタートして以降のトラジェクトリ(𝐴𝑡 , 𝑆𝑡+1 , 𝐴𝑡+1 , …

    , 𝑆𝑇 )の生成確率は以下のように書ける。 𝜋と𝑏についての上の確率の比を取る 𝜌𝑡:𝑇−1 がImportance Sampling Ratio 𝜋と𝑏の下でのそのトラジェクトリの実現しやすさの比と言える 19
  9. Weighted Importance Sampling 𝑆𝑡 = 𝑠であるような𝑡の集合を𝑇(𝑠)とする。 前ページの期待報酬和は次のように表せる(Ordinary Importance Sampling)。 21

    𝑇(𝑠)による重み付けをした変形版を考えることができる(Weighted Importance Sampling) Weighted Importance Samplingの方は第2部で扱う関数近似法への拡張が容易
  10. Example 5.4 Off-policy Estimation of a Blackjack State Value Ordinary

    Importance SamplingとWeighed Importance Samplingでの𝑣𝑏 と𝑣𝜋 の誤差 (target policyはExample 5.1で設定した20 or 21でのみスティックするやつ) 22 • どちらのImportance Samplingでもエピソード数を増やせば誤差は0に近づく • Weighed Importance Samplingはエピソード数が少なくても誤差が小さい
  11. 5章のまとめ • モンテカルロ法の特徴と利点 • 経験だけから学習できる • ブートストラップを行わない(6章でこれと対比したTD法を扱う) • シミュレーションなどとの併用ができる •

    状態の特定の部分集合に着目しやすい(8章で説明) • マルコフ性が崩れた時に影響を受けにくい(後の章で説明) • モンテカルロ法では探索性を保つのが重要 • Exploring Starts(非現実的) • On-Policy:target policy自身により生成されたデータから学習する • Off-Policy:behavior policyにより生成されたデータでtarget policyを学習する 27
  12. 5.8 *Discounting-aware Importance Sampling 割引報酬和の分散を小さくするために報酬の構造を使おうという工夫。 仮に100ステップのエピソードにおいて𝛾 ≪ 1とすると、𝐺𝑡 ≅ 𝑅0

    この時のImportance samplingは𝜋(𝐴0|𝑆0) 𝑏(𝐴0|𝑆0) 𝜋(𝐴1|𝑆1) 𝑏(𝐴1|𝑆1) ⋯ 𝜋(𝐴99|𝑆99) 𝑏(𝐴99|𝑆99) となるが、 𝐺𝑡 ≅ 𝑅0 であることから実質的に意味があるのは𝜋(𝐴0|𝑆0) 𝑏(𝐴0|𝑆0) だけとなる。 𝜋(𝐴1|𝑆1) 𝑏(𝐴1|𝑆1) ⋯ 𝜋(𝐴99|𝑆99) 𝑏(𝐴99|𝑆99) の部分は期待報酬和にほぼ無関係であるにもかかわらず 分散を大きくしてしまう。 28
  13. 割引率𝛾に対し1 − 𝛾を「(1ステップの)エピソード終了確率」と捉えることにする。 このとき割引報酬和𝐺𝑡 は以下のように各ステップでの終了確率×報酬和の和として表せる 𝐺𝑡 ≔ 𝑅𝑡+1 + 𝛾𝑅𝑡+2

    + 𝛾2𝑅𝑡+3 + ⋯ + 𝛾𝑇−𝑡−1𝑅𝑇 = 1 − 𝛾 𝑅𝑡+1 1ステップ後に終了した分 + 1 − 𝛾 𝛾 𝑅𝑡+1 + 𝑅𝑡+2 2ステップ後に終了した分 + 1 − 𝛾 𝛾2 𝑅𝑡+1 + 𝑅𝑡+2 + 𝑅𝑡+3 3ステップ後に終了した分 ⋮ + 1 − 𝛾 𝛾𝑇−𝑡−2 𝑅𝑡+1 + 𝑅𝑡+2 + ⋯ + 𝑅𝑇−1 𝑇 − 𝑡 − 1ステップ後に終了した分 +𝛾𝑇−𝑡−1 𝑅𝑡+1 + 𝑅𝑡+2 + ⋯ + 𝑅𝑇 (𝑇 − 𝑡 − 1ステップ後までに終了しなかった分) = 1 − 𝛾 ෍ ℎ=𝑡+1 𝑇−1 𝛾ℎ−𝑡−1 ҧ 𝐺𝑡:ℎ + 𝛾𝑇−𝑡−1 ҧ 𝐺𝑡:𝑇 ただし ҧ 𝐺𝑡:ℎ ≔ 𝑅𝑡+1 + 𝑅𝑡+2 + ⋯ + 𝑅ℎ , 0 ≤ 𝑡 < ℎ ≤ 𝑇 29 5.8 *Discounting-aware Importance Sampling
  14. 31 Discounting-aware Importance Samplingと同様に、 Importance samplingの計算から余計な部分をなくして分散を小さくする手法 割引率を無視した場合(𝛾 = 1)Importance samplingを考慮した報酬和は以下のようになる

    この右辺の第1項は以下のようになるが、 𝜋(𝐴𝑡+1|𝑆𝑡+1) 𝑏(𝐴𝑡+1|𝑆𝑡+1) 以降は期待報酬和の推定に無関係なのに分散を大きくしてしまう。 5.9 *Per-decision Importance Sampling