Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Reinforcement Learning: An Introduction 輪読会 第5回

kiyo
September 30, 2021

Reinforcement Learning: An Introduction 輪読会 第5回

2021年8月12日の第5回Reinforcement Learning: An Introduction輪読会で使用した資料です。輪読会後に5.8節、5.9節の内容を追記しました。

kiyo

September 30, 2021
Tweet

More Decks by kiyo

Other Decks in Science

Transcript

  1. Reinforcement Learning : An Introduction
    Chapter 5 Monte Carlo Methods
    2021/8/12 kiyo
    1

    View Slide

  2. 自己紹介
    • twitter : [email protected]
    • https://qiita.com/hrs1985
    • https://github.com/kiyohiro8
    株式会社カブクで機械学習エンジニアをしています。
    • 深層生成モデル、画像の変換
    • ゲームの強化学習
    • ポケモンとか風来のシレンとか
    に興味があります。
    強化学習の勉強をちゃんとやりたいと思ったので若手の会チャンネルに参加しました。
    2

    View Slide

  3. 5章の内容
    4章では動的計画法を用いて最適方策を得る方法を議論した
    これは環境のダイナミクス Pr(𝑠′|𝑠, 𝑎)が既知の場合にしか使えないので
    ダイナミクスが未知であっても経験のみから学習できるようにしたい
    これが5章のテーマ
    3

    View Slide

  4. 5.1 Monte Carlo Prediction
    方策𝜋の下での状態𝑠の状態価値𝑣𝜋
    𝑠 は割引報酬和の期待値
    𝑣𝜋
    𝑠 = 𝐸[𝐺𝑡
    |𝑆𝑡
    = 𝑠]
    単純に考えると、 𝑆𝑡
    = 𝑠となって以降の𝐺𝑡
    を平均化すればよい
    割引報酬和を沢山観測して平均を取れば期待値に収束するはず
    4

    View Slide

  5. First-visit MCとEvery-visit MC
    𝑣𝜋
    (𝑠)の推定に際し、同一エピソード内で同じ𝑠に複数回訪れうる場合
    First-visit MC:初回に訪れた時点でのGt
    のみを考慮する
    Every-visit MC:訪れたすべての時点でのGt
    を考慮する
    理論的な扱いが異なるがどちらでも𝑣𝜋
    (𝑠)に収束する、らしい。
    5

    View Slide

  6. First-visit MC Prediction
    6
    データの生成
    割引報酬和の計算
    状態価値の推定
    素朴なモンテカルロ法のアルゴリズム

    View Slide

  7. Example 5.1 Blackjack
    プレイヤーの手札が20または21のときはスティック(手札を確定)、そうでない場合はヒット
    (カードを1枚追加)を選択する場合の状態価値
    50万エピソード後の価値関数はよく近似されているらしい
    多分戦術が弱すぎて20 or 21以外のところではほぼ負け(-1)のところがそう見えるという話
    7

    View Slide

  8. 5.2 Monte Carlo Estimation of Action Values
    Pr(𝑠′|𝑠, 𝑎)が既知の場合、𝑣𝜋
    だけあれば最適方策が得られる。
    4章と異なりダイナミクスが未知なので
    各アクションに対する𝑞𝜋
    を推定する必要がある。
    8

    View Slide

  9. Exploring Starts
    𝑞𝜋
    を基に方策を改善するには方策𝜋の下での各𝑠-𝑎ペアの期待報酬和を計算する必要がある
    しかし、各𝑠についてすべての𝑎を選択しうる (𝜋(𝑎|𝑠)>0) 方策でないと破綻する
    (特に𝜋がgreedyな方策の場合𝑎が1択になってしまうので𝑞𝜋
    (𝑠, 𝑎)が比較できない)
    →エピソードの開始をランダムな𝑠−𝑎のペアから開始することにすれば
    (エピソード数が無限なら)全ての𝑠-𝑎ペアが選択されることを保証できる
    (Exploring Starts)
    これは多少複雑な問題になると非現実的。
    現実的には𝜋 𝑎 𝑠 > 0が全ての𝑠-𝑎ペアで成り立つよう確率的な方策を用いるだけでもいい。
    でもここではExploring Startsの仮定を一旦置いて議論を進めている、とのこと。
    9

    View Slide

  10. 5.3 Monte Carlo Control
    1. 方策𝜋0
    下でデータを(無限に)収集して行動価値関数𝑞𝜋0
    を推定する
    2. 行動価値関数𝑞𝜋0
    の下で改善された方策𝜋1
    を得る
    3. 方策𝜋1
    下でデータを(無限に)収集して行動価値関数𝑞𝜋1
    を推定する
    4. 行動価値関数𝑞𝜋1
    の下で改善された方策𝜋2
    を得る
    5. 1~4を繰り返して𝜋∗
    と𝑞∗
    を得る
    方策を𝜋𝑘+1
    ≝ 𝑎𝑟𝑔𝑚𝑎𝑥 𝑞𝜋𝑘
    (𝑠, 𝑎) としたとき、
    𝜋𝑘+1
    が𝜋𝑘
    よりも良い方策であることはPolicy Improvement Theorem(4.2節)より保証される。
    これで経験だけから良い方策と価値関数を得ることはできたが……
    10

    View Slide

  11. 非現実的な仮定として以下の2つを仮定している
    • 無限のエピソードを用いて行動価値を推定する
    • Exploring Starts
    これらの仮定の外し方を議論していく
    11

    View Slide

  12. 方策の評価を無限のエピソードで行う仮定を回避するために
    • 方策を評価するたびに𝑞𝜋𝑘
    の近似が十分よいことを確かめる
    →小さな問題以外では難しそう
    • 方策評価(Evaluation)と方策改善(Improvement) を交互に繰り返す
    (4.6節のGeneralized Policy Iterationと同じ)
    →ここではこちらを採用
    12

    View Slide

  13. Generalized Policy Iteration (GPI)
    13
    4.6節で述べられていた話。
    価値のevaluationと方策のimprovementを交互に行うことで最適価値と最適方策に到ることができる。

    View Slide

  14. Exploring StartsありでのMonte Carlo Control
    Exploring Starts
    割引報酬和とQの計算
    14
    方策の更新

    View Slide

  15. Example 5.3 Solving Blackjack
    ブラックジャックの 𝑠 - 𝑎 ペアの数は限られているのでExploring Startsが容易に実行できる。
    最適方策𝜋∗
    と最適価値関数𝑣∗
    が得られた。
    15

    View Slide

  16. 5.4 Monte Carlo Control without Exploring Starts
    16
    Exploring Startsなしでモンテカルロ法を使いたい。
    →𝜋 𝑎 𝑠 > 0が保証されている方策を持つエージェントに
    データ(𝑆0
    , 𝐴0
    , 𝑅1
    , … , 𝑆𝑇−1
    , 𝐴𝑇−1
    , 𝑅𝑇
    )を生成させればよい
    データを生成するための方策behavior policyと学習を行いたい方策target policyについて
    On-Policy: behavior policy=target policy
    Off-Policy: behavior policy≠target policy
    の2パターンが考えられる

    View Slide

  17. On-Policyの場合
    𝜋 𝑎 𝑠 > 0の必要があるので𝜀-greedyを使えばよい。
    (π 𝑎 𝑠 ≥ Τ
    𝜀 𝐴 > 0, 𝑠 ∈ 𝑆, 𝑎 ∈ 𝐴が保証される)
    17

    View Slide

  18. 5.5 Off-policy Prediction via Importance Sampling
    データを生成するためのbehavior policyとして方策𝑏(𝑏 ≠ 𝜋)を導入する。
    そのままでは期待報酬和は𝑣𝑏
    (≠ 𝑣𝜋
    )に収束してしまうので工夫が必要。
    →Importance Samplingを用いる
    18

    View Slide

  19. Importance Sampling
    状態𝑆𝑡
    からスタートして以降のトラジェクトリ(𝐴𝑡
    , 𝑆𝑡+1
    , 𝐴𝑡+1
    , … , 𝑆𝑇
    )の生成確率は以下のように書ける。
    𝜋と𝑏についての上の確率の比を取る
    𝜌𝑡:𝑇−1
    がImportance Sampling Ratio
    𝜋と𝑏の下でのそのトラジェクトリの実現しやすさの比と言える
    19

    View Slide

  20. Importance Sampling
    20
    Importance Sampling Ratioで重みを付けた期待報酬和が𝑣𝜋
    に一致する。
    𝜋の下でも実現しやすい報酬和𝐺𝑡
    をより重く見ることで𝑣𝑏
    𝑠 が𝑣𝜋
    𝑠 に近づく的なイメージ

    View Slide

  21. Weighted Importance Sampling
    𝑆𝑡
    = 𝑠であるような𝑡の集合を𝑇(𝑠)とする。
    前ページの期待報酬和は次のように表せる(Ordinary Importance Sampling)。
    21
    𝑇(𝑠)による重み付けをした変形版を考えることができる(Weighted Importance Sampling)
    Weighted Importance Samplingの方は第2部で扱う関数近似法への拡張が容易

    View Slide

  22. Example 5.4 Off-policy Estimation of a Blackjack State Value
    Ordinary Importance SamplingとWeighed Importance Samplingでの𝑣𝑏
    と𝑣𝜋
    の誤差
    (target policyはExample 5.1で設定した20 or 21でのみスティックするやつ)
    22
    • どちらのImportance Samplingでもエピソード数を増やせば誤差は0に近づく
    • Weighed Importance Samplingはエピソード数が少なくても誤差が小さい

    View Slide

  23. Example 5.5 Infinite Variance
    報酬和が無限の分散を持つケース
    Ordinary Importance Samplingは収束しないがWeighted Importance Samplingの方は1に収束
    していっている(何色がどっち??)
    23

    View Slide

  24. 5.6 Incremental Implementation
    上の式は以下のような漸化式に変形できる。
    24

    View Slide

  25. Off-Policy MC Prediction
    25
    𝜋 𝑎 𝑠 > 0 ֜ 𝑏 𝑎 𝑠 > 0

    View Slide

  26. 5.7 Off-Policy Monte Carlo Control
    26
    方策の改善

    View Slide

  27. 5章のまとめ
    • モンテカルロ法の特徴と利点
    • 経験だけから学習できる
    • ブートストラップを行わない(6章でこれと対比したTD法を扱う)
    • シミュレーションなどとの併用ができる
    • 状態の特定の部分集合に着目しやすい(8章で説明)
    • マルコフ性が崩れた時に影響を受けにくい(後の章で説明)
    • モンテカルロ法では探索性を保つのが重要
    • Exploring Starts(非現実的)
    • On-Policy:target policy自身により生成されたデータから学習する
    • Off-Policy:behavior policyにより生成されたデータでtarget policyを学習する
    27

    View Slide

  28. 5.8 *Discounting-aware Importance Sampling
    割引報酬和の分散を小さくするために報酬の構造を使おうという工夫。
    仮に100ステップのエピソードにおいて𝛾 ≪ 1とすると、𝐺𝑡
    ≅ 𝑅0
    この時のImportance samplingは𝜋(𝐴0|𝑆0)
    𝑏(𝐴0|𝑆0)
    𝜋(𝐴1|𝑆1)
    𝑏(𝐴1|𝑆1)
    ⋯ 𝜋(𝐴99|𝑆99)
    𝑏(𝐴99|𝑆99)
    となるが、
    𝐺𝑡
    ≅ 𝑅0
    であることから実質的に意味があるのは𝜋(𝐴0|𝑆0)
    𝑏(𝐴0|𝑆0)
    だけとなる。
    𝜋(𝐴1|𝑆1)
    𝑏(𝐴1|𝑆1)
    ⋯ 𝜋(𝐴99|𝑆99)
    𝑏(𝐴99|𝑆99)
    の部分は期待報酬和にほぼ無関係であるにもかかわらず
    分散を大きくしてしまう。
    28

    View Slide

  29. 割引率𝛾に対し1 − 𝛾を「(1ステップの)エピソード終了確率」と捉えることにする。
    このとき割引報酬和𝐺𝑡
    は以下のように各ステップでの終了確率×報酬和の和として表せる
    𝐺𝑡
    ≔ 𝑅𝑡+1
    + 𝛾𝑅𝑡+2
    + 𝛾2𝑅𝑡+3
    + ⋯ + 𝛾𝑇−𝑡−1𝑅𝑇
    = 1 − 𝛾 𝑅𝑡+1
    1ステップ後に終了した分
    + 1 − 𝛾 𝛾 𝑅𝑡+1
    + 𝑅𝑡+2
    2ステップ後に終了した分
    + 1 − 𝛾 𝛾2 𝑅𝑡+1
    + 𝑅𝑡+2
    + 𝑅𝑡+3
    3ステップ後に終了した分

    + 1 − 𝛾 𝛾𝑇−𝑡−2 𝑅𝑡+1
    + 𝑅𝑡+2
    + ⋯ + 𝑅𝑇−1
    𝑇 − 𝑡 − 1ステップ後に終了した分
    +𝛾𝑇−𝑡−1 𝑅𝑡+1
    + 𝑅𝑡+2
    + ⋯ + 𝑅𝑇
    (𝑇 − 𝑡 − 1ステップ後までに終了しなかった分)
    = 1 − 𝛾 ෍
    ℎ=𝑡+1
    𝑇−1
    𝛾ℎ−𝑡−1 ҧ
    𝐺𝑡:ℎ
    + 𝛾𝑇−𝑡−1 ҧ
    𝐺𝑡:𝑇
    ただし ҧ
    𝐺𝑡:ℎ
    ≔ 𝑅𝑡+1
    + 𝑅𝑡+2
    + ⋯ + 𝑅ℎ
    , 0 ≤ 𝑡 < ℎ ≤ 𝑇
    29
    5.8 *Discounting-aware Importance Sampling

    View Slide

  30. 5.8 *Discounting-aware Importance Sampling
    このDiscounting-aware Importance Samplingを用いて状態価値を以下のように定義できる。
    ordinary
    weighted
    30

    View Slide

  31. 31
    Discounting-aware Importance Samplingと同様に、
    Importance samplingの計算から余計な部分をなくして分散を小さくする手法
    割引率を無視した場合(𝛾 = 1)Importance samplingを考慮した報酬和は以下のようになる
    この右辺の第1項は以下のようになるが、
    𝜋(𝐴𝑡+1|𝑆𝑡+1)
    𝑏(𝐴𝑡+1|𝑆𝑡+1)
    以降は期待報酬和の推定に無関係なのに分散を大きくしてしまう。
    5.9 *Per-decision Importance Sampling

    View Slide

  32. 𝜌𝑡:𝑇−1
    の中で報酬𝑅𝑡+1
    が発生した後の部分は無視できる(らしい)
    32
    これを順次適用して
    ただし、
    この ෨
    𝐺𝑡
    を用いて推定状態価値を次のように表せる
    5.9 *Per-decision Importance Sampling

    View Slide