Upgrade to Pro — share decks privately, control downloads, hide ads and more …

「強化学習」輪読会#04資料_Chapter4前半

lazurite
December 17, 2019

 「強化学習」輪読会#04資料_Chapter4前半

2019/12/17 MLPシリーズ「強化学習」輪読会 #04にて使用した資料です。

lazurite

December 17, 2019
Tweet

Other Decks in Technology

Transcript

  1. Chapter 4 モデルフリー型の強化学習  4.1 データにもとづく意思決定  4.2 価値関数の推定 

    4.3 方策と行動価値関数の学習  4.4*収束性  4.5 アクター・クリティック法
  2. Chapter 4 モデルフリー型の強化学習  4.1 データにもとづく意思決定  4.2 価値関数の推定 

    4.3 方策と行動価値関数の学習  4.4*収束性  4.5 アクター・クリティック法
  3. 4.1 データにもとづく意思決定 #1 • 意思決定の問題設定 • バッチ学習 : すべてのデータから方策を学習 •

    オンライン学習 : データを収集しながら逐次的に学習 • データとは、 エージェントと環境が相互作用した履歴を記録したもの 単一の意思決定系列(4.1式)の場合と、複数系列の場合 ℎ ≜ 0 , 0 , 0 , . . . , −1 , −1 , −1 , (4.1)
  4. 4.1 データにもとづく意思決定 #2  状態 で行動 を実行 →報酬 と次状態 ′

    の組 , , , ′ が系列の最小構成 (=標本, 経験データ, 経験とも)  最小構成の系列が N 個ある場合は、 ℎ 1 (1), … , ℎ 1 () = 0 (1), 0 (1), 0 (1), 1 (1) , … , 0 (), 0 (), 0 (), 1 () となり、このような経験データの集合を履歴データと呼ぶ (再掲) ℎ ≜ 0 , 0 , 0 , . . . , −1 , −1 , −1 , (4.1)
  5. Chapter 4 モデルフリー型の強化学習  4.1 データにもとづく意思決定  4.2 価値関数の推定 

    4.3 方策と行動価値関数の学習  4.4*収束性  4.5 アクター・クリティック法
  6. 4.2 価値関数の推定  4.2.1 ベルマン作用素の標本近似  4.2.2 バッチ学習の場合  4.2.3

    オンライン学習の場合  4.2.3.1 TD法  4.2.3.2 TD(λ)法:エリジビリティ・トレースを用いたTD法
  7. 4.2 価値関数の推定 #1  方策 に従い行動選択する場合の期待リターン(価値関数) p.29 をデータから推定する  未知:状態遷移確率、報酬関数の環境情報

     既知:状態数、行動数  価値関数の推定器は、価値関数と同じ自由度を持つ関数 を用いることを想定
  8. 4.2 価値関数の推定 #2  履歴データ からのもっとも素朴な 価値関数の推定方法 →モンテカルロ推定:  実績リターン

     ハイパーパラメータ ( に近い時間ステップ のリターン を除外するため)  のリターンは (偏りのある推定)
  9. 4.2 価値関数の推定 #3  モンテカルロ推定(再掲):  実績リターン(再掲):  特に割引率 が1に近い場合:

    リターンを正確に計算するには →・ を十分に大きくする → を十分に小さくする( から離したい) →標本数が少なくなる(一般に推定の効率はよくない) →ベルマン作用素にもとづくアプローチへ
  10. 4.2 価値関数の推定  4.2.1 ベルマン作用素の標本近似  4.2.2 バッチ学習の場合  4.2.3

    オンライン学習の場合  4.2.3.1 TD法  4.2.3.2 TD(λ)法:エリジビリティ・トレースを用いたTD法
  11.  がモデルべ―ス型でのベルマン作用素と実質同じであること を確認する  行動 について周辺化した報酬関数 を 最小二乗法で推定 or 最尤推定すれば、任意の

    について が求まり、(周辺化)状態遷移確率 を 多項分布を用いて最尤推定すれば、次の遷移確率を得る 4.2.1 ベルマン作用素の標本近似 #4
  12. 4.2 価値関数の推定  4.2.1 ベルマン作用素の標本近似  4.2.2 バッチ学習の場合  4.2.3

    オンライン学習の場合  4.2.3.1 TD法  4.2.3.2 TD(λ)法:エリジビリティ・トレースを用いたTD法
  13. 4.2.2 バッチ学習の場合 #1  ある方策 に従い行動し収集した履歴データ がすでにあり、 そのデータから の価値関数 を推定するバッチ学習の

    場合を考える (2.30)の近似として ベルマン期待作用素 の代わりに式(4.4)の近似作用素 を用いて のように を更新すればよい  ベルマン作用素の縮小性の補題2.5 b.(p.51)より、式(4.9)を繰り 返し実施することで、 は唯一の不動点 に単調に収束
  14. 4.2 価値関数の推定  4.2.1 ベルマン作用素の標本近似  4.2.2 バッチ学習の場合  4.2.3

    オンライン学習の場合  4.2.3.1 TD法  4.2.3.2 TD(λ)法:エリジビリティ・トレースを用いたTD法
  15. 4.2.3.1 TD法 #1  データが逐次的に追加され、それに従い推定価値関数 を 逐次的に更新するオンライン学習問題を考える  (4.9)をそのままオンライン学習に適用 すると、推定価値関数を

    のように更新することが考えられる  しかし、  履歴データをすべて記憶しておく必要  すべての状態 それぞれに対して を計算する必要 があるため計算量が大きく、効率的ではない
  16. 4.2.3.1 TD法 #2  簡略化して現時間ステップ の観測 , , +1 のみを用いて

    を微小に更新すれば となり、履歴データを記憶する必要がなくなる  は学習率(ステップサイズ)というハイパーパラメータ や十分小さい定数などを用いる ※収束性を保証するにはロビンス・モンローの条件 を満たす必要がある(詳細は4.4節*)
  17. 4.2.3.1 TD法 #3  更新式(4.12)の収束性について 時間ステップ: 状態: 報酬: ≔ ,

    次状態:+1 ~ ∙ | , の状況にいるとして、(4.12)の は確率変数 その期待値は、 となって真のベルマン期待作用素 による演算と一致 (式(4.8)p.90参照)
  18. 4.2.3.1 TD法 #4  真のベルマン期待作用素との誤差を と定義すれば、 その期待値 はゼロ 報酬が有界 なので明らかに

     誤差 を用いて更新式(4.12)を書き直せば となり、真の を用いた更新則 にノイズ が乗っているものと解釈できる 確率的近似、特にロビンス・モンローのアルゴリズムとして有名
  19. 4.2.3.1 TD法 #5  更新式(4.12)は による動的計画法(式(2.30))の確率的近似 に対応  学習率 がロビンス・モンローの条件を満たしていれば、

    極限 で は を満たす不動点に収束  ベルマン方程式の一意性(命題2.4, p.50)より、上式を満たす は唯一 なので、 が真の価値関数 に収束
  20. 4.2.3.1 TD法 #6  更新式(4.12)を書き換えると、 ここで は の更新量であり、  は

    + 1と の異なる時間ステップでの の予測価値の差異 と解釈できる → :時間的差分誤差もしくはTD誤差 式(4.15)による価値関数の学習法:TD法 TD誤差を利用する学習法の総称:TD学習
  21. 4.2 価値関数の推定  4.2.1 ベルマン作用素の標本近似  4.2.2 バッチ学習の場合  4.2.3

    オンライン学習の場合  4.2.3.1 TD法  4.2.3.2 TD(λ)法:エリジビリティ・トレースを用いたTD法
  22. 4.2.3.2 TD(λ)法:エリジビリティ・トレースを用いたTD法 #1  TD法を一般化したものがTD()法  = 0のときはTD法と同一とみなせる(TD(0)法)  のTD誤差

    は、 + 1時点での の予測価値 を 目的変数とした場合の の予測誤差と解釈できる  一般化して、 を からのステップ切断リターンと呼ぶ このときのTD誤差は
  23. 4.2.3.2 TD(λ)法:エリジビリティ・トレースを用いたTD法 #2  さらに一般化 →目的変数:複数ステップ の の平均値 ステップ数の増加に従って重み係数を指数減衰させるハイパー パラメータ

    を導入すると、重み付き平均は このときのTD誤差 は前方観測的なTD()誤差と呼ばれる (λは0.4~0.8くらいが実験的によいと示されている)
  24. 4.2.3.2 TD(λ)法:エリジビリティ・トレースを用いたTD法 #4  を書き換えて として推定価値関数 を更新する方法 =前方観測的なTD()アプローチ ...ただし の計算に大きな時間遅れが発生し

    オンライン学習に不適 → を時間的に分解、確定している部分のみを用いて 価値関数を更新するアプローチが提案されている (後方観測的アプローチ) p.93