「強化学習」輪読会#04資料_Chapter4前半

強化学習輪読会 #04 Chapter 4 モデルフリー型の強化学習（前半） @lazurite_ml

自己紹介 @lazurite_ml • JTC勤務 • 興味：データ分析、機械学習、Python • 強化学習初心者

Chapter 4 モデルフリー型の強化学習  4.1 データにもとづく意思決定  4.2 価値関数の推定 
4.3 方策と行動価値関数の学習  4.4*収束性  4.5 アクター・クリティック法

4.1 データにもとづく意思決定 #1 • 意思決定の問題設定 • バッチ学習：すべてのデータから方策を学習 •
オンライン学習：データを収集しながら逐次的に学習 • データとは、エージェントと環境が相互作用した履歴を記録したもの単一の意思決定系列（4.1式）の場合と、複数系列の場合 ℎ ≜ 0 , 0 , 0 , . . . , −1 , −1 , −1 , (4.1)

4.1 データにもとづく意思決定 #2  状態で行動を実行 →報酬と次状態 ′
の組 , , , ′ が系列の最小構成 (=標本, 経験データ, 経験とも)  最小構成の系列が N 個ある場合は、 ℎ 1 (1), … , ℎ 1 () = 0 (1), 0 (1), 0 (1), 1 (1) , … , 0 (), 0 (), 0 (), 1 () となり、このような経験データの集合を履歴データと呼ぶ（再掲） ℎ ≜ 0 , 0 , 0 , . . . , −1 , −1 , −1 , (4.1)

Chapter 4 モデルフリー型の強化学習  4.1 データにもとづく意思決定  4.2 価値関数の推定 
4.3 方策と行動価値関数の学習  4.4*収束性  4.5 アクター・クリティック法

4.2 価値関数の推定  4.2.1 ベルマン作用素の標本近似  4.2.2 バッチ学習の場合  4.2.3
オンライン学習の場合  4.2.3.1 TD法  4.2.3.2 TD(λ)法：エリジビリティ・トレースを用いたTD法

4.2 価値関数の推定 #1  方策に従い行動選択する場合の期待リターン（価値関数） p.29 をデータから推定する  未知：状態遷移確率、報酬関数の環境情報
 既知：状態数、行動数  価値関数の推定器は、価値関数と同じ自由度を持つ関数を用いることを想定

4.2 価値関数の推定 #2  履歴データからのもっとも素朴な価値関数の推定方法 →モンテカルロ推定：  実績リターン
 ハイパーパラメータ（に近い時間ステップのリターンを除外するため）  のリターンは（偏りのある推定）

4.2 価値関数の推定 #3  モンテカルロ推定（再掲）：  実績リターン（再掲）：  特に割引率が1に近い場合：
リターンを正確に計算するには →・を十分に大きくする → を十分に小さくする（から離したい） →標本数が少なくなる（一般に推定の効率はよくない） →ベルマン作用素にもとづくアプローチへ

 に従い収集した履歴データからベルマン期待作用素を標本近似する  は確率変数の実現値に対応  、、
など表記は様々 4.2.1 ベルマン作用素の標本近似 #1

 p.43式(2.7) の方策のベルマン期待作用素は関数に対してと書けるので… 4.2.1 ベルマン作用素の標本近似 #2

 の直接的な近似アプローチとして、以下のように標本近似することが考えられるここでを近似ベルマン期待作用素（近似ベルマン作用素）と呼ぶ 4.2.1 ベルマン作用素の標本近似 #3

 がモデルべ―ス型でのベルマン作用素と実質同じであることを確認する  行動について周辺化した報酬関数を最小二乗法で推定 or 最尤推定すれば、任意の
についてが求まり、（周辺化）状態遷移確率を多項分布を用いて最尤推定すれば、次の遷移確率を得る 4.2.1 ベルマン作用素の標本近似 #4

 とを用いて式(4.4)の近似ベルマン作用素はと書けるので、はモデルベース型のアプローチで最尤推定したベルマン作用素と同一であるとわかる  または縮小性などのベルマン期待作用素の性質をもつ
4.2.1 ベルマン作用素の標本近似 #5

4.2.1 ベルマン作用素の標本近似 #6  マルコフ決定過程がエルゴード性（既約的かつ非周期的である, p.32）を満たすとする各状態への滞在確率の極限は初期状態に依存せず非ゼロ

 よって近似ベルマン作用素は極限で初期状態に依存せず、となり、ベルマン期待作用素に収束（式(4.3)） 4.2.1 ベルマン作用素の標本近似 #7

4.2.1 ベルマン作用素の標本近似 #8  また、Tが有限の場合でもの条件付き期待値はと一致

4.2.2 バッチ学習の場合 #1  ある方策に従い行動し収集した履歴データがすでにあり、そのデータからの価値関数を推定するバッチ学習の
場合を考える (2.30)の近似としてベルマン期待作用素の代わりに式(4.4)の近似作用素を用いてのようにを更新すればよい  ベルマン作用素の縮小性の補題2.5 b.(p.51)より、式(4.9)を繰り返し実施することで、は唯一の不動点に単調に収束

4.2.2 バッチ学習の場合 #2  式(4.10)は式(2.10)のベルマン方程式の標本近似に対応  式(4.9)の操作を繰り返さなくても、方策反復法(アルゴリズム2.2)での方策評価の場合のように連立方程式を解くことで解析的にを求めることも可能
 履歴データの系列長の極限のとき式(4.7)よりは真のに収束するので推定価値関数は真の価値関数に一致

4.2.3.1 TD法 #1  データが逐次的に追加され、それに従い推定価値関数を逐次的に更新するオンライン学習問題を考える  (4.9)をそのままオンライン学習に適用すると、推定価値関数を
のように更新することが考えられる  しかし、  履歴データをすべて記憶しておく必要  すべての状態それぞれに対してを計算する必要があるため計算量が大きく、効率的ではない

4.2.3.1 TD法 #2  簡略化して現時間ステップの観測 , , +1 のみを用いて
を微小に更新すればとなり、履歴データを記憶する必要がなくなる  は学習率（ステップサイズ）というハイパーパラメータや十分小さい定数などを用いる ※収束性を保証するにはロビンス・モンローの条件を満たす必要がある（詳細は4.4節*）

4.2.3.1 TD法 #3  更新式(4.12)の収束性について時間ステップ：状態：報酬： ≔ ,
次状態：+1 ~ ∙ | , の状況にいるとして、(4.12)のは確率変数その期待値は、となって真のベルマン期待作用素による演算と一致（式(4.8)p.90参照）

4.2.3.1 TD法 #4  真のベルマン期待作用素との誤差をと定義すれば、その期待値はゼロ報酬が有界なので明らかに
 誤差を用いて更新式(4.12)を書き直せばとなり、真のを用いた更新則にノイズが乗っているものと解釈できる確率的近似、特にロビンス・モンローのアルゴリズムとして有名

4.2.3.1 TD法 #5  更新式(4.12)はによる動的計画法（式(2.30)）の確率的近似に対応  学習率がロビンス・モンローの条件を満たしていれば、
極限ではを満たす不動点に収束  ベルマン方程式の一意性（命題2.4, p.50）より、上式を満たすは唯一なので、が真の価値関数に収束

4.2.3.1 TD法 #6  更新式(4.12)を書き換えると、ここではの更新量であり、  は
+ 1との異なる時間ステップでのの予測価値の差異と解釈できる → ：時間的差分誤差もしくはTD誤差式(4.15)による価値関数の学習法：TD法 TD誤差を利用する学習法の総称：TD学習

4.2.3.1 TD法 #7 (4.16) (4.15)

4.2.3.2 TD(λ)法：エリジビリティ・トレースを用いたTD法 #1  TD法を一般化したものがTD()法  = 0のときはTD法と同一とみなせる（TD(0)法）  のTD誤差
は、 + 1時点でのの予測価値を目的変数とした場合のの予測誤差と解釈できる  一般化して、をからのステップ切断リターンと呼ぶこのときのTD誤差は

4.2.3.2 TD(λ)法：エリジビリティ・トレースを用いたTD法 #2  さらに一般化 →目的変数：複数ステップのの平均値ステップ数の増加に従って重み係数を指数減衰させるハイパーパラメータ
を導入すると、重み付き平均はこのときのTD誤差は前方観測的なTD()誤差と呼ばれる（λは0.4~0.8くらいが実験的によいと示されている）

4.2.3.2 TD(λ)法：エリジビリティ・トレースを用いたTD法 #3

4.2.3.2 TD(λ)法：エリジビリティ・トレースを用いたTD法 #4  を書き換えてとして推定価値関数を更新する方法＝前方観測的なTD()アプローチ ...ただしの計算に大きな時間遅れが発生し
オンライン学習に不適 → を時間的に分解、確定している部分のみを用いて価値関数を更新するアプローチが提案されている（後方観測的アプローチ） p.93

4.2.3.2 TD(λ)法：エリジビリティ・トレースを用いたTD法 #5  推定価値関数が固定（学習率がゼロor非常に小さい）ときから、

4.2.3.2 TD(λ)法：エリジビリティ・トレースを用いたTD法 #5  これを時間分解するととなり、時間ステップ時点で第１項は計算可能

4.2.3.2 TD(λ)法：エリジビリティ・トレースを用いたTD法 #6  各状態についてのトータルの更新量を考える  時間ステップまでに状態に訪問した時間ステップの集合：  状態の時間ステップまでのTD()誤差の和
をに分解して

4.2.3.2 TD(λ)法：エリジビリティ・トレースを用いたTD法 #7  なので、を導入すれば、：後方観測的なTD()誤差（をどの程度過去まで伝播させるか）：エリジビリティ・トレース（状態に直近にどれほど滞在したか）

4.2.3.2 TD(λ)法：エリジビリティ・トレースを用いたTD法 #8  ハイパーパラメータはエリジビリティ減衰率

4.2.3.2 TD(λ)法：エリジビリティ・トレースを用いたTD法 #10  より、前方観測的なTD()アプローチの近似として、これが後方観測的なTD()アプローチ

4.2.3.2 TD(λ)法：エリジビリティ・トレースを用いたTD法 #11  前方観測的なTD()誤差と後方観測的なTD()誤差の時間平均は一致（固定）

4.2.3.2 TD(λ)法：エリジビリティ・トレースを用いたTD法 #12  TD()法の実装  エリジビリティ・トレースはの定義からと初期化して、各時間ステップでと
を更新すれば、はと一致

Chapter 4 前半終了お疲れさまでした！

「強化学習」輪読会#04資料_Chapter4前半

「強化学習」輪読会#04資料_Chapter4前半

Other Decks in Technology

Featured

Transcript