Slide 1

Slide 1 text

これからの強化学習 2章 強化学習の発展的理論 2.1 Yoshifumi Seki@Gunosy Inc Gunosyデータマイニング研究会 #119 2017.04.25

Slide 2

Slide 2 text

2.1 統計学習の観点からみたTD学習 ● 状態sや行動aは離散化された状態を扱っていた ○ 連続的な値を取る変数を扱えない ○ 細分化して離散化するとサンプルを取ることが難しい ● パラメトリックな関数で価値関数を近似的に表現することが必要になる ○ 他にも精度の向上、学習の高速化というメリットがある ○ 補完、外挿によって、高速化ができる

Slide 3

Slide 3 text

2.1.1 強化学習と教師付き学習の学習則 強化学習の価値観数の学習では収束の保証が難しい ● 価値観数の出力の手本となる、教師出力が未知 ● 生成されるサンプルがi.i.d.ではない

Slide 4

Slide 4 text

2.1.2 関数近似をしない場合の価値関数の推定 目的は累積報酬の最適化 方策: actionを選択する確率測度 方策πの元での状態価値関数 教師信号が与えられない。 学習の手がかりとしてベルマン残差が利用される

Slide 5

Slide 5 text

ベルマン方程式

Slide 6

Slide 6 text

No content

Slide 7

Slide 7 text

No content

Slide 8

Slide 8 text

No content

Slide 9

Slide 9 text

以下のベルマン方程式を満たす

Slide 10

Slide 10 text

ベルマンオペレータの導入 価値関数の更新をベルマンオペレータで行うことで、状態価値観数に収束する 状態遷移確率の期待値が既知であれば、このように更新ができる => 実際に既知であることは少ないので、サンプルから近似する

Slide 11

Slide 11 text

サンプルに基づくベルマンオペレータの近似 ● s_{t+1}が観測された時、このように更新する ●

Slide 12

Slide 12 text

次状態に対する期待値をとる 期待値の最大値と最大値の期待値は一致しないので、 サンプルから得た最適価値関数の期待値と、最適価値関数は一致しない => サンプルを元に最適価値関数を推定することは難しい、 この学習はサンプルを元にした場合は考えない

Slide 13

Slide 13 text

得られるサンプルについて ● すべての状態、すべての行動についての次のサンプルを得るのは難しい ○ 行動方策に従ったサンプルに従って更新される ○ 個々のサンプルには確率的なばらつきが含まれる

Slide 14

Slide 14 text

得られるサンプルについて (備考ここのQはQ*かもしれない, 4/25時点で正誤表にはない) サンプルは一様に分布しているわけではなく、マルコフ性を有する。 どのような系列を用いて回避するかは重要なトピック DQNではexperience replayという手法を用いている

Slide 15

Slide 15 text

2.1.3 関数近似をしない場合の価値関数の推定 価値観数を関数近似する場合には、サンプル近似による誤差に加えて近似誤差が生ま れる

Slide 16

Slide 16 text

関数近似器を用いたTD法 線形関数によって近似した状態価値関数 近似誤差のないTD法の更新則と一致するので、適切な条件を選べは収束が保証され る

Slide 17

Slide 17 text

関数近似器を用いたTD(λ)法 ● λ=1, T=∞ -> モンテカルロ法と一致し、収束が保証される ● 1 > λ -> 方策オン + 線形近似ではなければ収束が保証されない 更新則を前方観測の見方でみると理解しやすい

Slide 18

Slide 18 text

前方観測と後方観測 ● 後方観測 ● 前方観測 Tに関して総和をとると一致する

Slide 19

Slide 19 text

N-step 収益 ● λ=1, T=∞のとき、モンテカルロ法による累積報酬の推定値となる

Slide 20

Slide 20 text

λ=1でTを十分大きくとった時 教師信号からパラメータθに対する依存が消えるので以下の最小化になる

Slide 21

Slide 21 text

線形関数近似器を用いてパラメータが収束した場合 ベルマンオペレータを用いて以下の様にかける ベルマンオペレータはR_t, Tの期待値

Slide 22

Slide 22 text

関数近似器を用いたSarsa TD学習の様にQ学習も近似器に拡張できる ● 線形近似なら収束は保証されるが、非線形の場合は保証されない ● 方策反復を行う場合、最適方策が求められるとは限らない ○ Ε-greedyなどが必要 ●

Slide 23

Slide 23 text

関数近似器を用いたQ学習 ● ベルマンオペレータによる更新は方策に依存しない ● 関数近似器を用いる場合は、法則を固定しなければ収束が保証されない

Slide 24

Slide 24 text

勾配TD法 ● ここまで述べたアルゴリズムは直接法とよばれる ○ テーブル表現した価値関数の TD学習法との対応がつく ■ パラメータ更新の最小化を試みている ○ 目的関数の最小化にならない場合もある ● 目的関数の最小化を直接的に求める

Slide 25

Slide 25 text

TD学習のパラメータ更新量の最小化 TD法の停留点 2乗した目的関数

Slide 26

Slide 26 text

GTDアルゴリズム 前半の期待値を行列Atで近似する

Slide 27

Slide 27 text

後半の期待値をu_tのベクトルで近似する GTDアルゴリズムがO(d^2)なのに対して、後者はO(d)なので後者が有利

Slide 28

Slide 28 text

ベルマン偏差の2乗の最小化 BRM法、RG法 サンプルを元に、同じ状態から2度独立に次の状態を得なくてはならない 状態遷移確率は未知なことが多く、2重にサンプルを取ることは難しい

Slide 29

Slide 29 text

TD残差の2乗の最小化 ● サンプルを元に解析的に解を得ることができる ● 得られる解には、バイアスが生じてしまう ○ ノイズm_tがr_tと相関するため ○ そのため操作変数法を用いる必要がある を用いて となる理想的な解θ*を考える

Slide 30

Slide 30 text

操作変数法 ● 入力変数と相関するが、ノイズと相関のない変数wを導入する ● 理想的なパラメータより、第2項の文だけ異なる。 ○ w^T m の期待値が0であれば良い ○ wがないと、x^T mになる ■ x(サンプル)とm(ノイズ)が相関していると期待値は 0にならない ○ 相関していないので期待値は 0にできる

Slide 31

Slide 31 text

LSTD(Least-Squares TD)法 ● 操作変数としてw_t = φ_tを用いる ○ 基底φ_tが一次独立であれば、パラメータは一致推定量となる ● 線形関数近似器を用いているため、目的関数自体を最小化しているわけではない ● しかし異なるコスト関数により他の解釈が可能である

Slide 32

Slide 32 text

LSTD法の他の解釈 ● Πは射影オペレータ ○ 理想的な価値観数を射影して線形近似した価値観数にする ● C_PBはベルマン残差の射影の2乗 ○ 射影ベルマン残差と呼ぶ ● LSTD法は2重サンプル法を用いることなく射影ベルマン残差を最小化できる ○ θ_IVは停留点 ● バッチ型のLSTD法は方策オフ型でも解を得ることができる ○ TD(0)法では収束の保証がない ● LSTD法はモデルベースの解と一致する

Slide 33

Slide 33 text

R-LSTD法 ● オンライン型にしたLSTD法 ○ 逆行列補題という恒等式を利用することで、逐次更新則を得る ● バッチ型では逆行列計算が必要だが、オンライン型では行列とベクトルの積に減ら すことができる ○ オンライン型のほうが望ましい ○ GTD2, TDC, LSPEは、よりオーダを減らすことができる

Slide 34

Slide 34 text

方策オフ型のLSTD法 ● 方策オフ型 ○ ある方策πを評価改善しようとしている時に、別の方策 π’を使って改善する方法 ● 内側の期待値は一致するが外側の期待値は一致しない ○ C_PBのMの変更と解釈できる ● 重点重みを恒等式を用いることで省いて計算できるが、重点重みを含めたほうがロ バスト性が高まる ○ 報酬とパラメータの相関が強く、それぞれの分散が大きい場合に精度が下がる ● GTD2, TDC, iLSTDなどでもρを用いることで、方策オフ型の学習ができる 重点重みρを用いて変換 =>

Slide 35

Slide 35 text

LSTD(λ)法 TD法をTD(λ)法に拡張したように、 LSTD法もLSTD(λ)法に拡張できる

Slide 36

Slide 36 text

iLSTD(incremental LSTD)法 ● A_TDはエピソードごとに更新される ○ A_TDがスパースなら、更新量⊿ A_TDもスパースであるといえる ○ スパース性を用いて線形方程式を解きたい ● 計算量を大きく削減できるが、収束性が保証できない パラメータの線形方程式 解

Slide 37

Slide 37 text

射影ベルマン残差の二乗の最小化による 状態価値関数の推定 ● 射影ベルマン残差の二乗を最小化する方法は他にもある ○ GTD2法とTDC法を紹介する 行列演算で表現 ε : ベルマン誤差(θに依存), φ_t: tの時、どの状態にあるかの one-hot

Slide 38

Slide 38 text

GTD2法 ● wを解析的に求めようとすると、逆行列を考えなくてはならないので、計算コストが 高い wは左記の最小化問題になる ● 最急勾配法で求めて以下の更新式を得ることができる

Slide 39

Slide 39 text

TDC法 ● GTD2法と同様に定義できる ● 統計量をwで近似しているので二重サンプルは不要である ● 更新はd次元の基底ベクトルの積しか不要なので、O(d)で計算できる

Slide 40

Slide 40 text

LSPE法 ● LSPE(Least-Square Policy Evaluation)法 ○ GTD2, TDC同様に2つの最適化問題に分割して解く ○ バッチ型で解析的に解を求める点が異なる 一方のパラメータを固定して、更新式を得る

Slide 41

Slide 41 text

LSTDQ法 ● 同様の手法を用いて、行動価値関数を推定する ● 方策が固定されていれば収束が保証されるが、方策を改善する場合には収束の 保証はない=> Q関数を固定してGreedyに方策を改善する方法はLSPI法 ベルマン方程式を考える 理想的なパラメータとノイズを考える 操作変数を導入して、パラメータ推定

Slide 42

Slide 42 text

GQ法 ● 行動価値関数を線形近似する場合、TDCと同じ方法で解くことができる ○ GQ(Gradient Q-learning)

Slide 43

Slide 43 text

greedy-GQ法 ● 目標方策と行動方策を区別して考えると、目的関数は変わる ○ 目標方策: π_θ, 行動方策 π_b ■ 期待値μは行動方策bのものでの期待値 ○ greedy方策を考えると目的関数が微分不可能になる ○ 劣勾配をとる => Greedy GQ ■ 期待値は異なるが、 GQとよく似たアルゴリズムになる ■ 収束の保証のためには行動方策が固定されている必要がある ■ 目的関数が非線形なので、大域的な解が得られるわけではない

Slide 44

Slide 44 text

Fitted Q ● LSPE法と同様な方法で行動価値関数を推定する ○ 一方のパラメータを固定し、 w(s_t, a_t)を導入して、最適化問題を分割する ● 関数近似器にニューラルネットを用いるものをneural fitted Qと呼ぶ ● Fitted Qは行動方策を固定し、線形関数近似器を用いたとしても収束しない可能性 がある ● 理論的な収束の保証を求めることは難しいが、DQNで用いられるなど注目されて いる

Slide 45

Slide 45 text

2.1.4 セミパラメトリック統計学習による定式化 ● 方策評価の問題をセミパラメトリック統計学習問題として定式化 ● セミパラメトリックモデル ○ 興味のあるパラメータと知る必要のないパラメータ (撹乱パラメータ)の2種類のパラメータ ○ 撹乱パラメータを知ることなく、知りたいパラメータのみを知りたい ● 価値関数はパラメトリックな関数で必ず表現できるという強い仮定をおく ● 方策πを固定したマルコフ報酬過程(MRP)を考える

Slide 46

Slide 46 text

補題1. ● 方策を固定した際の価値観数の推定問題がMRPの統計量の推定と等価であるこ とを示す g(s)は一意に定まり、V^π(s)に一致する => ベルマン方程式である 価値関数推定は、部分的な統計量をベルマン方程式を通して θで特徴づけ、他の統計量を撹乱パ ラメータで特徴つけたセミパラメトリックモデルに対する統計学習の問題である

Slide 47

Slide 47 text

補題2. ● 価値関数の推定問題を、セミパラメトリック推定の問題として解釈できる ○ 統計学習で確立されている手法を用いることができる

Slide 48

Slide 48 text

セミパラメトリックと推定関数 ● 入力がi.i.dのときの推定を考える ● M次元ベクトル関数fが以下の3条件を満たす時、fは推定関数とよばれる 推定関数が存在するならば推定方程式を解くことで、良い性質をもった推定量を得ることができる この解をM推定量と呼ぶ 推定関数となる関数系を特定できれば、 M推定量となる推定量をすべて特定できる

Slide 49

Slide 49 text

2.1.5 推定関数に基づく方策評価の理論的解析 ● 方策評価はマルコフ時系列 ○ マルチンゲール推定関数 ψ_tが以下の条件を満たすとき、 f_Tは推定関数となる

Slide 50

Slide 50 text

マルチンゲール推定量となりうる関数クラス ● サンプル系列Z_Tの時、TD誤差の条件付き確率の期待値は以下の条件を満たす この性質は、重み関数と過去サンプル係数をかけても成立する はマイチンゲール推定関数 すべてのマイチンゲール推定関数は

Slide 51

Slide 51 text

最適な推定精度を実現する推定関数 ● 真のパラメータを含むTD誤差, TD誤差のパラメータ微分、未知の条件付き期待値 を近似する必要がある

Slide 52

Slide 52 text

2.1.6 既存手法との関係 ● これまで提案されている既存の方策評価法は、M推定量の一例であるとみなせる TD法で求めていた停留点 TD(λ)法で求めていた停留点

Slide 53

Slide 53 text

2.1.7 おわりに ● セミパラメトリックモデルの限界は2点 ○ 適切なパラメータを選べば真の価値関数を表現できるとした仮定 ■ バイアスを考慮する必要がある ○ 方策πの固定化 ■