[GunosyDM研究会]これからの強化学習 2.1 / future-RL-2-1

これからの強化学習 2章強化学習の発展的理論 2.1 Yoshifumi Seki@Gunosy Inc Gunosyデータマイニング研究会 #119 2017.04.25

2.1 統計学習の観点からみたTD学習 • 状態sや行動aは離散化された状態を扱っていた ◦ 連続的な値を取る変数を扱えない ◦ 細分化して離散化するとサンプルを取ることが難しい • パラメトリックな関数で価値関数を近似的に表現することが必要になる
◦ 他にも精度の向上、学習の高速化というメリットがある ◦ 補完、外挿によって、高速化ができる

2.1.1 強化学習と教師付き学習の学習則強化学習の価値観数の学習では収束の保証が難しい • 価値観数の出力の手本となる、教師出力が未知 • 生成されるサンプルがi.i.d.ではない

2.1.2 関数近似をしない場合の価値関数の推定目的は累積報酬の最適化方策: actionを選択する確率測度方策πの元での状態価値関数教師信号が与えられない。学習の手がかりとしてベルマン残差が利用される

ベルマン方程式

以下のベルマン方程式を満たす

ベルマンオペレータの導入価値関数の更新をベルマンオペレータで行うことで、状態価値観数に収束する状態遷移確率の期待値が既知であれば、このように更新ができる => 実際に既知であることは少ないので、サンプルから近似する

サンプルに基づくベルマンオペレータの近似 • s_{t+1}が観測された時、このように更新する •

次状態に対する期待値をとる期待値の最大値と最大値の期待値は一致しないので、サンプルから得た最適価値関数の期待値と、最適価値関数は一致しない => サンプルを元に最適価値関数を推定することは難しい、この学習はサンプルを元にした場合は考えない

得られるサンプルについて • すべての状態、すべての行動についての次のサンプルを得るのは難しい ◦ 行動方策に従ったサンプルに従って更新される ◦ 個々のサンプルには確率的なばらつきが含まれる

得られるサンプルについて (備考ここのQはQ*かもしれない, 4/25時点で正誤表にはない) サンプルは一様に分布しているわけではなく、マルコフ性を有する。どのような系列を用いて回避するかは重要なトピック DQNではexperience replayという手法を用いている

2.1.3 関数近似をしない場合の価値関数の推定価値観数を関数近似する場合には、サンプル近似による誤差に加えて近似誤差が生まれる

関数近似器を用いたTD法線形関数によって近似した状態価値関数近似誤差のないTD法の更新則と一致するので、適切な条件を選べは収束が保証される

関数近似器を用いたTD(λ)法 • λ=1, T=∞ -> モンテカルロ法と一致し、収束が保証される • 1 > λ
-> 方策オン + 線形近似ではなければ収束が保証されない更新則を前方観測の見方でみると理解しやすい

前方観測と後方観測 • 後方観測 • 前方観測 Tに関して総和をとると一致する

N-step 収益 • λ=1, T=∞のとき、モンテカルロ法による累積報酬の推定値となる

λ=1でTを十分大きくとった時教師信号からパラメータθに対する依存が消えるので以下の最小化になる

線形関数近似器を用いてパラメータが収束した場合ベルマンオペレータを用いて以下の様にかけるベルマンオペレータはR_t, Tの期待値

関数近似器を用いたSarsa TD学習の様にQ学習も近似器に拡張できる • 線形近似なら収束は保証されるが、非線形の場合は保証されない • 方策反復を行う場合、最適方策が求められるとは限らない ◦ Ε-greedyなどが必要 •

関数近似器を用いたQ学習 • ベルマンオペレータによる更新は方策に依存しない • 関数近似器を用いる場合は、法則を固定しなければ収束が保証されない

勾配TD法 • ここまで述べたアルゴリズムは直接法とよばれる ◦ テーブル表現した価値関数の TD学習法との対応がつく ▪ パラメータ更新の最小化を試みている ◦ 目的関数の最小化にならない場合もある
• 目的関数の最小化を直接的に求める

TD学習のパラメータ更新量の最小化 TD法の停留点 2乗した目的関数

GTDアルゴリズム前半の期待値を行列Atで近似する

後半の期待値をu_tのベクトルで近似する GTDアルゴリズムがO(d^2)なのに対して、後者はO(d)なので後者が有利

ベルマン偏差の2乗の最小化 BRM法、RG法サンプルを元に、同じ状態から2度独立に次の状態を得なくてはならない状態遷移確率は未知なことが多く、2重にサンプルを取ることは難しい

TD残差の2乗の最小化 • サンプルを元に解析的に解を得ることができる • 得られる解には、バイアスが生じてしまう ◦ ノイズm_tがr_tと相関するため ◦ そのため操作変数法を用いる必要があるを用いて
となる理想的な解θ＊を考える

操作変数法 • 入力変数と相関するが、ノイズと相関のない変数wを導入する • 理想的なパラメータより、第2項の文だけ異なる。 ◦ w^T m の期待値が0であれば良い ◦
wがないと、x^T mになる ▪ x(サンプル)とm(ノイズ)が相関していると期待値は 0にならない ◦ 相関していないので期待値は 0にできる

LSTD(Least-Squares TD)法 • 操作変数としてw_t = φ_tを用いる ◦ 基底φ_tが一次独立であれば、パラメータは一致推定量となる • 線形関数近似器を用いているため、目的関数自体を最小化しているわけではない
• しかし異なるコスト関数により他の解釈が可能である

LSTD法の他の解釈 • Πは射影オペレータ ◦ 理想的な価値観数を射影して線形近似した価値観数にする • C_PBはベルマン残差の射影の2乗 ◦ 射影ベルマン残差と呼ぶ •
LSTD法は2重サンプル法を用いることなく射影ベルマン残差を最小化できる ◦ θ_IVは停留点 • バッチ型のLSTD法は方策オフ型でも解を得ることができる ◦ TD(0)法では収束の保証がない • LSTD法はモデルベースの解と一致する

R-LSTD法 • オンライン型にしたLSTD法 ◦ 逆行列補題という恒等式を利用することで、逐次更新則を得る • バッチ型では逆行列計算が必要だが、オンライン型では行列とベクトルの積に減らすことができる ◦ オンライン型のほうが望ましい
◦ GTD2, TDC, LSPEは、よりオーダを減らすことができる

方策オフ型のLSTD法 • 方策オフ型 ◦ ある方策πを評価改善しようとしている時に、別の方策 π’を使って改善する方法 • 内側の期待値は一致するが外側の期待値は一致しない ◦ C_PBのMの変更と解釈できる
• 重点重みを恒等式を用いることで省いて計算できるが、重点重みを含めたほうがロバスト性が高まる ◦ 報酬とパラメータの相関が強く、それぞれの分散が大きい場合に精度が下がる • GTD2, TDC, iLSTDなどでもρを用いることで、方策オフ型の学習ができる重点重みρを用いて変換 =>

LSTD(λ)法 TD法をTD(λ)法に拡張したように、 LSTD法もLSTD(λ)法に拡張できる

iLSTD(incremental LSTD)法 • A_TDはエピソードごとに更新される ◦ A_TDがスパースなら、更新量⊿ A_TDもスパースであるといえる ◦ スパース性を用いて線形方程式を解きたい •
計算量を大きく削減できるが、収束性が保証できないパラメータの線形方程式解

射影ベルマン残差の二乗の最小化による状態価値関数の推定 • 射影ベルマン残差の二乗を最小化する方法は他にもある ◦ GTD2法とTDC法を紹介する行列演算で表現 ε : ベルマン誤差(θに依存),
φ_t: tの時、どの状態にあるかの one-hot

GTD2法 • wを解析的に求めようとすると、逆行列を考えなくてはならないので、計算コストが高い wは左記の最小化問題になる • 最急勾配法で求めて以下の更新式を得ることができる

TDC法 • GTD2法と同様に定義できる • 統計量をwで近似しているので二重サンプルは不要である • 更新はd次元の基底ベクトルの積しか不要なので、O(d)で計算できる

LSPE法 • LSPE(Least-Square Policy Evaluation)法 ◦ GTD2, TDC同様に2つの最適化問題に分割して解く ◦ バッチ型で解析的に解を求める点が異なる
一方のパラメータを固定して、更新式を得る

LSTDQ法 • 同様の手法を用いて、行動価値関数を推定する • 方策が固定されていれば収束が保証されるが、方策を改善する場合には収束の保証はない=> Q関数を固定してGreedyに方策を改善する方法はLSPI法ベルマン方程式を考える理想的なパラメータとノイズを考える操作変数を導入して、パラメータ推定

GQ法 • 行動価値関数を線形近似する場合、TDCと同じ方法で解くことができる ◦ GQ(Gradient Q-learning)

greedy-GQ法 • 目標方策と行動方策を区別して考えると、目的関数は変わる ◦ 目標方策: π_θ, 行動方策 π_b ▪ 期待値μは行動方策bのものでの期待値
◦ greedy方策を考えると目的関数が微分不可能になる ◦ 劣勾配をとる => Greedy GQ ▪ 期待値は異なるが、 GQとよく似たアルゴリズムになる ▪ 収束の保証のためには行動方策が固定されている必要がある ▪ 目的関数が非線形なので、大域的な解が得られるわけではない

Fitted Q • LSPE法と同様な方法で行動価値関数を推定する ◦ 一方のパラメータを固定し、 w(s_t, a_t)を導入して、最適化問題を分割する • 関数近似器にニューラルネットを用いるものをneural
fitted Qと呼ぶ • Fitted Qは行動方策を固定し、線形関数近似器を用いたとしても収束しない可能性がある • 理論的な収束の保証を求めることは難しいが、DQNで用いられるなど注目されている

2.1.4 セミパラメトリック統計学習による定式化 • 方策評価の問題をセミパラメトリック統計学習問題として定式化 • セミパラメトリックモデル ◦ 興味のあるパラメータと知る必要のないパラメータ (撹乱パラメータ)の2種類のパラメータ ◦
撹乱パラメータを知ることなく、知りたいパラメータのみを知りたい • 価値関数はパラメトリックな関数で必ず表現できるという強い仮定をおく • 方策πを固定したマルコフ報酬過程(MRP)を考える

補題1. • 方策を固定した際の価値観数の推定問題がMRPの統計量の推定と等価であることを示す g(s)は一意に定まり、V^π(s)に一致する => ベルマン方程式である価値関数推定は、部分的な統計量をベルマン方程式を通して θで特徴づけ、他の統計量を撹乱パラメータで特徴つけたセミパラメトリックモデルに対する統計学習の問題である

補題2. • 価値関数の推定問題を、セミパラメトリック推定の問題として解釈できる ◦ 統計学習で確立されている手法を用いることができる

セミパラメトリックと推定関数 • 入力がi.i.dのときの推定を考える • M次元ベクトル関数fが以下の3条件を満たす時、fは推定関数とよばれる推定関数が存在するならば推定方程式を解くことで、良い性質をもった推定量を得ることができるこの解をM推定量と呼ぶ推定関数となる関数系を特定できれば、 M推定量となる推定量をすべて特定できる

2.1.5 推定関数に基づく方策評価の理論的解析 • 方策評価はマルコフ時系列 ◦ マルチンゲール推定関数 ψ_tが以下の条件を満たすとき、 f_Tは推定関数となる

マルチンゲール推定量となりうる関数クラス • サンプル系列Z_Tの時、TD誤差の条件付き確率の期待値は以下の条件を満たすこの性質は、重み関数と過去サンプル係数をかけても成立するはマイチンゲール推定関数すべてのマイチンゲール推定関数は

最適な推定精度を実現する推定関数 • 真のパラメータを含むTD誤差, TD誤差のパラメータ微分、未知の条件付き期待値を近似する必要がある

2.1.6 既存手法との関係 • これまで提案されている既存の方策評価法は、M推定量の一例であるとみなせる TD法で求めていた停留点 TD(λ)法で求めていた停留点

2.1.7 おわりに • セミパラメトリックモデルの限界は2点 ◦ 適切なパラメータを選べば真の価値関数を表現できるとした仮定 ▪ バイアスを考慮する必要がある ◦ 方策πの固定化
▪

[GunosyDM研究会]これからの強化学習 2.1 / future-RL-2-1

[GunosyDM研究会]これからの強化学習 2.1 / future-RL-2-1

More Decks by ysekky

Other Decks in Research

Featured

Transcript