Slide 34
Slide 34 text
方策オフ型のLSTD法
● 方策オフ型
○ ある方策πを評価改善しようとしている時に、別の方策 π’を使って改善する方法
● 内側の期待値は一致するが外側の期待値は一致しない
○ C_PBのMの変更と解釈できる
● 重点重みを恒等式を用いることで省いて計算できるが、重点重みを含めたほうがロ
バスト性が高まる
○ 報酬とパラメータの相関が強く、それぞれの分散が大きい場合に精度が下がる
● GTD2, TDC, iLSTDなどでもρを用いることで、方策オフ型の学習ができる
重点重みρを用いて変換 =>