Slide 10
Slide 10 text
G
enerative adversarial imitation
learning(GAIL
)
min max E [log(D(s, a))] + E[log(1 − D(s, a))] − λH(π)
GAN
のアナロジー、
収束性など
GAN
の議論が使える
D(s, a) ∈ (0, 1): (s, a)‑p
air
がエキスパー
トから生成された確率
でDはエキスパー
トのサンプルか否かを学習する
ポリシーπは軌道がエキスパー
トに似るように学習
GAN
における
G
ener
at
or
はoccup
ancy
measur
e lρに対応
ポリシーπはパラメー
タθをもつニュー
ラルネットワー
クπ (s, a)
で表現
ポリシー
の更新は
TRPO
(s
chu
lman 2015)で勾配を計算しθを更新
D
is
cr
iminat
orDはパラメー
タwをもつニュー
ラルネットワー
クD
ψ の勾配からwを更新
π, Dを交互に更新する(GAN
とおなじ)
π D π
θ
w
∗