a))] + E[log(1 − D(s, a))] − λH(π) GAN のアナロジー、 収束性など GAN の議論が使える D(s, a) ∈ (0, 1): (s, a)‑p air がエキスパー トから生成された確率 でDはエキスパー トのサンプルか否かを学習する ポリシーπは軌道がエキスパー トに似るように学習 GAN における G ener at or はoccup ancy measur e lρに対応 ポリシーπはパラメー タθをもつニュー ラルネットワー クπ (s, a) で表現 ポリシー の更新は TRPO (s chu lman 2015)で勾配を計算しθを更新 D is cr iminat orDはパラメー タwをもつニュー ラルネットワー クD ψ の勾配からwを更新 π, Dを交互に更新する(GAN とおなじ) π D π θ w ∗