論文紹介 Generative Adversarial Imitation Learning

G enerative A dversarial I mitation L earning J onathan
H o(O pen AI ) and S tefano E rmon(S tanford U niversity) エキスパートの行動データからコスト関数を推定せずに直接ポリシーを学習する一般的な徒弟学習のフレームワークを提案既存の徒弟学習も含まれるこのフレームワークの1つのアルゴリズムとして G ener at iv e adv ers ar ial netw or k(GAN )的な最適化関数をもつ模倣学習の手法を提案大規模系に適用可で複雑なポリシーを表現可能既存の模倣学習手法より少ないデータでポリシーを獲得紹介者: 大浦健志@_takoika

N otation S: 状態sの集合 A: 行動aの集合 Π: ポリシーπの集合 C =
{c : S × A ↦ R}: コスト関数cの集合 H(π) = E[π(a∣s)] =E [ π(a ∣s )]: ポリシーπの軌道に対する割引き重みつきエントロピー ψ : R ↦ R: コスト関数の正則化凸関数 γ: 割引率本論文では報酬関数ではなくコスト関数を最小化する問題として扱う π ∑ t t t S×A

M ot iv at ion 強化学習で目的を達成するエージェントを作成したい行動に対して良し悪しは判るが報酬関数の設計が難しい模倣学習(I mit
at ion lear ing): エキスパートの行動データから学習 B ehav iour cloning: 教師あり学習で状態から行動を学習逆強化学習(I nv ers e r einfr ocement lear ning): 報酬関数を推定徒弟学習(A ppr ent ices hip lear ning): 最適ポリシーを直接学習するアルゴリズム

B ehaviour cloning エキスパートの行動列(s , a , s ,
a , ..., s , a ) 入力s に対して行動a を予測するモデルを教師あり学習で構築問題点 1ステップごとの学習なのでエラーが蓄積する目的に応じての意思決定ができない 0 0 1 1 t t t t

逆強化学習典型的なスキーム 1. エキスパートのポリシーπ に従った軌道(s , a ,
s , .., s , a ) 2. => IRL でコスト関数推定 3. => 推定したコスト関数の下で与えられた軌道は正しいかチェック学習のスキーム 1. コスト関数推定(更新) 2. 強化学習でポリシーを学習 3. エキスパートと比較(以下ループ) 問題点直接ポリシーを求めたいループでごとに毎回強化学習をするのは大変強化学習の収束性 E 0 0 1 t t

定式化強化学習: 与えられたコスト関数cに対して総コストを最小化する最適ポリシーを返す RL(c) = argmin − H(π)
+E [c(s, a)] エントロピー正則化の下でコスト最小化するπ 逆強化学習: 与えられたエキスパートのポリシーπ に対してコスト関数を返す IRL(π ) = argmax (−ψ(c) + (min − H(π) +E [c(s, a)]) −E [c(s, a)]) 正則化関数ψの下でエキスパートのポリシーの下での期待コストとそれ以外のポリシーでの期待コストの差を最大化 (エキスパートは最も適切な行動をするはずなのでエキスパートの期待コスト最小化) π∈Π π E E ψ c∈C π∈Π π πE

IRL →RL の特徴付け求めたいポリシー： IRL で求めたコスト関数を RL に入れて求めたポリシー本論文の理論的結論
ψ正則化の IRL はψ の下でoccup ancy measur eをエキスパートと一致させるポリシーを探す問題とみなせる RL ∘ IRL (π ) = argmin − H(π) + ψ (ρ − ρ ) ψ : 正則化関数ψの凸共役 ψ (x) = sup x y − ψ(y) ρ: ポリシーπの下でのoccup ancy measur e ρ (s, a) = π(s, a) γ P(s = s∣π): πの下での(s, a)‑p air の確率分布ループ内の強化学習がない最適化問題 ∗ ψ E π∈Π ∗ π πE ∗ ∗ y∈RR×A T π ∑ t t t

ψによる特徴付け RL ∘ IRL (π ) = argmin − H(π)
+ ψ (ρ − ρ ) ψ(c) = const.: ρ = ρ となり有限のサンプルから確率分布全体は学習できない ψ(c) = {f (s, a)}: (s, a)によって決定される素性学習によって決定されるのは{w } 素性に対して線形なコスト関数既存の徒弟学習 (A beel2004, S y ed 2007, S y ed 2008) ψ E π∈Π ∗ π πE π πE { 0 ∞ if c ∈ { w f (s, a)} ∑ i i else i i

G enerative adversarial imitation learning 既存研究の線形なコスト関数では: hand‑cr aft edでよい素性を探す必要がある単純なコスト関数なので単純なポリシー
しか表現できない → より記述力のあるモデルで学習したい提案する正則化関数 ψ = 至る所負の任意のコスト関数を表現可能対応する双対問題(実際に最適化する関数) ψ (ρ − ρ ) = max E [log(D(s, a))] +E [log(1 − D(d, a))] GA { E [g(c(s, a))] πE +∞ if c < 0 otherwise { −x − log(1 − e ) x +∞ if x < 0 otherwise GA ∗ π πE D π πE

G enerative adversarial imitation learning(GAIL ) min max E [log(D(s,
a))] + E[log(1 − D(s, a))] − λH(π) GAN のアナロジー、収束性など GAN の議論が使える D(s, a) ∈ (0, 1): (s, a)‑p air がエキスパートから生成された確率でDはエキスパートのサンプルか否かを学習するポリシーπは軌道がエキスパートに似るように学習 GAN における G ener at or はoccup ancy measur e lρに対応ポリシーπはパラメータθをもつニューラルネットワークπ (s, a) で表現ポリシーの更新は TRPO (s chu lman 2015)で勾配を計算しθを更新 D is cr iminat orDはパラメータwをもつニューラルネットワークD ψ の勾配からwを更新 π, Dを交互に更新する(GAN とおなじ) π D π θ w ∗

学習アルゴリズム

結果 9つのタスクで他手法とサンプルサイズごとの性能評価 S cor e 1.0がエキスパート 8つのタスクに関し GAIL が他手法より優れる
特に小サンプルにおいて顕著 R eacher に限ればbehav ior al cloningが優れる

まとめ RL ∘ IRLの一般形をψ正則化のもとでのoccup acy mat chingの下でのポリシー探索と定式化既存の徒弟学習はその特別な場合
正則化関数ψ の提案 ψ のもとでの GAN ライクなアルゴリズム提案モデルフリー関数近似、勾配法による学習で大規模系に対応化非線形コスト関数を表現既存手法より効率的小サンプルで学習可 GA GA

参考 S t efano E r monによるセミナーの動画 https://www.y outu
be.com/w at ch?v=bcn C o9R x h B 8 おしらせ https://git hu b.com/ar XivT imes/ar XivT imes git hu b上で機械学習関連論文の調査を共有するためのリポジトリを運用してます。興味のある方はご覧になって下さい

論文紹介 Generative Adversarial Imitation Learning

論文紹介 Generative Adversarial Imitation Learning

takoika

More Decks by takoika

Other Decks in Science

Featured

Transcript

G enerative A dversarial I mitation L earning J onathan

N otation S: 状態sの集合 A: 行動aの集合 Π: ポリシーπの集合 C =

M ot iv at ion 強化学習で目的を達成するエージェントを作成したい行動に対して良し悪しは判るが報酬関数の設計が難しい模倣学習(I mit

B ehaviour cloning エキスパートの行動列(s , a , s ,

逆強化学習典型的なスキーム 1. エキスパートのポリシーπ に従った軌道(s , a ,

定式化強化学習: 与えられたコスト関数cに対して総コストを最小化する最適ポリシーを返す RL(c) = argmin − H(π)

IRL →RL の特徴付け求めたいポリシー： IRL で求めたコスト関数を RL に入れて求めたポリシー本論文の理論的結論

ψによる特徴付け RL ∘ IRL (π ) = argmin − H(π)

G enerative adversarial imitation learning 既存研究の線形なコスト関数では: hand‑cr aft edでよい素性を探す必要がある単純なコスト関数なので単純なポリシー

G enerative adversarial imitation learning(GAIL ) min max E [log(D(s,

学習アルゴリズム

結果 9つのタスクで他手法とサンプルサイズごとの性能評価 S cor e 1.0がエキスパート 8つのタスクに関し GAIL が他手法より優れる

まとめ RL ∘ IRLの一般形をψ正則化のもとでのoccup acy mat chingの下でのポリシー探索と定式化既存の徒弟学習はその特別な場合

参考 S t efano E r monによるセミナーの動画 https://www.y outu