Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介 Generative Adversarial Imitation Learning

takoika
January 21, 2017

論文紹介 Generative Adversarial Imitation Learning

takoika

January 21, 2017
Tweet

More Decks by takoika

Other Decks in Science

Transcript

  1. G enerative A dversarial I mitation L earning J onathan

    H o(O pen AI ) and S tefano E rmon(S tanford U niversity) エキスパー トの行動デー タからコスト関数を推定せずに直接ポリシ ー を学習する一般的な徒弟学習のフレー ムワー クを提案 既存の徒弟学習も含まれる このフレー ムワー クの1つのアルゴリズムとして G ener at iv e adv ers ar ial netw or k(GAN )的な最適化関数をもつ模倣学習の手法を 提案 大規模系に適用可で複雑なポリシー を表現可能 既存の模倣学習手法より少ないデー タでポリシー を獲得 紹介者: 大浦 健志@_takoika
  2. N otation S: 状態sの集合 A: 行動aの集合 Π: ポリシーπの集合 C =

    {c : S × A ↦ R}: コスト関数cの集合 H(π) = E[π(a∣s)] =E [ π(a ∣s )]: ポリシーπの軌道に対する割引き重みつきエントロピー ψ : R ↦ R: コスト関数の正則化凸関数 γ: 割引率 本論文では報酬関数ではなくコスト関数を最小化する問題として扱 う π ∑ t t t S×A
  3. M ot iv at ion 強化学習で目的を達成するエー ジェントを作成したい 行動に対して良し悪しは判るが報酬関数の設計が難しい 模倣学習(I mit

    at ion lear ing): エキスパー トの行動デー タから学習 B ehav iour cloning: 教師あり学習で状態から行動を学習 逆強化学習(I nv ers e r einfr ocement lear ning): 報酬関数を推定 徒弟学習(A ppr ent ices hip lear ning): 最適ポリシー を直接学習 するアルゴリズム
  4. B ehaviour cloning エキスパー トの行動列(s , a , s ,

    a , ..., s , a ) 入力s に対して行動a を予測するモデルを教師あり学習で構築 問題点 1ステップごとの学習なのでエラー が蓄積する 目的に応じての意思決定ができない 0 0 1 1 t t t t
  5. 逆強化学習 典型的なスキー ム 1. エキスパー トのポリシーπ に従った軌道(s , a ,

    s , .., s , a ) 2. => IRL でコスト関数推定 3. => 推定したコスト関数の下で与えられた軌道は正しいかチェック 学習のスキー ム 1. コスト関数推定(更新) 2. 強化学習でポリシー を学習 3. エキスパー トと比較(以下ルー プ) 問題点 直接ポリシー を求めたい ルー プでごとに毎回強化学習をするのは大変 強化学習の収束性 E 0 0 1 t t
  6. 定式化 強化学習: 与えられたコスト関数cに対して総コストを最小化する最 適ポリシー を返す RL(c) = argmin − H(π)

    +E [c(s, a)] エントロピー 正則化の下でコスト最小化するπ 逆強化学習: 与えられたエキスパー トのポリシーπ に対してコスト 関数を返す IRL(π ) = argmax (−ψ(c) + (min − H(π) +E [c(s, a)]) −E [c(s, a)]) 正則化関数ψの下でエキスパー トのポリシー の下での期待コストと それ以外のポリシー での期待コストの差を最大化 (エキスパー トは最も適切な行動をするはずなのでエキスパー トの期 待コスト最小化) π∈Π π E E ψ c∈C π∈Π π πE
  7. IRL →RL の特徴付け 求めたいポリシー: IRL で求めたコスト関数を RL に入れて求めたポ リシー 本論文の理論的結論

    ψ正則化の IRL はψ の下でoccup ancy measur eをエキスパー トと一致さ せるポリシー を探す問題とみなせる RL ∘ IRL (π ) = argmin − H(π) + ψ (ρ − ρ ) ψ : 正則化関数ψの凸共役 ψ (x) = sup x y − ψ(y) ρ: ポリシーπの下でのoccup ancy measur e ρ (s, a) = π(s, a) γ P(s = s∣π): πの下での(s, a)‑p air の確率分布 ルー プ内の強化学習がない最適化問題 ∗ ψ E π∈Π ∗ π πE ∗ ∗ y∈RR×A T π ∑ t t t
  8. ψによる特徴付け RL ∘ IRL (π ) = argmin − H(π)

    + ψ (ρ − ρ ) ψ(c) = const.: ρ = ρ となり有限のサンプルから確率分布全 体は学習できない ψ(c) = {f (s, a)}: (s, a)によって決定される素性 学習によって決定されるのは{w } 素性に対して線形なコスト関数 既存の徒弟学習 (A beel2004, S y ed 2007, S y ed 2008) ψ E π∈Π ∗ π πE π πE { 0 ∞ if c ∈ { w f (s, a)} ∑ i i else i i
  9. G enerative adversarial imitation learning 既存研究の線形なコスト関数では: hand‑cr aft edでよい素性を探す必要がある 単純なコスト関数なので単純なポリシー

    しか表現できない → より記述力のあるモデルで学習したい 提案する正則化関数 ψ = 至る所負の任意のコスト関数を表現可能 対応する双対問題(実際に最適化する関数) ψ (ρ − ρ ) = max E [log(D(s, a))] +E [log(1 − D(d, a))] GA { E [g(c(s, a))] πE +∞ if c < 0 otherwise { −x − log(1 − e ) x +∞ if x < 0 otherwise GA ∗ π πE D π πE
  10. G enerative adversarial imitation learning(GAIL ) min max E [log(D(s,

    a))] + E[log(1 − D(s, a))] − λH(π) GAN のアナロジー、 収束性など GAN の議論が使える D(s, a) ∈ (0, 1): (s, a)‑p air がエキスパー トから生成された確率 でDはエキスパー トのサンプルか否かを学習する ポリシーπは軌道がエキスパー トに似るように学習 GAN における G ener at or はoccup ancy measur e lρに対応 ポリシーπはパラメー タθをもつニュー ラルネットワー クπ (s, a) で表現 ポリシー の更新は TRPO (s chu lman 2015)で勾配を計算しθを更新 D is cr iminat orDはパラメー タwをもつニュー ラルネットワー クD ψ の勾配からwを更新 π, Dを交互に更新する(GAN とおなじ) π D π θ w ∗
  11. まとめ RL ∘ IRLの一般形をψ正則化のもとでのoccup acy mat chingの 下でのポリシー 探索と定式化 既存の徒弟学習はその特別な場合

    正則化関数ψ の提案 ψ のもとでの GAN ライクなアルゴリズム提案 モデルフリー 関数近似、 勾配法による学習で大規模系に対応化 非線形コスト関数を表現 既存手法より効率的小サンプルで学習可 GA GA
  12. 参考 S t efano E r monによるセミナー の動画 https://www.y outu

    be.com/w at ch?v=bcn C o9R x h B 8 おしらせ https://git hu b.com/ar XivT imes/ar XivT imes git hu b上で機械学習関連論文の調査を共有するためのリポジトリを運用 してます。 興味のある方はご覧になって下さい