Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Model Based Reinforcement Learning

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

Model Based Reinforcement Learning

Avatar for Kandai Watanabe

Kandai Watanabe

May 18, 2019
Tweet

Other Decks in Research

Transcript

  1. ⾼橋研 Model Based RL勉強会 GPIRL / IOC / MaxEnt 第3回

    2019/05/18 GitHub: https://github.com/watakandhi Qiita: https://qiita.com/watakandhi Twitter: https://twitter.com/watakandhi
  2. 本⽇のおしながき Sergey Levineらの論⽂3つ (上2つはSergeyがFirst Author) • Nonlinear Inverse Reinforcement Learning

    with Gaussian Processes, NIPS, 2011 → MaxEntモデルを⾮線形・連続なものに対応させたよ • Continuous Inverse Optimal Control with Locally Optimal Examples, ICML, 2012 → MaxEntモデルをよりscalable(広い連続領域)にしたよ → 直接近似とLQRの両⽅の枠組みで共通の式を導出したよ • Inverse Optimal Control for Humanoid Locomotion, RSS, 2013 → ⾼次元なものに対しても⼯夫するだけで応⽤できるよ → しかも未知環境においても⼈らしい歩⾏を実現できるよ なーんだ、同じ⼿法で3つ出したんか・・・ ではなく、それぞれすごい・・・・・
  3. モデルベースRLといっても Model Based Reinforcement Learning for Atari 環境のモデル化を学習 GPIRL /

    IOC / MaxEnt 軌跡から報酬(コスト関数)を学習 ⾊々ある! PILCO ダイナミクスのモデルを学習
  4. GPIRLの概要(アルゴリズム) • ⼀⾔でいうと • Expertの軌跡から最適⽅策を学習 • 既存のMaxEnt学習⽅法を⾮線形にも対応させた • すごいこと •

    近似解を線形の計算量で解いたこと • 線形・⾮線形なモデルに対しても対応可能 • 離散・連続系にも対応可能
  5. Expertの⽅策となるような報酬 を学習しよう • 強化学習の⽬的 • 割引報酬の合計の期待値を最⼤化する最適⽅策 を学習 • 逆強化学習 •

    Expert軌跡 を算出するような最適⽅策 を 算出する報酬 を学習 • パラメタライズされた報酬から得られたデータが 尤もらしくなるようなパラメータを最適化で決定する • MaxEntモデル 軌跡をとる確率 状態 ⾏動 軌跡 これの尤度を計算し、最適化するパラメータを探す
  6. MaxEnt Modelの導出 • エントロピーの最⼤化 • 少ない軌跡から尤もらしい報酬を学習 • ラグランジュ関数 • としたときに

    線形の特徴量 / expertに⼀致 ここで 特徴 Expert特徴 0 ~ 1の確率 取るべき⾏動は報酬のexpに⽐例する エントロピー 微分可能!! s.t. Expertと特徴が⼀致するような制約
  7. MaxEnt / GPIRL • MaxEntモデルにおける⽬的 • Expertのような軌跡を通る⽅策πを導出する報酬 r をデー タから獲得すること

    • 報酬の近似 • MaxEnt: • FIRL: • GPIRL: • NN: 状態⾏動空間全てにおける報酬を獲得するのは難しい ので、どうにかして近似解を求める θはパラメータ φは⾮線形関数 ← ガウス過程の平均関数の出⼒ 線形で表せない特徴量には向いていない → ⾮線形にも対応できるようにしよう
  8. GPIRL導出 • MaxEntより • ⾏動価値関数 & ソフトな価値関数 • 軌跡に対する尤度 つまり、訪れた場所しか確率として算出しない

    → 新しい場所に対応できない → 周辺の近似が必要 と仮定すると ソフトを仮定すると
  9. GPIRL導出 ガウス過程(GP)で⾮線形報酬関数を近似しよう ガウス過程のイメージ データDと特徴量Xuから 尤もらしい報酬uと パラメータθを推定 特徴量Xu のみから推定 さっきの式 Q・V分かればOK

    Kernelから算出可能 GPのパラメータを学習しつつ報酬を学習(ベイズ推定) 状態量x全てにおいてrを算出するのはO(N3)で計算時間が爆発するので 少ない代表点だけで近似しましょう(Sparse Gaussian Process Approximations) ここでuは報酬rの推定値 ≠ ⼊⼒u 特徴量
  10. 全てのrについて積分すること は不可能 Value Iteration で得られる GPの事前分布 • uの平均で近似しよう GPの事前確率分布 IRLの尤度

    の元、Value IterationしてQとVの差分から算出可能 Kernelから算出可能 近似した結果 GPを線形で計算できるで
  11. 結果 - サンプルが増えるほど 精度は良くなっている - GPIRLはExpert軌跡が準最 適⽅策によるものを仮定 (MaxEnt)&⾮線形関数 を表せているため他の⼿ 法より精度がよい

    - ⾊(次元)が増えると精 度が下がる → GPの汎化性が下がる?? → 広い連続空間には適⽤ できない⼿法では?
  12. Continuous Inverse Optimal Control with Locally Optimal Examples • GPIRL

    • 動的モデル はない • GPで付近を近似 • IOC • 報酬rを時系列に沿って 算出 • 軌跡→動的モデル作成 →報酬の勾配とヘシアン →尤度関数 →パラメータ獲得 特徴量 Xu 報酬 u カーネル関数を通して付近の 平均を近似 Goal 動的モデル At, Bt 空間
  13. LQR による導出 ⽬的: を導出したい • 偏差系にする • 線形モデルを仮定 • 報酬をxt,

    ut周りでテーラー展開 • LQRより価値関数Vは2次の項と1次の項で表せる • そして LQRでは状態の項が⼊ってくる MaxEntモデルによると! この2つがわかればよい Vtをどうにかして表したい
  14. Inverse Optimal Control for Humanoid Locomotion • 学習した報酬をどう使うかの紹介論⽂ • LQRベースで学習した報酬は最適⼊⼒が決まる

    • じゃあ特徴量は何使えばよい? • Torque Minimization & Joint Angle Regularization • Root Position and Velocity
  15. 本・論⽂・著者 Rasmussen (PILCOもこの⼈) - GPの使い⼿。モデルベース強化学習の代表格 • Gaussian process dynamic programming

    • Gaussian processes in reinforcement learning • Gaussian Processes for Machine Learning • Ziebart & Bagnell • Modeling Purposeful Adaptive Behavior with the Principle ofMaximum Causal Entropy, Ph.D. Thesis • これにMaxEntやIOCの基礎となる理論の導出が載っている