Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Model Based Reinforcement Learning

Model Based Reinforcement Learning

Kandai Watanabe

May 18, 2019
Tweet

Other Decks in Research

Transcript

  1. ⾼橋研 Model Based RL勉強会 GPIRL / IOC / MaxEnt 第3回

    2019/05/18 GitHub: https://github.com/watakandhi Qiita: https://qiita.com/watakandhi Twitter: https://twitter.com/watakandhi
  2. 本⽇のおしながき Sergey Levineらの論⽂3つ (上2つはSergeyがFirst Author) • Nonlinear Inverse Reinforcement Learning

    with Gaussian Processes, NIPS, 2011 → MaxEntモデルを⾮線形・連続なものに対応させたよ • Continuous Inverse Optimal Control with Locally Optimal Examples, ICML, 2012 → MaxEntモデルをよりscalable(広い連続領域)にしたよ → 直接近似とLQRの両⽅の枠組みで共通の式を導出したよ • Inverse Optimal Control for Humanoid Locomotion, RSS, 2013 → ⾼次元なものに対しても⼯夫するだけで応⽤できるよ → しかも未知環境においても⼈らしい歩⾏を実現できるよ なーんだ、同じ⼿法で3つ出したんか・・・ ではなく、それぞれすごい・・・・・
  3. モデルベースRLといっても Model Based Reinforcement Learning for Atari 環境のモデル化を学習 GPIRL /

    IOC / MaxEnt 軌跡から報酬(コスト関数)を学習 ⾊々ある! PILCO ダイナミクスのモデルを学習
  4. GPIRLの概要(アルゴリズム) • ⼀⾔でいうと • Expertの軌跡から最適⽅策を学習 • 既存のMaxEnt学習⽅法を⾮線形にも対応させた • すごいこと •

    近似解を線形の計算量で解いたこと • 線形・⾮線形なモデルに対しても対応可能 • 離散・連続系にも対応可能
  5. Expertの⽅策となるような報酬 を学習しよう • 強化学習の⽬的 • 割引報酬の合計の期待値を最⼤化する最適⽅策 を学習 • 逆強化学習 •

    Expert軌跡 を算出するような最適⽅策 を 算出する報酬 を学習 • パラメタライズされた報酬から得られたデータが 尤もらしくなるようなパラメータを最適化で決定する • MaxEntモデル 軌跡をとる確率 状態 ⾏動 軌跡 これの尤度を計算し、最適化するパラメータを探す
  6. MaxEnt Modelの導出 • エントロピーの最⼤化 • 少ない軌跡から尤もらしい報酬を学習 • ラグランジュ関数 • としたときに

    線形の特徴量 / expertに⼀致 ここで 特徴 Expert特徴 0 ~ 1の確率 取るべき⾏動は報酬のexpに⽐例する エントロピー 微分可能!! s.t. Expertと特徴が⼀致するような制約
  7. MaxEnt / GPIRL • MaxEntモデルにおける⽬的 • Expertのような軌跡を通る⽅策πを導出する報酬 r をデー タから獲得すること

    • 報酬の近似 • MaxEnt: • FIRL: • GPIRL: • NN: 状態⾏動空間全てにおける報酬を獲得するのは難しい ので、どうにかして近似解を求める θはパラメータ φは⾮線形関数 ← ガウス過程の平均関数の出⼒ 線形で表せない特徴量には向いていない → ⾮線形にも対応できるようにしよう
  8. GPIRL導出 • MaxEntより • ⾏動価値関数 & ソフトな価値関数 • 軌跡に対する尤度 つまり、訪れた場所しか確率として算出しない

    → 新しい場所に対応できない → 周辺の近似が必要 と仮定すると ソフトを仮定すると
  9. GPIRL導出 ガウス過程(GP)で⾮線形報酬関数を近似しよう ガウス過程のイメージ データDと特徴量Xuから 尤もらしい報酬uと パラメータθを推定 特徴量Xu のみから推定 さっきの式 Q・V分かればOK

    Kernelから算出可能 GPのパラメータを学習しつつ報酬を学習(ベイズ推定) 状態量x全てにおいてrを算出するのはO(N3)で計算時間が爆発するので 少ない代表点だけで近似しましょう(Sparse Gaussian Process Approximations) ここでuは報酬rの推定値 ≠ ⼊⼒u 特徴量
  10. 全てのrについて積分すること は不可能 Value Iteration で得られる GPの事前分布 • uの平均で近似しよう GPの事前確率分布 IRLの尤度

    の元、Value IterationしてQとVの差分から算出可能 Kernelから算出可能 近似した結果 GPを線形で計算できるで
  11. 結果 - サンプルが増えるほど 精度は良くなっている - GPIRLはExpert軌跡が準最 適⽅策によるものを仮定 (MaxEnt)&⾮線形関数 を表せているため他の⼿ 法より精度がよい

    - ⾊(次元)が増えると精 度が下がる → GPの汎化性が下がる?? → 広い連続空間には適⽤ できない⼿法では?
  12. Continuous Inverse Optimal Control with Locally Optimal Examples • GPIRL

    • 動的モデル はない • GPで付近を近似 • IOC • 報酬rを時系列に沿って 算出 • 軌跡→動的モデル作成 →報酬の勾配とヘシアン →尤度関数 →パラメータ獲得 特徴量 Xu 報酬 u カーネル関数を通して付近の 平均を近似 Goal 動的モデル At, Bt 空間
  13. LQR による導出 ⽬的: を導出したい • 偏差系にする • 線形モデルを仮定 • 報酬をxt,

    ut周りでテーラー展開 • LQRより価値関数Vは2次の項と1次の項で表せる • そして LQRでは状態の項が⼊ってくる MaxEntモデルによると! この2つがわかればよい Vtをどうにかして表したい
  14. Inverse Optimal Control for Humanoid Locomotion • 学習した報酬をどう使うかの紹介論⽂ • LQRベースで学習した報酬は最適⼊⼒が決まる

    • じゃあ特徴量は何使えばよい? • Torque Minimization & Joint Angle Regularization • Root Position and Velocity
  15. 本・論⽂・著者 Rasmussen (PILCOもこの⼈) - GPの使い⼿。モデルベース強化学習の代表格 • Gaussian process dynamic programming

    • Gaussian processes in reinforcement learning • Gaussian Processes for Machine Learning • Ziebart & Bagnell • Modeling Purposeful Adaptive Behavior with the Principle ofMaximum Causal Entropy, Ph.D. Thesis • これにMaxEntやIOCの基礎となる理論の導出が載っている