Model Based Reinforcement Learning

Slide 1

Slide 1 text

⾼橋研 Model Based RL勉強会 GPIRL / IOC / MaxEnt 第３回 2019/05/18 GitHub: https://github.com/watakandhi Qiita: https://qiita.com/watakandhi Twitter: https://twitter.com/watakandhi

Slide 2

Slide 2 text

本⽇のおしながき Sergey Levineらの論⽂３つ（上２つはSergeyがFirst Author） • Nonlinear Inverse Reinforcement Learning with Gaussian Processes, NIPS, 2011 → MaxEntモデルを⾮線形・連続なものに対応させたよ • Continuous Inverse Optimal Control with Locally Optimal Examples, ICML, 2012 → MaxEntモデルをよりscalable（広い連続領域）にしたよ → 直接近似とLQRの両⽅の枠組みで共通の式を導出したよ • Inverse Optimal Control for Humanoid Locomotion, RSS, 2013 → ⾼次元なものに対しても⼯夫するだけで応⽤できるよ → しかも未知環境においても⼈らしい歩⾏を実現できるよなーんだ、同じ⼿法で３つ出したんか・・・ではなく、それぞれすごい・・・・・

Slide 3

Slide 3 text

勉強会の⽬的 • 「最適制御」と「強化学習」の組み合わせ制御⼯学 CS・機械学習機械学習・ RL 確率・統計最適化制御⼯学最適制御モデルベースRL Computer Science ここを⽬指す

Slide 4

Slide 4 text

モデルベースRLといっても Model Based Reinforcement Learning for Atari 環境のモデル化を学習 GPIRL / IOC / MaxEnt 軌跡から報酬（コスト関数）を学習⾊々ある！ PILCO ダイナミクスのモデルを学習

Slide 5

Slide 5 text

GPIRLの概要（アルゴリズム） • ⼀⾔でいうと • Expertの軌跡から最適⽅策を学習 • 既存のMaxEnt学習⽅法を⾮線形にも対応させた • すごいこと • 近似解を線形の計算量で解いたこと • 線形・⾮線形なモデルに対しても対応可能 • 離散・連続系にも対応可能

Slide 6

Slide 6 text

そもそもRLは無駄が多い・・

Slide 7

Slide 7 text

⼈から最適⽅策πを学習しよう • このまま学習すると同じ動きしかできない・・ • 新しい場⾯に対応できない

Slide 8

Slide 8 text

Expertの⽅策となるような報酬を学習しよう • 強化学習の⽬的 • 割引報酬の合計の期待値を最⼤化する最適⽅策を学習 • 逆強化学習 • Expert軌跡を算出するような最適⽅策を算出する報酬を学習 • パラメタライズされた報酬から得られたデータが尤もらしくなるようなパラメータを最適化で決定する • MaxEntモデル軌跡をとる確率状態⾏動軌跡これの尤度を計算し、最適化するパラメータを探す

Slide 9

Slide 9 text

MaxEntが何しているか start end 本来であればデータがある所のみ報酬が⼤きくなる • 報酬関数が偏る • 新しい環境に対応できない訪れていない所も⼀様にするためにエントロピー（不規則性）を最⼤化する軌跡軌跡を取る確率＊イメージ

Slide 10

Slide 10 text

MaxEnt Modelの導出 • エントロピーの最⼤化 • 少ない軌跡から尤もらしい報酬を学習 • ラグランジュ関数 • としたときに線形の特徴量 / expertに⼀致ここで特徴 Expert特徴 0 ~ 1の確率取るべき⾏動は報酬のexpに⽐例するエントロピー微分可能！！ s.t. Expertと特徴が⼀致するような制約

Slide 11

Slide 11 text

とおくと定数をより定数よってと決まる。と求まる。

Slide 12

Slide 12 text

MaxEnt / GPIRL • MaxEntモデルにおける⽬的 • Expertのような軌跡を通る⽅策πを導出する報酬 r をデータから獲得すること • 報酬の近似 • MaxEnt: • FIRL: • GPIRL: • NN: 状態⾏動空間全てにおける報酬を獲得するのは難しいので、どうにかして近似解を求める θはパラメータ φは⾮線形関数 ← ガウス過程の平均関数の出⼒線形で表せない特徴量には向いていない → ⾮線形にも対応できるようにしよう

Slide 13

Slide 13 text

報酬の⽐較こうした⾮線形な領域も復元できるようにする

Slide 14

Slide 14 text

GPIRL導出 • MaxEntより • ⾏動価値関数 & ソフトな価値関数 • 軌跡に対する尤度つまり、訪れた場所しか確率として算出しない → 新しい場所に対応できない → 周辺の近似が必要と仮定するとソフトを仮定すると

Slide 15

Slide 15 text

GPIRL導出ガウス過程(GP)で⾮線形報酬関数を近似しようガウス過程のイメージデータDと特徴量Xuから尤もらしい報酬uとパラメータθを推定特徴量Xu のみから推定さっきの式 Q・V分かればOK Kernelから算出可能 GPのパラメータを学習しつつ報酬を学習（ベイズ推定）状態量x全てにおいてrを算出するのはO(N3)で計算時間が爆発するので少ない代表点だけで近似しましょう（Sparse Gaussian Process Approximations）ここでuは報酬rの推定値 ≠ ⼊⼒u 特徴量

Slide 16

Slide 16 text

全てのrについて積分することは不可能 Value Iteration で得られる GPの事前分布 • uの平均で近似しよう GPの事前確率分布 IRLの尤度の元、Value IterationしてQとVの差分から算出可能 Kernelから算出可能近似した結果 GPを線形で計算できるで

Slide 17

Slide 17 text

結果 - サンプルが増えるほど精度は良くなっている - GPIRLはExpert軌跡が準最適⽅策によるものを仮定（MaxEnt）＆⾮線形関数を表せているため他の⼿法より精度がよい - ⾊（次元）が増えると精度が下がる → GPの汎化性が下がる？？ → 広い連続空間には適⽤できない⼿法では？

Slide 18

Slide 18 text

Continuous Inverse Optimal Control with Locally Optimal Examples • GPIRL • 動的モデルはない • GPで付近を近似 • IOC • 報酬rを時系列に沿って算出 • 軌跡→動的モデル作成 →報酬の勾配とヘシアン →尤度関数 →パラメータ獲得特徴量 Xu 報酬 u カーネル関数を通して付近の平均を近似 Goal 動的モデル At, Bt 空間

Slide 19

Slide 19 text

ここから状態s=x, ⾏動a=u

Slide 20

Slide 20 text

導出 • 軌跡を選ぶ確率（＝⽅策） • 報酬rを軌跡（時系列）にそってテイラー展開 r(a) g 報酬は⾏動aにしか依存しないことを仮定しているなぜか？それは動的モデルがある前提をしているため、⾏動が分かればはわかる。つまり報酬関数はのみの関数としてみなせる。付近の報酬のみを使って正規化

Slide 21

Slide 21 text

導出 • みんな⼤好きテイラー展開！ • に代⼊すると • Logとってこれを最適化する線形近似した付近でuを取る確率 uを取る尤もらしさ

Slide 22

Slide 22 text

⾏列の平⽅完成ガウス積分の公式より

Slide 23

Slide 23 text

gとHの算出 • 後はAppendix⾒て頑張ってください・・・・ • T時間に線形で計算できるこれが直接MaxEntにぶっこんだ導出⽅法

Slide 24

Slide 24 text

Break

Slide 25

Slide 25 text

LQR による導出⽬的：を導出したい • 偏差系にする • 線形モデルを仮定 • 報酬をxt, ut周りでテーラー展開 • LQRより価値関数Vは２次の項と1次の項で表せる • そして LQRでは状態の項が⼊ってくる MaxEntモデルによると！この２つがわかればよい Vtをどうにかして表したい

Slide 26

Slide 26 text

LQRおさらい • ⽬的 • 時刻tでのコスト関数とモデル • コストを微分して、=０にすると • みんなの⼤好きLQR

Slide 27

Slide 27 text

LQRおさらい • に最適⼊⼒を代⼊すると • まとめるとこれをT-1ステップでも同じことやると、その時刻の状態のみに依存した価値関数が表せる

Slide 28

Slide 28 text

戻って • さきほどのにそれぞれ代⼊する • ソフトな価値関数はと表せるので代⼊するモデル代⼊

Slide 29

Slide 29 text

導出 • 確率Pに代⼊ • 尤度関数は • ごりごり直接計算したものと同じさらにここからが⾯⽩い・・・・

Slide 30

Slide 30 text

Inverse Optimal Control for Humanoid Locomotion LQRベース尤度関数 iLQRの式による書き換え⼀致する。LQRベースで解いているからそうなんだけど、 MaxEntモデルを直接解いた場合とも⼀致するということは・・・・・

Slide 31

Slide 31 text

MaxEntとiLQR • iLQRで最適化した⾏動価値関数（コスト関数）はMaxEntモデルで最適化した価値関数と等価 • 軌跡の確率（＝⽅策） • ソフトは価値関数（そうなるようにソフトと仮定しているものの）ここで渡邊の興味は終わりました。

Slide 32

Slide 32 text

⼀応実験結果のせとくローカル最適化のサンプルでも学習できる逆に⾔うとグローバル最適化にスケールできない⾮線形なrewardも学習できたよ⾃由度が増加しても⼤丈夫！！！計算時間は増えるけど exponentialではない Continuous Inverse Optimal Control with Locally Optimal Examples

Slide 33

Slide 33 text

Inverse Optimal Control for Humanoid Locomotion • 学習した報酬をどう使うかの紹介論⽂ • LQRベースで学習した報酬は最適⼊⼒が決まる • じゃあ特徴量は何使えばよい？ • Torque Minimization & Joint Angle Regularization • Root Position and Velocity

Slide 34

Slide 34 text

地⾯変わっても⾃然の歩⾏できたでー

Slide 35

Slide 35 text

本・論⽂・著者 Rasmussen (PILCOもこの⼈) - GPの使い⼿。モデルベース強化学習の代表格 • Gaussian process dynamic programming • Gaussian processes in reinforcement learning • Gaussian Processes for Machine Learning • Ziebart & Bagnell • Modeling Purposeful Adaptive Behavior with the Principle ofMaximum Causal Entropy, Ph.D. Thesis • これにMaxEntやIOCの基礎となる理論の導出が載っている