Model Based Reinforcement Learning

⾼橋研 Model Based RL勉強会 GPIRL / IOC / MaxEnt 第３回
2019/05/18 GitHub: https://github.com/watakandhi Qiita: https://qiita.com/watakandhi Twitter: https://twitter.com/watakandhi

本⽇のおしながき Sergey Levineらの論⽂３つ（上２つはSergeyがFirst Author） • Nonlinear Inverse Reinforcement Learning
with Gaussian Processes, NIPS, 2011 → MaxEntモデルを⾮線形・連続なものに対応させたよ • Continuous Inverse Optimal Control with Locally Optimal Examples, ICML, 2012 → MaxEntモデルをよりscalable（広い連続領域）にしたよ → 直接近似とLQRの両⽅の枠組みで共通の式を導出したよ • Inverse Optimal Control for Humanoid Locomotion, RSS, 2013 → ⾼次元なものに対しても⼯夫するだけで応⽤できるよ → しかも未知環境においても⼈らしい歩⾏を実現できるよなーんだ、同じ⼿法で３つ出したんか・・・ではなく、それぞれすごい・・・・・

勉強会の⽬的 • 「最適制御」と「強化学習」の組み合わせ制御⼯学 CS・機械学習機械学習・ RL 確率・統計最適化
制御⼯学最適制御モデルベースRL Computer Science ここを⽬指す

モデルベースRLといっても Model Based Reinforcement Learning for Atari 環境のモデル化を学習 GPIRL /
IOC / MaxEnt 軌跡から報酬（コスト関数）を学習⾊々ある！ PILCO ダイナミクスのモデルを学習

GPIRLの概要（アルゴリズム） • ⼀⾔でいうと • Expertの軌跡から最適⽅策を学習 • 既存のMaxEnt学習⽅法を⾮線形にも対応させた • すごいこと •
近似解を線形の計算量で解いたこと • 線形・⾮線形なモデルに対しても対応可能 • 離散・連続系にも対応可能

そもそもRLは無駄が多い・・

⼈から最適⽅策πを学習しよう • このまま学習すると同じ動きしかできない・・ • 新しい場⾯に対応できない

Expertの⽅策となるような報酬を学習しよう • 強化学習の⽬的 • 割引報酬の合計の期待値を最⼤化する最適⽅策を学習 • 逆強化学習 •
Expert軌跡を算出するような最適⽅策を算出する報酬を学習 • パラメタライズされた報酬から得られたデータが尤もらしくなるようなパラメータを最適化で決定する • MaxEntモデル軌跡をとる確率状態⾏動軌跡これの尤度を計算し、最適化するパラメータを探す

MaxEntが何しているか start end 本来であればデータがある所のみ報酬が⼤きくなる • 報酬関数が偏る • 新しい環境に対応できない訪れていない所も⼀様にするためにエントロピー（不規則性）を最⼤化する軌跡
軌跡を取る確率＊イメージ

MaxEnt Modelの導出 • エントロピーの最⼤化 • 少ない軌跡から尤もらしい報酬を学習 • ラグランジュ関数 • としたときに
線形の特徴量 / expertに⼀致ここで特徴 Expert特徴 0 ~ 1の確率取るべき⾏動は報酬のexpに⽐例するエントロピー微分可能！！ s.t. Expertと特徴が⼀致するような制約

とおくと定数をより定数よってと決まる。と求まる。

MaxEnt / GPIRL • MaxEntモデルにおける⽬的 • Expertのような軌跡を通る⽅策πを導出する報酬 r をデータから獲得すること
• 報酬の近似 • MaxEnt: • FIRL: • GPIRL: • NN: 状態⾏動空間全てにおける報酬を獲得するのは難しいので、どうにかして近似解を求める θはパラメータ φは⾮線形関数 ← ガウス過程の平均関数の出⼒線形で表せない特徴量には向いていない → ⾮線形にも対応できるようにしよう

報酬の⽐較こうした⾮線形な領域も復元できるようにする

GPIRL導出 • MaxEntより • ⾏動価値関数 & ソフトな価値関数 • 軌跡に対する尤度つまり、訪れた場所しか確率として算出しない
→ 新しい場所に対応できない → 周辺の近似が必要と仮定するとソフトを仮定すると

GPIRL導出ガウス過程(GP)で⾮線形報酬関数を近似しようガウス過程のイメージデータDと特徴量Xuから尤もらしい報酬uとパラメータθを推定特徴量Xu のみから推定さっきの式 Q・V分かればOK
Kernelから算出可能 GPのパラメータを学習しつつ報酬を学習（ベイズ推定）状態量x全てにおいてrを算出するのはO(N3)で計算時間が爆発するので少ない代表点だけで近似しましょう（Sparse Gaussian Process Approximations）ここでuは報酬rの推定値 ≠ ⼊⼒u 特徴量

全てのrについて積分することは不可能 Value Iteration で得られる GPの事前分布 • uの平均で近似しよう GPの事前確率分布 IRLの尤度
の元、Value IterationしてQとVの差分から算出可能 Kernelから算出可能近似した結果 GPを線形で計算できるで

結果 - サンプルが増えるほど精度は良くなっている - GPIRLはExpert軌跡が準最適⽅策によるものを仮定（MaxEnt）＆⾮線形関数を表せているため他の⼿法より精度がよい
- ⾊（次元）が増えると精度が下がる → GPの汎化性が下がる？？ → 広い連続空間には適⽤できない⼿法では？

Continuous Inverse Optimal Control with Locally Optimal Examples • GPIRL
• 動的モデルはない • GPで付近を近似 • IOC • 報酬rを時系列に沿って算出 • 軌跡→動的モデル作成 →報酬の勾配とヘシアン →尤度関数 →パラメータ獲得特徴量 Xu 報酬 u カーネル関数を通して付近の平均を近似 Goal 動的モデル At, Bt 空間

ここから状態s=x, ⾏動a=u

導出 • 軌跡を選ぶ確率（＝⽅策） • 報酬rを軌跡（時系列）にそってテイラー展開 r(a) g 報酬は⾏動aにしか依存しないことを仮定しているなぜか？それは動的モデルがある前提をしているため、⾏動
が分かればはわかる。つまり報酬関数はのみの関数としてみなせる。付近の報酬のみを使って正規化

導出 • みんな⼤好きテイラー展開！ • に代⼊すると • Logとってこれを最適化する線形近似した付近でuを取る確率 uを取る尤もらしさ

⾏列の平⽅完成ガウス積分の公式より

gとHの算出 • 後はAppendix⾒て頑張ってください・・・・ • T時間に線形で計算できるこれが直接MaxEntにぶっこんだ導出⽅法

LQR による導出⽬的：を導出したい • 偏差系にする • 線形モデルを仮定 • 報酬をxt,
ut周りでテーラー展開 • LQRより価値関数Vは２次の項と1次の項で表せる • そして LQRでは状態の項が⼊ってくる MaxEntモデルによると！この２つがわかればよい Vtをどうにかして表したい

LQRおさらい • ⽬的 • 時刻tでのコスト関数とモデル • コストを微分して、=０にすると • みんなの⼤好きLQR

LQRおさらい • に最適⼊⼒を代⼊すると • まとめるとこれをT-1ステップでも同じことやると、その時刻の状態のみに依存した価値関数が表せる

戻って • さきほどのにそれぞれ代⼊する • ソフトな価値関数はと表せるので代⼊するモデル代⼊

導出 • 確率Pに代⼊ • 尤度関数は • ごりごり直接計算したものと同じさらにここからが⾯⽩い・・・・

Inverse Optimal Control for Humanoid Locomotion LQRベース尤度関数 iLQRの式による書き換え⼀致する。LQRベースで解いているからそうなんだけど、 MaxEntモデルを直接解いた場合とも⼀致する
ということは・・・・・

MaxEntとiLQR • iLQRで最適化した⾏動価値関数（コスト関数）はMaxEntモデルで最適化した価値関数と等価 • 軌跡の確率（＝⽅策） • ソフトは価値関数（そうなるようにソフトと仮定しているものの）ここで渡邊の興味は終わりました。

⼀応実験結果のせとくローカル最適化のサンプルでも学習できる逆に⾔うとグローバル最適化にスケールできない⾮線形なrewardも学習できたよ⾃由度が増加しても⼤丈夫！！！計算時間は増えるけど exponentialではない Continuous Inverse
Optimal Control with Locally Optimal Examples

Inverse Optimal Control for Humanoid Locomotion • 学習した報酬をどう使うかの紹介論⽂ • LQRベースで学習した報酬は最適⼊⼒が決まる
• じゃあ特徴量は何使えばよい？ • Torque Minimization & Joint Angle Regularization • Root Position and Velocity

地⾯変わっても⾃然の歩⾏できたでー

本・論⽂・著者 Rasmussen (PILCOもこの⼈) - GPの使い⼿。モデルベース強化学習の代表格 • Gaussian process dynamic programming
• Gaussian processes in reinforcement learning • Gaussian Processes for Machine Learning • Ziebart & Bagnell • Modeling Purposeful Adaptive Behavior with the Principle ofMaximum Causal Entropy, Ph.D. Thesis • これにMaxEntやIOCの基礎となる理論の導出が載っている

Model Based Reinforcement Learning

Model Based Reinforcement Learning

Kandai Watanabe

Other Decks in Research

Featured

Transcript

⾼橋研 Model Based RL勉強会 GPIRL / IOC / MaxEnt 第３回

本⽇のおしながき Sergey Levineらの論⽂３つ（上２つはSergeyがFirst Author） • Nonlinear Inverse Reinforcement Learning

勉強会の⽬的 • 「最適制御」と「強化学習」の組み合わせ制御⼯学 CS・機械学習機械学習・ RL 確率・統計最適化

モデルベースRLといっても Model Based Reinforcement Learning for Atari 環境のモデル化を学習 GPIRL /

GPIRLの概要（アルゴリズム） • ⼀⾔でいうと • Expertの軌跡から最適⽅策を学習 • 既存のMaxEnt学習⽅法を⾮線形にも対応させた • すごいこと •

そもそもRLは無駄が多い・・

⼈から最適⽅策πを学習しよう • このまま学習すると同じ動きしかできない・・ • 新しい場⾯に対応できない

Expertの⽅策となるような報酬を学習しよう • 強化学習の⽬的 • 割引報酬の合計の期待値を最⼤化する最適⽅策を学習 • 逆強化学習 •

MaxEntが何しているか start end 本来であればデータがある所のみ報酬が⼤きくなる • 報酬関数が偏る • 新しい環境に対応できない訪れていない所も⼀様にするためにエントロピー（不規則性）を最⼤化する軌跡

MaxEnt Modelの導出 • エントロピーの最⼤化 • 少ない軌跡から尤もらしい報酬を学習 • ラグランジュ関数 • としたときに

とおくと定数をより定数よってと決まる。と求まる。

MaxEnt / GPIRL • MaxEntモデルにおける⽬的 • Expertのような軌跡を通る⽅策πを導出する報酬 r をデータから獲得すること

報酬の⽐較こうした⾮線形な領域も復元できるようにする

GPIRL導出 • MaxEntより • ⾏動価値関数 & ソフトな価値関数 • 軌跡に対する尤度つまり、訪れた場所しか確率として算出しない

GPIRL導出ガウス過程(GP)で⾮線形報酬関数を近似しようガウス過程のイメージデータDと特徴量Xuから尤もらしい報酬uとパラメータθを推定特徴量Xu のみから推定さっきの式 Q・V分かればOK

全てのrについて積分することは不可能 Value Iteration で得られる GPの事前分布 • uの平均で近似しよう GPの事前確率分布 IRLの尤度

結果 - サンプルが増えるほど精度は良くなっている - GPIRLはExpert軌跡が準最適⽅策によるものを仮定（MaxEnt）＆⾮線形関数を表せているため他の⼿法より精度がよい

Continuous Inverse Optimal Control with Locally Optimal Examples • GPIRL

ここから状態s=x, ⾏動a=u

導出 • 軌跡を選ぶ確率（＝⽅策） • 報酬rを軌跡（時系列）にそってテイラー展開 r(a) g 報酬は⾏動aにしか依存しないことを仮定しているなぜか？それは動的モデルがある前提をしているため、⾏動

導出 • みんな⼤好きテイラー展開！ • に代⼊すると • Logとってこれを最適化する線形近似した付近でuを取る確率 uを取る尤もらしさ

⾏列の平⽅完成ガウス積分の公式より

gとHの算出 • 後はAppendix⾒て頑張ってください・・・・ • T時間に線形で計算できるこれが直接MaxEntにぶっこんだ導出⽅法

Break

LQR による導出⽬的：を導出したい • 偏差系にする • 線形モデルを仮定 • 報酬をxt,

LQRおさらい • ⽬的 • 時刻tでのコスト関数とモデル • コストを微分して、=０にすると • みんなの⼤好きLQR

LQRおさらい • に最適⼊⼒を代⼊すると • まとめるとこれをT-1ステップでも同じことやると、その時刻の状態のみに依存した価値関数が表せる

戻って • さきほどのにそれぞれ代⼊する • ソフトな価値関数はと表せるので代⼊するモデル代⼊

導出 • 確率Pに代⼊ • 尤度関数は • ごりごり直接計算したものと同じさらにここからが⾯⽩い・・・・

Inverse Optimal Control for Humanoid Locomotion LQRベース尤度関数 iLQRの式による書き換え⼀致する。LQRベースで解いているからそうなんだけど、 MaxEntモデルを直接解いた場合とも⼀致する

Inverse Optimal Control for Humanoid Locomotion • 学習した報酬をどう使うかの紹介論⽂ • LQRベースで学習した報酬は最適⼊⼒が決まる

地⾯変わっても⾃然の歩⾏できたでー

本・論⽂・著者 Rasmussen (PILCOもこの⼈) - GPの使い⼿。モデルベース強化学習の代表格 • Gaussian process dynamic programming