Carl E. Rasmussen. "PILCO: A model-based and data-efficient approach to policy search." Proceedings of the 28th International Conference on machine learning (ICML-11). 2011. [2] Levine, Sergey, et al. "End-to-end training of deep visuomotor policies." The Journal of Machine Learning Research 17.1 (2016): 1334-1373.
1 ... , ... 1 min . . T T T T T t t t t s t + = + = + u u x x u Ru x Qx x Ax Bu 有限時間最適制御問題(最適軌道) ( ) ( ) ( ) 1 1 max ... , ... T T p E r = u u x x 強化学習(適応最適制御[3])(最適方策) ( ) ( ) ( ) ( ) 0 1 1 1 1 1 ... , ... | | , T T T t t t t t t p a a s s p s a s p s s a + = =
20 3step目をどのようにやるのかがポイント [1] Deisenroth, Marc, and Carl E. Rasmussen. "PILCO: A model-based and data-efficient approach to policy search." Proceedings of the 28th International Conference on machine learning (ICML-11). 2011. [s]
1 1 1 1 | , | , t t t t t t p N + + + + = x x u x μ Σ 1 1 t t f t f x E t Var t + + = + = f E t :期待値(ガウス過程の) :分散(ガウス過程の) f Var t , T T T t t t = x x u t t y =
( ) | t t t t t p p f p d = x x x x ( ) ( ) , t t t = x x u これは計算できない...(ガウス過程の入力が確率分布になる) →これもガウス分布 で近似しましょう →モーメントマッチングへ ( ) ( ) | , t t p N = μ Σ
1 1 1 ,... , ,... 1 min , . . , T T T t t t t t t c s t f − − = = u u x x x u x x u Shooting Method Collocation Method 制約条件を評価関数に代入 (入力を更新してダイナミクスに 代入して軌道を生成)(iLQRのイメージ) 制約条件を陽に考慮し, その制約条件の緩和を行いながら 軌道を生成 このあたりのみ変更 [1] S. Levine and P. Abbeel, “Learning Neural Network Policies with Guided Policy Search under Unknown Dynamics,” Proc. Adv. Neural Inf. Process. Syst., pp. 1071–1079, 2014.
) 1 1 1 1 ,... , ,... 1 min , . . , T T T t t t t t t c s t f − − = = u u x x x u x x u ( ) ( ) ( ) 1 1 1 1 ,... , ,... , 1 min , . . , , T T T t t t t t t t t c s t f − − = = = u u x x u x u x x x u 方策のパラメータθの問題も追加 ( ) ( ) ( ) 1 1 1 1 ,... , ,... , 1 min , . . , T T T t t t t t t t t c s t f − − = = = u u x x u x x x u x u 簡単に ここは従来の 最適軌道問題 ここがパラメータに関するもの θに関する制約
( ) 1 1 1 1 ,... , ,... , 1 min , . . , , T T T t t t t t t t t c s t f − − = = = u u x x u x u x x x u 順伝播させたのち逆伝播して,方策のパラメータを更新(Shooting Method) 制約条件を考慮しながら,軌道を算出(Collocation Method) [s] ①や②の問題は発生しない どのように解法するか?
. . 0 f s t C = x x x ( ) ( ) ( ) ( ) 2 , L C C C = + + x x x x ( ) ( ) ( ) * , g L = x ( ) * argmin , L = x x x ( ) * * * , dg dL d dL d d dg d = + x x x Lを最小にした なので勾配は0 x 1. Find 2. Compute 3. * x dg d + 拡張ラグランジュ法 (制約条件から離れないように引っ張る) ( ) * argmin , L = x x x ( ) *, dg dL d d = x
) , min . . t t l s t = u x ( ) ( ) ( ) 1 1 1 1 ,... , ,... , 1 min , . . , T T T t t t t t t t t c s t f − − = = = u u x x x u x x u u x ( ) ( ) ( ) ( ) ( ) ( )2 1 1 , , T T t t t t t t t t L l = = = + − + − x u x u ( ) ( ) ( ) ( ) * * , , g L = ( ) * argmin , , L = ( ) * * * * * * , , dg dL d dL d dL d d dg d dg d = + + ( ) * argmin , , L = Lを最小にした なので勾配は0 (Appendix:全微分の公式,参照) , 1. Find 2. Find 3. * dg d + ( ) * argmin , , L = * ( ) * argmin , , L = 軌道最適化(iLQR等で解法) 教師あり学習(SGD等で解法)
| , , t t t xt t ut t ct t p N f f f + = + + x x u x u F 単純に,線形回帰しても良いが 次元が大きいとiterationの度に 非現実的なSample点が必要 ➔近いiterationと,近い時刻は似たモデルでは? , xt ut f f = w , T t t = X x u Iterationして得た軌道+GMMでFitting(World Model) その後,そのGMMのパラメータとある時刻の を使ってMAP推定, さらに,ガウス分布における条件付き確率利用して算出 [1] S. Levine, C. Finn, T. Darrell, and P. Abbeel, “End-to-End Training of Deep Visuomotor Policies,” vol. 17, pp. 1–40, 2015.AppendixA.3 を1つの点として考えます!! 1 { , , } i i i t t t+ x u x ...つまり? 1 { , , } i i i t t t+ x u x
用いて算出し,Normal-Inverse-Wishart分布で と の共役事前分布を作成 (※各sample点で算出して平均(1/N)を取っています) 1 { , , } i i i t t t+ x u x , k k μ Σ 1 , , T t t t+ = X x u x μ Σ 1 { , , } i i i t t t+ x u x ( ) ( ) 1 | , K k k k k p N = = X X μ Σ ( ) 1 , , ~ , i i i t t t N + x u x μ Σ [1] S. Levine, C. Finn, T. Darrell, and P. Abbeel, “End-to-End Training of Deep Visuomotor Policies,” vol. 17, pp. 1–40, 2015.AppendixA.3 N×D N×T×D
} i i i t t t+ x u x , μ Σ ( を更新)(補足2参考) , μ Σ ④ が与えられたとして,ガウス分布の条件付き確率(Appendix参照) で を算出➔ の係数を算出 (補足3参考) { , } i i t t x u ( ) 1 | , t t t p + x x u ( ) , xt t ut t ct t N f f f + + x u F [1] S. Levine, C. Finn, T. Darrell, and P. Abbeel, “End-to-End Training of Deep Visuomotor Policies,” vol. 17, pp. 1–40, 2015.AppendixA.3 N×D N×D