Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

Sergey Levine Lecture Remake 2nd Supervised Lea...

Avatar for Shunichi09 Shunichi09
April 10, 2020

Sergey Levine Lecture Remake 2nd Supervised Learning of Behaviors

Avatar for Shunichi09

Shunichi09

April 10, 2020
Tweet

More Decks by Shunichi09

Other Decks in Research

Transcript

  1. Sergey Levine Lecture Remake 第2回 Supervised Learning of Behaviors 暡倣孊習

    2020/04/05 関口舜䞀 Twitter : https://twitter.com/menomendy Github : https://github.com/Shunichi09
  2. 第二回 • 䞻な内容 ‐ むミテヌションラヌニング暡倣孊習に぀いお ‐ 分垃シフトに察応するために ‐ モデルの匷化 ‐

    デヌタ収集の匷化DAGGER ‐ 暡倣孊習の欠点ず改善 2020/10/30 -5- Sergeyの動画 Sergeyの講矩PDF https://www.youtube.com/watch?v=yPMkX_6- ESE&list=PLkFD6_40KJIxJMR- j5A1mkxK26gh_qg37&index=25&t=0s http://rail.eecs.berkeley.edu/deeprlcourse- fa18/static/slides/lec-2.pdf
  3. 蚘法に぀いお(1/2) 2020/10/30 -6- πΞ(a|o)は䜕らかの芳察oが䞎えられた元での行動 (a)の確率分垃を出力する方策ず定矩する|は条件付 き確率の意味ここでいう確率分垃は離散逃げるそ のたた進む のものやガりス分垃巊に1mのように 連続のものでも良いΞはモデルのパラメヌタ たた䞀般的にsずoは異なる䟋えば巊に瀺したチヌ タヌずガれルの画像(o)からはチヌタの䜍眮やモヌメン

    タムずいったこず(s)は明瀺的には分からない掚定する 必芁性がある sは䜕が起きおいるのかを知るための十分な情報でoは そのsから生たれる次のペヌゞのグラフィカルモデルを 参考 ガれルの䟋でいえば車がチヌタヌの前に眮かれるず 画像(o)でチヌタヌは芋えなくなるするずチヌタヌがど こにいるのか(s)蚀えなくなる掚枬するこはできる ★
  4. 蚘法に぀いお(2/3) 2020/10/30 -7- 前頁で述べた話をもっず䞀般化する グラフィカルモデルを曞くず巊の図のようになっおいる ここでpは状態予枬モデルであるsからoが出おきおい るこずが確認できる そしお最も重芁なのがs1はs3には関係がないずいうこ ず぀たりs3を予枬するためにはs2の情報ず行動だけ で十分であるずいうこずこれは行動決定のために非垞

    に重芁なこずでもし仮にπ(a|s)ずするならばsは今の 情報のみでよく過去の情報を入力する必芁はないこず になるこの蟺はMLPシリヌズの匷化孊習ずいう本に詳 しく曞いおある 䞀方実際すべおのsを芳枬は難しいのでoを甚いた堎 合過去の情報o1を行動決定に䜿甚するこずπ(a2|o1, o2)ずするこずは有効である堎合もあるかもしれない ★
  5. 暡倣孊習の課題 2020/10/30 -10- 結論ずしおは䞊手くいかない なぜか 今巊図のようにある1぀の軌道に察しお 暡倣孊習前頁を行ったずするどんな完璧な孊習の方 法でもわずかに誀差がのるその誀差ののった方策を 䜿い続けるずだんだん軌道が孊習した軌道から倖れお いっおしたうから

    ある時刻で少しミスした行動を出力するず芋たこずない oの領域に螏み蟌んでしたう最初のずれは少しかもし れないけどしかしその次の時刻では芋たこずないoな ので倉な行動aを出力しさらに芋たこずないoに到達 し を繰り返し結果ずしお孊習した軌道ずずれた軌道を 生成しおしたう最初のずれが小さくおも埐々にシフト しおいっおしたう ★
  6. 暡倣孊習の䟋 2020/10/30 -11- 䞊手くいかない暡倣孊習においおその䟋 を芋おみるNvidiaの自動運転の研究 この研究では人から集めたデヌタカメラ の画像ずステアの履歎を䜿っお画像を 入力ずしステアを行動ずする方策を獲埗し おいる 孊習した埌に䞀応コヌンに沿った動きやそ

    の他の道路でも道から倖れるこずなく走行で きおいる どうやっお䞊蚘を実珟したのか ★ 䞀応コヌンに 沿った動きや その他の道 路でも道から 倖れるこずな く走行できお いる 集めたデヌタ で孊習
  7. ディストリビュヌションシフトに察応するために -デヌタを加える- 2020/10/30 -12- 䞊手くいかないはずの暡倣孊習で䞊手くいくための 先ほどの研究はどうしおいるのかずいうず off-loadの孊習デヌタを生成しおいる 具䜓的には車の巊偎ず右偎に぀けられたカメラの画像 を人工的に倉換正面のカメラから芋るずどうなるかし 巊偎の画像には右ぞのステアを切る

    右偎の画像には巊ぞのステアを切る デヌタを远加した 巊偎の画像は巊偎に突っ蟌もうずするこずを意味する のでその際の正しいステア行動のデヌタセットが入っ たこずになる 䞊蚘をするこずで正面のみのカメラの画像では起きおし たうディストリビュヌションシフトに察応するこずができる 倱敗しそうになった時にもずの軌道に戻るこずができる ★
  8. ディストリビュヌションシフトに察応するために -ノむズの茉ったデヌタを加える- 2020/10/30 -13- もう少し䞀般化させるず ある軌道のみから孊習させるのではなくお 分垃獲埗した軌道からノむズを掚定しおおくか らサンプルしお孊習させるこずができれば倚少の ずれにロバストな方策を獲埗するこずができる サンプルの䞭に倚少のミスをしおいるデヌタが

    含たれるこずになるので車の䟋ず同じようなこず が実珟できる しかし人のデヌタを集めおそれを分垃にするこ ずは非垞に困難なので䟋えば最適制埡理論な どを䜿ったcontrollerを゚キスパヌトずしお䜿うこず が考えられる ★
  9. 暡倣孊習における課題 2020/10/30 -15- 前頁たでの話は少しヒュヌリスティックだった画 像を加えるやノむズを加えるなどのでもっず䞀 般化した話をしたい暡倣孊習の課題をどのよう に解決するべきなのか課題解決を保蚌できる ようなものはないのか 少し課題を䞀般化する結局䜕が課題なのかずい うず巊の図のように

    孊習デヌタの軌道の分垃pdata(ot) 方策が䜜る軌道の分垃pπΞ(ot) πΞ(a|o)は確率分垃を出力するので 取る軌道も確率分垃ずなる ずした時にそれらが異なっおしたうこずが問題 なので同じにできれば䞊手く孊習できおいるこ ずになる ★
  10. DAgger 2020/10/30 -16- 孊習デヌタの軌道の分垃pdata(ot) ず 方策が䜜る軌道の分垃pπΞ(ot) を等しくするためには孊習する方策πΞを 賢くする方法もある完璧に孊習するが そうではなくおpdata(ot) に工倫をしたせん

    䞊蚘のアむディアに基づいたDAGGERずいう手法があるこの DAGGERはたず①人のデヌタで孊習し②方策πを走らせおo のみを獲埗aは䜕でもよい③そしおそのoに察しお人がラベル 付けどう行動するかを行う④そのデヌタをもずのデヌタに統合 しそのデヌタを䜿っおたた孊習するこずを繰り返すこれを繰り 返すず pdata(ot) ずpπΞ(ot) は埐々に等しくなる蚌明は論文 なお䞀番初めをランダム方策で始めたずしおも 理論的2぀の分垃が等しくなるこずぞの収束は蚌明できるが蚌 明はオンラむンにデヌタを統合し孊習するこずで瀺されおいるため 人のデヌタがあった方が䞊手くいくそうsergeyが詊したっお蚀っお た安党性ずいう面でも良い DAGGERを甚いた䟋が玹介ドロヌン ★
  11. Multimodal behavior 2020/10/30 -20- ではもう1぀の課題であるMultimodalな振る舞いに぀い おここでいうマルチモヌダルずは巊の図の朚の図で 蚀うず右に行っおも巊の道を通っおもどっちでも良いわ けでもこれで平均をずっおしたうず朚にぶ぀かるずい う事態になるなのでマルチモヌダルであるこずは問題 になる

    ここで真ん䞭の図のように離散的な行動を扱う堎合は 問題ないかもしれないがそれを連続的な分垃に眮き換 えおしたうず平均がちょうど䞭心に来おしたう事態になる ではどのように䞊蚘をさけるべきか3぀方法がある ①GMMのような混合分垃を䜿う ②朜圚倉数を持぀モデルを䜿うVAE ③Autoregressive Discretizationを䜿う ★
  12. Multimodal behaviorに察応するために - Latent Variable Modelの導入- 2020/10/30 -22- では次にLatent Variable

    Modelに぀いお入力に ノむズをのせお孊習しそのノむズを䜿っお分垃を 生成すれば耇雑なマルチモヌダルな分垃も孊 習するこずができる詳しくは深局生成モデルを 参考深局生成モデルはマルチモヌダルな分垃 を近䌌するこずができる この話は少し難しいのでこのコヌスの䞭盀で説 明したす 個人的にもこの話はかなりざっくりなので興味の ある方は須山さんのベむズ深局孊習やPRMLを 参考に ★ ノむズをのせおい る
  13. Multimodal behaviorに察応するために - Autoregressive Discretizationの導入- 2020/10/30 -23- もう1぀の方法ずしおAutoregressive Discretizationがある これはたず初めのNNが行動aにおける1次元の離散分

    垃を出力する ぀たり ずしたらaxis=0に関しおのみの離散分垃を出力する䟋 えば0.51.01.5ず離散化しおおいおそれぞれの倀を 取る確率を出力させる そしおその情報を次のNNに入力し次のNNはaxis=1関 しお出力する これをすべおの次元で繰り返せばマルチモヌダルな分 垃を近䌌できるずいうもの各NNに画像ずその前の次元 の確率分垃はすべお入力するそう ★ ある次元の行動に おける離散確率分 垃を生成 省略されおいるけど 画像ず前の次元の確率分垃は 入力ずしお䜿う a = ( ) axis=0 axis=1 axis=2 axis=3
  14. 2020/10/30 -26- ものを䜿むロボットの研究 暡倣孊習をする際にモデルを RNNの機構ずGMMを出力するように蚭定し方策 を孊習 GMMもRNNもなし堎合 GMMのみ RNNのみ 共に䜿甚提案

    を比范し提案手法が䞀番性胜が良いこず瀺す たた孊習する際に人が倱敗しそこからどう立ち 盎ったかもデヌタにいれおいるこずも工倫点の1぀ ★ 暡倣孊習の研究玹介②モデル性胜
  15. 2020/10/30 -28- 暡倣孊習における他のトピックずしおは ①Structured prediction があるこれは䟋えばwhere are youに察しお I’m at

    homeず出力させたいずきにもし I’m in ずなっおしたったらhomeの確率は著しく小 さくなっおしたうhome自䜓は正しいのに䞊蚘 はもちろん意思決定問題にも関連する ②逆匷化孊習 デモをコピヌするのではなくおゎヌルを理解する ずいうアむディア これに぀いおは埌の方の講矩で扱いたす ★ 暡倣孊習における他のトピック
  16. 2020/10/30 -30- 暡倣孊習における目的は動䜜を暡倣するこず だったが自動的に孊習するずいったこずを実珟 するためには他の目的が必芁になる 䟋えばタむガヌの䟋でいえば真の目的は min log p (eaten

    by tiger | a1 ~ aT) ずなるタむガヌに食べられおしたうこず確率を最 小化したい 䞀般的に曞くず ずなるここでCはコスト関数 ★ コスト関数の導入ず蚘法 1 1 1 min ( , ) . . ( , ) T t t t t t t c s a s t s f s a − − = = 
  17. 2020/10/30 -33- では先ほどのコスト関数においお 暡倣孊習を行った際にどの皋床コストをバりンドするこ ずができるのか簡単な解析を行っおみる たずコスト関数は先ほど蚭定したように 人゚キスパヌトず同じで0 人゚キスパヌトず異なっお1ずする たた孊習したπΞはεで間違えおしたうこの堎合゚キス パヌトずずれおしたうずする完党な方策を獲埗するのは

    困難なので䞊蚘は劥圓な仮定 さらに䞀応䞊蚘の確率が成り立぀のはトレヌニング デヌタの䞭で芳枬された状態のみずする 今綱枡りする人を考えおみる 孊習デヌタは盎進したずきのデヌタのみ なので脇にそれお萜ちた堎合戻る方法はない 䞀床萜ちたらTたで1を獲埗し぀づける ★ コストをバりンドする簡単な解析 次頁で匏の確認
  18. 2020/10/30 -34- コストをバりンドする簡単な解析 もし初めにロヌプの䞊からだずするず 䞀番の時刻で倱敗しおしたう確率はε でそのあずもずっず倱敗するので1が加算 され぀づけおTをもらうこずになる なのでε確率×T×1倀でその堎合の 期埅倀はεT (

    ) ( ) ( ) ( ) , 1 1 ... T t t t E c s a T T       + − − +      ★ 1-εの確率で倱敗しないで次のステップにい けるするずその先でも同じこずが起きるの でたた同様にεの確率で倱敗しお(T-1)分 のコストをもらう この倀のオヌダヌは O(εT^2)になる これは非垞に倧きいバり ンドであたり良くない さおどうしよう ※コストなので泚意
  19. コストをバりンドする䞀般的な解析 2020/10/30 -35- 仮定 ( ) *( ) | a

    s s       Expertず違うアクションを取る確率はεよりも小さいずする ある皋床きちんず孊習されたずする ただしこの制玄が守られるのはεよりも小さいのは トレヌニングデヌタセット状態にあるsだずしたしょう Dずするよりもトレヌニングのデヌタの分垃ずした方が䞀般 的なので赀線が入っおいたす画像を扱うなら同じ状態は 基本的には芋ないので 暡倣孊習の蚭定なのでコストは巊の図 expertず䞀緒なら0違うなら1 Daggerを䜿うずもちろん孊習した方策で蚪れる状態の分垃がト レヌニングのデヌタセットの状態の分垃ず等しくなるのでεTずいう 倀でバりンドできる分垃が同じずいうこずはどの状態においおも expertず違う行動をずるのはε圓たり前 なおこれが最倧に良い堎合
  20. コストをバりンドする䞀般的な解析 2020/10/30 -36- ではデヌタの分垃が異なる堎合はどうだろうか ある孊習した方策で蚪れる分垃はトレヌニングデヌタセットの分垃ず ある䜕らかの分垃党く分からないの2぀で衚珟するこずができる タむムステップtたででミスをしなかった堎合は トレヌニングデヌタセット内に収たっおいるので 時刻tたでミスしない確率×トレヌニングデヌタセットの分垃 䞀方時刻tたでに少なくずも1回ミスをした堎合は意味䞍明な状態の分垃になるので

    時刻tたでに少なくずも1回ミスをする確率1-1回もミスをしない確率×意味䞍明な分垃
  21. コストをバりンドする䞀般的な解析 2020/10/30 ずりあえず匕き算しおみる ( ) ( ) ( ) (

    ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) | | | 1 1 1 | | 1 1 1 1 | 1 1 | | t train t t t train t mistake t train t t t train t mistake t t mistake t train t p s p s p s p s p s p s p s p s p s       − = − + − − − = − − − + − − = − − − この絶察倀の確率分垃の差をTotal Variation Divergenceずいう 最も倧きくなるのは2ptrainず党く違う倀をずるずするず匕き算しお絶察倀ずるず 2になるよっおこの倀でバりンドできる
  22. コストをバりンドする䞀般的な解析 2020/10/31 -38- 前提条件をいろいろず算出できたので孊習した方策での軌道のもずで コストの期埅倀がどうなるのかを考える 期埅倀の定矩 なので代入 ( ) (

    ) ( ) ( ) t t train t train t p s p s p s p s   = + − 絶察倀を取るこずは問題ない => バりンドできる 定矩から1 期埅倀なのでε 䜕があろうず さっき蚈算したこの倀 2 2 T T    + 結局quadraticな倀 になっおしたう これが䞀般的な 暡倣孊習の解析 https://rikeilabo.com/sum-formula-of-numerical-sequence