Sergey Levine Lecture Remake 1st Introduction and Overview

B148c17e8f0aa570ef1606cd0f284c4c?s=47 Shunichi09
April 03, 2020

Sergey Levine Lecture Remake 1st Introduction and Overview

B148c17e8f0aa570ef1606cd0f284c4c?s=128

Shunichi09

April 03, 2020
Tweet

Transcript

  1. Sergey Levine Lecture Remake 第1回 Introduction and Course Overview 2020/04/03

    関口舜一 Twitter : https://twitter.com/menomendy Github : https://github.com/Shunichi09 Qiita : https://qiita.com/MENDY https://www.youtube.com/watch?v=opaBjK4TfLc&lis t=PLkFD6_40KJIxJMR- j5A1mkxK26gh_qg37&index=26&t=0s Sergeyの動画 Sergeyの講義PDF http://rail.eecs.berkeley.edu/deeprlcourse- fa18/static/slides/lec-1.pdf
  2. このスライドの目的 2020/4/3 -2- 以下のSergey Levineの授業(2018)を 徹底的に理解する • 参考URL • http://rail.eecs.berkeley.edu/deeprlcourse/

  3. 各回のスライドはgithubにまとめます • https://github.com/Shunichi09/SergeyLectureRemake 2020/4/3 -3-

  4. なんでこの授業? • この授業はすごく分かりやすい ‐ 分かりやすすぎて毎回感激するっていうぐらい 後世に残すべき授業,ただ少し理解が必要な部分がある 自分のためにまとめます • 深層強化学習,深層学習,変分推論など 最近の論文を追うのに必要なほぼすべての範囲が網羅

    2020/4/3 -4-
  5. このスライドについて • 公開されているSergeyの講義資料(2018)を基に 作成しています ‐ 資料 ‐ http://rail.eecs.berkeley.edu/deeprlcourse-fa18/ ‐ 資料から切り出した画像については★を付け,引用していることとします.

    ‐ 動画 ‐ https://www.youtube.com/playlist?list=PLkFD6_40KJIxJMR- j5A1mkxK26gh_qg37 • 上記2つを見ながらこのスライドを 見てもらえるとよいかもしれないです! 2020/4/3 -5-
  6. スライドの構成 2020/4/3 -6- ★ 引用を 表す Sergeyの授業 スライド コメントや 要約など

    ※必ずではないです あくまで基本構成
  7. 第一回 • 主な内容 ‐ 強化学習と深層学習 ‐ 深層強化学習になぜ今注目すべきか? ‐ 現在オープンな課題はなにか?強化学習に限らず, 意思決定の問題で

    2020/4/3 -7- https://www.youtube.com/watch?v=opaBjK4TfLc&lis t=PLkFD6_40KJIxJMR- j5A1mkxK26gh_qg37&index=26&t=0s Sergeyの動画 Sereyの講義PDF http://rail.eecs.berkeley.edu/deeprlcourse- fa18/static/slides/lec-1.pdf
  8. 授業の概要(p1~p8) • 本題とは全く関係ないので飛ばしますが,少し補足 ‐ Advancedなクラスです,かつ,特定の授業を先に取得しておいてね! のような条件が付いている講義です. ‐ 受講希望者の人数が取っても多い,2倍といっていた ‐ オフィスアワー(授業の相談)とかは,水曜日の授業終わった後です!

    (僕の行ってた大学もこういうの作ればよかったのに) ‐ 課題で自動微分ライブラリを使います,Tensorflowがdefaultだけど 別のものを使ってもいいよーとのこと ‐ Piazzaが少しだけ気になりますね 2020/4/3 -8-
  9. SFの世界 2020/4/3 -9- ★ このスライドでは, いろんなSFで出てきたロボットを紹介 (一番左のやつ見たことないですね) これらのロボットは,Adaptively(適応的) かつ,Flexible(柔軟)に行動できる では,これらを作るのに

    • どんな技術が足りていないのか? • どんな問題を解けば,この子たちを 作れるのか? 次で今の技術でできることを紹介します
  10. 今できることできないこと 2020/4/3 -10- 今の技術である場所からある場所まで を移動させること(navigate)することは 簡単.でも,タンカーには人がいます. この人は,右図のように何かが起きたら 直すということをします. この何かが起きたらというのは, 予期されていないことなので,柔軟にか

    つ適応的に対応しないといけない. 今の技術では上記を実現するのは かなり難しい. (状況が非常にComplexなので) ★
  11. 深層学習 2020/4/3 -11- Deep learningはそのUnstructuralなもの に対して強い. Low levelの情報(画像など)から,モデル を構築することができます. 以下その例!

  12. 強化学習 2020/4/3 -12- では,ここで, 強化学習についてみていくと 左の図みたいに,強化学習は 観察情報を使って行動を決定する ための枠組みを提供してくれるものです (要は意思決定問題を解く) 右図がその例

    TD-Gammonしらなかったです. ★
  13. 深層強化学習・導入 2020/4/3 -13- 通常,画像認識を行う場合, HOG特徴量を抽出して,変換して, クラス分類をするという多段階のステップ が必要.(それぞれステップを手で組み合 わせる) 深層学習なら①ハンドメイド的でなくかつ, ②様々なものに勝手に最適化された,モ

    デルを獲得できる. 深層強化学習でいえば,特に何が大事な のかが分からないため,手でfeatureを抽 出すると,そのfeatureを使う以上の行動 が獲得できない. そこで深層強化学習!! ★
  14. 深層強化学習・導入 2020/4/3 -14- もう少し深層強化学習(End-to-end) について説明すると, もしジャングルでトラを見た時に 知覚と行動決定のプロセスが分かれてい た場合は,トラだと認識➔どう行動? になる.それだと,どれだけ離れているの かとか,種類は?とかそういう情報が抜

    け落ちる. End-to-endでやれば,そこを一気通貫し て学習できる,(もはやトラであることは必 要ない) ★ End- to-end
  15. 例:ロボット 2020/4/3 -15- ロボットの例も見てみる. ロボットだと,①観察②推定③予測④計 画⑤lowレベルの制御⑥制御 というステップを踏む. それぞれがもはや研究テーマだけど, 適切にそれぞれを選ばないといけない さらに,良くないのはそれぞれの部分の

    仮定が影響しあわないように 仮定がより簡便なほうに設定されがち (ロボットはゆっくり動く) で全体としてパーフォーマンスが落ちる ★
  16. 例:ロボット 2020/4/3 -16- この左の研究はロボットを End-to-endで学習させた例 結果として積み木を箱にいれることに 成功している. 最適化は経験から行われる. ★

  17. 深層強化学習 2020/4/3 -17- 強化学習には,エージェントと環境があっ て,Actとobs,rewardですべてを左のよう に設定することができる. さらに,この問題設定で 画像認識(正しく画像を認識できたかどう がをrewardに設定)や自然言語処理も 扱うことができる.

    Deepなモデルは強化学習において 複雑なタスクをEnd-to-endで解法する ことを手伝ってくれる ★
  18. 例:複雑なタスクでの強化学習 2020/4/3 -18- 複雑なタスクを解いている例 釘をうったり,見えなくなっているけど Breakout(ブロック崩し)したり, 交通整備のタスクに成功している ★

  19. なぜ今深層強化学習? 2020/4/3 -19- これについては見ての通りです. 深層学習の発展 強化学習でのアルゴリズムの発展 コンピュータの発展 個人的には一番下が大きいのでは と思っています. ★

  20. 実は発想自体は昔からある 2020/4/3 -20- 実は強化学習と深層学習を 組み合わせて複雑な問題を解ける という話は昔から提案されているそうで 上の本では,階層型学習や教師あり学習 についても述べられているそうです. 下の図はこの5年での 深層強化学習の発展を紹介

  21. 意思決定問題を解くための課題 2020/4/3 -21- (複雑なタスクを深層モデルを使って解く) 以外に現実の意思決定問題を解くために どんな問題があるか? 強化学習はもともと報酬を最大化するこ とを目的としたもの しかしこれだけが意思決定問題において 問題なのではない

    授業内で, • 報酬を学習する • ドメインで知識をTransfer(変換)させる • 予測を使って行動する などもう少し発展的な内容にも取り組み ます ★
  22. 報酬は一体どこから? 2020/4/3 -22- ゲームであればスコアがある. しかし,現実の問題はそう単純じゃない. 人間だと脳のBasal gangliaが報酬を感じる?そ うだけど,そのプロセスは解明されていないし 下のガゼルの例でいえば, チーターはランダムにガゼルを捕まえて食べ

    て,よし生き残るのに必要!(報酬獲得!)と なり,ガゼルを捕まえるようになるのかというと そうではない.(ガゼルは逃げるのでそんなラ ンダムに動いていてもチーターがガゼルを食 べるときはこない)もっと違う何かがある.(経 験だけで,報酬は作られない) また,人間は見て,推測することに 優れている.(例えば他の人を見て, どんな報酬なんだろうと推測することができる) ★
  23. 見て学ぶ,見て推測する 2020/4/3 -23- (例えば他の人を見て,どんな報酬なん だろうと推測することができる)けど,他に どんなものを見て学ぶことができるか? • デモから学習する • 動作の真似をする

    • 報酬(さっきの例) • 世界を学ぶ • 観察から予測する • 観察から教師なし学習をする • 他のタスクから学ぶ ★
  24. 模倣学習の例 2020/4/3 -24- 模倣学習の例で 自動運転(確かUber)だった気がする 下の例は男の人が本を左にある棚にい れようとするシーンで,その意図をくみ 取った子供がそれを開けるという動画 (見て,報酬がなんなのか推測,扉がどう いうものなのかを予測して,報酬を最大

    化する) こういうことをできないといけないと 思う. ぜひ動画をみてみてください ★
  25. 逆強化学習の例 2020/4/3 -25- 子供の例は複雑すぎるけど, 見て報酬を推測する(逆強化学習) の例. これは,人間がロボットにコップの水を 移す作業を教えて,報酬を獲得(ポテン シャル)して,どの位置にコップがきても 移せるようになるという研究

  26. 予測の例 2020/4/3 -26- 予測ができないと計画ができない.という 話 その下の図は,正確なモデルがあると 面白い動きができる(複雑な歩行を実現 できる) 予測の例で,画像を予測している例 を示している.

    ★ ★
  27. どうやってintelligentな機械を作るか 2020/4/3 -27- 少し別の話(もっと上のレイヤー)になる けど,どうやってインテリジェントな機械を 作るのかを考えてみたい. どこからはじめればいいだろうか? 脳を作ればよい? 脳はそれぞれの部分について解明が 進んでいるからそれぞれの処理を

    頑張ってコードに書けばいいだろうか? でも,それはとても大変だ... ここである仮説があるので紹介します. ★
  28. 学習こそintelligence 2020/4/3 -28- 仮説というのは学習こそintelligence であるというもの というのも, • 歩くといったはみんなができること • 車を運転するといった学べばできるよ

    うになること • そして,とても難しいことも学べば人間 はできるようになる から, 学ぶこと,学習こそが大切なことなので は? ★
  29. 1つのアルゴリズム 2020/4/3 -29- 簡単な1つのアルゴリズムから Intelligenceは成り立っているのだろう か? 実際,下から目の情報,音から位置の情 報を知る(学んで分かるようになる) ことができるし, フェレットの実験では,耳の情報が入る

    ところに目の情報をつないでも しばらくすると, フェレットは活動することができた ➔1つのアルゴリズムを学ぶことで, Intelligenceは成り立っている ★
  30. 1つのアルゴリズム 2020/4/3 -30- アルゴリズムがやることは センサ情報を受け取り,行動を決定する こと 上記を“学び”たい 深層強化学習で上記をやるべきなのは, ディープなモデルはセンサ情報を変化で きるし,複雑な行動を決定できるから

  31. 実際の例 2020/4/3 -31- 本当に深層強化学習は 複雑なセンサを処理できて, 複雑な行動を決定できるのかの例を示し ている. 視覚の処理や,音の処理,ものに触った 際の処理を深層学習で表現できている 強化学習で言えば

    ある信号に対して必ず良い報酬がもらえ るとその信号が良いものとして扱われる ようになる(ベルマンバックアップと似て る)などなど ★
  32. 今の深層強化学習ができること 2020/4/3 -32- 見たままですが, • 既知のルールやシンプルなルールの もとでは高い精度の技術を獲得するこ とができる • たくさんの生データがあればシンプル

    なスキルを獲得できる • たくさんの教師の動作から模倣するこ とができる ★
  33. 今の深層強化学習ができないこと 2020/4/3 -33- 見たままですが, • 人はとても早く適応する • 過去の情報をreuseできる(転移の意 味) •

    報酬関数をどのように設定するか • 予測の役割は?モデルフリーがいい のか,モデルベースがいいのか... ★
  34. 最後に 2020/4/3 -34- 人間の脳は, シンプルな1つのアルゴリズムで表せそう そして,ここである言葉を なぜ大人の脳をシミュレートするプログラ ムを作る代わりに,子供の脳をシミュレー トするものを作らないのですか? もし学ばせることができれば,

    子供の脳は大人の脳になる. ★