Sergey Levine Lecture Remake 1st Introduction and Overview

Slide 1

Slide 1 text

Sergey Levine Lecture Remake 第1回 Introduction and Course Overview 2020/04/03 関口舜一 Twitter : https://twitter.com/menomendy Github : https://github.com/Shunichi09 Qiita : https://qiita.com/MENDY https://www.youtube.com/watch?v=opaBjK4TfLc&lis t=PLkFD6_40KJIxJMR- j5A1mkxK26gh_qg37&index=26&t=0s Sergeyの動画 Sergeyの講義PDF http://rail.eecs.berkeley.edu/deeprlcourse- fa18/static/slides/lec-1.pdf

Slide 2

Slide 2 text

このスライドの目的 2020/4/3 -2- 以下のSergey Levineの授業（2018）を徹底的に理解する • 参考URL • http://rail.eecs.berkeley.edu/deeprlcourse/

Slide 3

Slide 3 text

各回のスライドはgithubにまとめます • https://github.com/Shunichi09/SergeyLectureRemake 2020/4/3 -3-

Slide 4

Slide 4 text

なんでこの授業？ • この授業はすごく分かりやすい ‐ 分かりやすすぎて毎回感激するっていうぐらい後世に残すべき授業，ただ少し理解が必要な部分がある自分のためにまとめます • 深層強化学習，深層学習，変分推論など最近の論文を追うのに必要なほぼすべての範囲が網羅 2020/4/3 -4-

Slide 5

Slide 5 text

このスライドについて • 公開されているSergeyの講義資料（2018）を基に作成しています ‐ 資料 ‐ http://rail.eecs.berkeley.edu/deeprlcourse-fa18/ ‐ 資料から切り出した画像については★を付け，引用していることとします． ‐ 動画 ‐ https://www.youtube.com/playlist?list=PLkFD6_40KJIxJMR- j5A1mkxK26gh_qg37 • 上記2つを見ながらこのスライドを見てもらえるとよいかもしれないです！ 2020/4/3 -5-

Slide 6

Slide 6 text

スライドの構成 2020/4/3 -6- ★ 引用を表す Sergeyの授業スライドコメントや要約など ※必ずではないですあくまで基本構成

Slide 7

Slide 7 text

第一回 • 主な内容 ‐ 強化学習と深層学習 ‐ 深層強化学習になぜ今注目すべきか？ ‐ 現在オープンな課題はなにか？強化学習に限らず，意思決定の問題で 2020/4/3 -7- https://www.youtube.com/watch?v=opaBjK4TfLc&lis t=PLkFD6_40KJIxJMR- j5A1mkxK26gh_qg37&index=26&t=0s Sergeyの動画 Sereyの講義PDF http://rail.eecs.berkeley.edu/deeprlcourse- fa18/static/slides/lec-1.pdf

Slide 8

Slide 8 text

授業の概要（p1~p8） • 本題とは全く関係ないので飛ばしますが，少し補足 ‐ Advancedなクラスです，かつ，特定の授業を先に取得しておいてね！のような条件が付いている講義です． ‐ 受講希望者の人数が取っても多い，2倍といっていた ‐ オフィスアワー（授業の相談）とかは，水曜日の授業終わった後です！（僕の行ってた大学もこういうの作ればよかったのに） ‐ 課題で自動微分ライブラリを使います，Tensorflowがdefaultだけど別のものを使ってもいいよーとのこと ‐ Piazzaが少しだけ気になりますね 2020/4/3 -8-

Slide 9

Slide 9 text

SFの世界 2020/4/3 -9- ★ このスライドでは，いろんなSFで出てきたロボットを紹介（一番左のやつ見たことないですね）これらのロボットは，Adaptively（適応的）かつ，Flexible（柔軟）に行動できるでは，これらを作るのに • どんな技術が足りていないのか？ • どんな問題を解けば，この子たちを作れるのか？次で今の技術でできることを紹介します

Slide 10

Slide 10 text

今できることできないこと 2020/4/3 -10- 今の技術である場所からある場所までを移動させること（navigate）することは簡単．でも，タンカーには人がいます．この人は，右図のように何かが起きたら直すということをします．この何かが起きたらというのは，予期されていないことなので，柔軟にかつ適応的に対応しないといけない．今の技術では上記を実現するのはかなり難しい．（状況が非常にComplexなので） ★

Slide 11

Slide 11 text

深層学習 2020/4/3 -11- Deep learningはそのUnstructuralなものに対して強い． Low levelの情報（画像など）から，モデルを構築することができます．以下その例！ ★

Slide 12

Slide 12 text

強化学習 2020/4/3 -12- では，ここで，強化学習についてみていくと左の図みたいに，強化学習は観察情報を使って行動を決定するための枠組みを提供してくれるものです（要は意思決定問題を解く）右図がその例 TD-Gammonしらなかったです． ★

Slide 13

Slide 13 text

深層強化学習・導入 2020/4/3 -13- 通常，画像認識を行う場合， HOG特徴量を抽出して，変換して，クラス分類をするという多段階のステップが必要．（それぞれステップを手で組み合わせる）深層学習なら①ハンドメイド的でなくかつ， ②様々なものに勝手に最適化された，モデルを獲得できる．深層強化学習でいえば，特に何が大事なのかが分からないため，手でfeatureを抽出すると，そのfeatureを使う以上の行動が獲得できない．そこで深層強化学習！！ ★

Slide 14

Slide 14 text

深層強化学習・導入 2020/4/3 -14- もう少し深層強化学習（End-to-end）について説明すると，もしジャングルでトラを見た時に知覚と行動決定のプロセスが分かれていた場合は，トラだと認識➔どう行動？になる．それだと，どれだけ離れているのかとか，種類は？とかそういう情報が抜け落ちる． End-to-endでやれば，そこを一気通貫して学習できる，（もはやトラであることは必要ない） ★ End- to-end

Slide 15

Slide 15 text

例：ロボット 2020/4/3 -15- ロボットの例も見てみる．ロボットだと，①観察②推定③予測④計画⑤lowレベルの制御⑥制御というステップを踏む．それぞれがもはや研究テーマだけど，適切にそれぞれを選ばないといけないさらに，良くないのはそれぞれの部分の仮定が影響しあわないように仮定がより簡便なほうに設定されがち（ロボットはゆっくり動く）で全体としてパーフォーマンスが落ちる ★

Slide 16

Slide 16 text

例：ロボット 2020/4/3 -16- この左の研究はロボットを End-to-endで学習させた例結果として積み木を箱にいれることに成功している．最適化は経験から行われる． ★

Slide 17

Slide 17 text

深層強化学習 2020/4/3 -17- 強化学習には，エージェントと環境があって，Actとobs，rewardですべてを左のように設定することができる．さらに，この問題設定で画像認識（正しく画像を認識できたかどうがをrewardに設定）や自然言語処理も扱うことができる． Deepなモデルは強化学習において複雑なタスクをEnd-to-endで解法することを手伝ってくれる ★

Slide 18

Slide 18 text

例：複雑なタスクでの強化学習 2020/4/3 -18- 複雑なタスクを解いている例釘をうったり，見えなくなっているけど Breakout（ブロック崩し）したり，交通整備のタスクに成功している ★

Slide 19

Slide 19 text

なぜ今深層強化学習？ 2020/4/3 -19- これについては見ての通りです．深層学習の発展強化学習でのアルゴリズムの発展コンピュータの発展個人的には一番下が大きいのではと思っています． ★

Slide 20

Slide 20 text

実は発想自体は昔からある 2020/4/3 -20- 実は強化学習と深層学習を組み合わせて複雑な問題を解けるという話は昔から提案されているそうで上の本では，階層型学習や教師あり学習についても述べられているそうです．下の図はこの5年での深層強化学習の発展を紹介 ★

Slide 21

Slide 21 text

意思決定問題を解くための課題 2020/4/3 -21- （複雑なタスクを深層モデルを使って解く）以外に現実の意思決定問題を解くためにどんな問題があるか？強化学習はもともと報酬を最大化することを目的としたものしかしこれだけが意思決定問題において問題なのではない授業内で， • 報酬を学習する • ドメインで知識をTransfer（変換）させる • 予測を使って行動するなどもう少し発展的な内容にも取り組みます ★

Slide 22

Slide 22 text

報酬は一体どこから？ 2020/4/3 -22- ゲームであればスコアがある．しかし，現実の問題はそう単純じゃない．人間だと脳のBasal gangliaが報酬を感じる？そうだけど，そのプロセスは解明されていないし下のガゼルの例でいえば，チーターはランダムにガゼルを捕まえて食べて，よし生き残るのに必要！（報酬獲得！）となり，ガゼルを捕まえるようになるのかというとそうではない．（ガゼルは逃げるのでそんなランダムに動いていてもチーターがガゼルを食べるときはこない）もっと違う何かがある．（経験だけで，報酬は作られない）また，人間は見て，推測することに優れている．（例えば他の人を見て，どんな報酬なんだろうと推測することができる） ★

Slide 23

Slide 23 text

見て学ぶ，見て推測する 2020/4/3 -23- （例えば他の人を見て，どんな報酬なんだろうと推測することができる）けど，他にどんなものを見て学ぶことができるか？ • デモから学習する • 動作の真似をする • 報酬（さっきの例） • 世界を学ぶ • 観察から予測する • 観察から教師なし学習をする • 他のタスクから学ぶ ★

Slide 24

Slide 24 text

模倣学習の例 2020/4/3 -24- 模倣学習の例で自動運転（確かUber）だった気がする下の例は男の人が本を左にある棚にいれようとするシーンで，その意図をくみ取った子供がそれを開けるという動画（見て，報酬がなんなのか推測，扉がどういうものなのかを予測して，報酬を最大化する）こういうことをできないといけないと思う．ぜひ動画をみてみてください ★

Slide 25

Slide 25 text

逆強化学習の例 2020/4/3 -25- 子供の例は複雑すぎるけど，見て報酬を推測する（逆強化学習）の例．これは，人間がロボットにコップの水を移す作業を教えて，報酬を獲得（ポテンシャル）して，どの位置にコップがきても移せるようになるという研究 ★

Slide 26

Slide 26 text

予測の例 2020/4/3 -26- 予測ができないと計画ができない．という話その下の図は，正確なモデルがあると面白い動きができる（複雑な歩行を実現できる）予測の例で，画像を予測している例を示している． ★ ★

Slide 27

Slide 27 text

どうやってintelligentな機械を作るか 2020/4/3 -27- 少し別の話（もっと上のレイヤー）になるけど，どうやってインテリジェントな機械を作るのかを考えてみたい．どこからはじめればいいだろうか？脳を作ればよい？脳はそれぞれの部分について解明が進んでいるからそれぞれの処理を頑張ってコードに書けばいいだろうか？でも，それはとても大変だ．．．ここである仮説があるので紹介します． ★

Slide 28

Slide 28 text

学習こそintelligence 2020/4/3 -28- 仮説というのは学習こそintelligence であるというものというのも， • 歩くといったはみんなができること • 車を運転するといった学べばできるようになること • そして，とても難しいことも学べば人間はできるようになるから，学ぶこと，学習こそが大切なことなのでは？ ★

Slide 29

Slide 29 text

1つのアルゴリズム 2020/4/3 -29- 簡単な1つのアルゴリズムから Intelligenceは成り立っているのだろうか？実際，下から目の情報，音から位置の情報を知る（学んで分かるようになる）ことができるし，フェレットの実験では，耳の情報が入るところに目の情報をつないでもしばらくすると，フェレットは活動することができた ➔1つのアルゴリズムを学ぶことで， Intelligenceは成り立っている ★

Slide 30

Slide 30 text

1つのアルゴリズム 2020/4/3 -30- アルゴリズムがやることはセンサ情報を受け取り，行動を決定すること上記を“学び”たい深層強化学習で上記をやるべきなのは，ディープなモデルはセンサ情報を変化できるし，複雑な行動を決定できるから ★

Slide 31

Slide 31 text

実際の例 2020/4/3 -31- 本当に深層強化学習は複雑なセンサを処理できて，複雑な行動を決定できるのかの例を示している．視覚の処理や，音の処理，ものに触った際の処理を深層学習で表現できている強化学習で言えばある信号に対して必ず良い報酬がもらえるとその信号が良いものとして扱われるようになる（ベルマンバックアップと似てる）などなど ★

Slide 32

Slide 32 text

今の深層強化学習ができること 2020/4/3 -32- 見たままですが， • 既知のルールやシンプルなルールのもとでは高い精度の技術を獲得することができる • たくさんの生データがあればシンプルなスキルを獲得できる • たくさんの教師の動作から模倣することができる ★

Slide 33

Slide 33 text

今の深層強化学習ができないこと 2020/4/3 -33- 見たままですが， • 人はとても早く適応する • 過去の情報をreuseできる（転移の意味） • 報酬関数をどのように設定するか • 予測の役割は？モデルフリーがいいのか，モデルベースがいいのか．．． ★

Slide 34

Slide 34 text

最後に 2020/4/3 -34- 人間の脳は，シンプルな1つのアルゴリズムで表せそうそして，ここである言葉をなぜ大人の脳をシミュレートするプログラムを作る代わりに，子供の脳をシミュレートするものを作らないのですか？もし学ばせることができれば，子供の脳は大人の脳になる． ★