Sergey Levine Lecture Remake 1st Introduction and Overview

Sergey Levine Lecture Remake 第1回 Introduction and Course Overview 2020/04/03
関口舜一 Twitter : https://twitter.com/menomendy Github : https://github.com/Shunichi09 Qiita : https://qiita.com/MENDY https://www.youtube.com/watch?v=opaBjK4TfLc&lis t=PLkFD6_40KJIxJMR- j5A1mkxK26gh_qg37&index=26&t=0s Sergeyの動画 Sergeyの講義PDF http://rail.eecs.berkeley.edu/deeprlcourse- fa18/static/slides/lec-1.pdf

このスライドの目的 2020/4/3 -2- 以下のSergey Levineの授業（2018）を徹底的に理解する • 参考URL • http://rail.eecs.berkeley.edu/deeprlcourse/

各回のスライドはgithubにまとめます • https://github.com/Shunichi09/SergeyLectureRemake 2020/4/3 -3-

なんでこの授業？ • この授業はすごく分かりやすい ‐ 分かりやすすぎて毎回感激するっていうぐらい後世に残すべき授業，ただ少し理解が必要な部分がある自分のためにまとめます • 深層強化学習，深層学習，変分推論など最近の論文を追うのに必要なほぼすべての範囲が網羅
2020/4/3 -4-

このスライドについて • 公開されているSergeyの講義資料（2018）を基に作成しています ‐ 資料 ‐ http://rail.eecs.berkeley.edu/deeprlcourse-fa18/ ‐ 資料から切り出した画像については★を付け，引用していることとします．
‐ 動画 ‐ https://www.youtube.com/playlist?list=PLkFD6_40KJIxJMR- j5A1mkxK26gh_qg37 • 上記2つを見ながらこのスライドを見てもらえるとよいかもしれないです！ 2020/4/3 -5-

スライドの構成 2020/4/3 -6- ★ 引用を表す Sergeyの授業スライドコメントや要約など
※必ずではないですあくまで基本構成

第一回 • 主な内容 ‐ 強化学習と深層学習 ‐ 深層強化学習になぜ今注目すべきか？ ‐ 現在オープンな課題はなにか？強化学習に限らず，意思決定の問題で
2020/4/3 -7- https://www.youtube.com/watch?v=opaBjK4TfLc&lis t=PLkFD6_40KJIxJMR- j5A1mkxK26gh_qg37&index=26&t=0s Sergeyの動画 Sereyの講義PDF http://rail.eecs.berkeley.edu/deeprlcourse- fa18/static/slides/lec-1.pdf

授業の概要（p1~p8） • 本題とは全く関係ないので飛ばしますが，少し補足 ‐ Advancedなクラスです，かつ，特定の授業を先に取得しておいてね！のような条件が付いている講義です． ‐ 受講希望者の人数が取っても多い，2倍といっていた ‐ オフィスアワー（授業の相談）とかは，水曜日の授業終わった後です！
（僕の行ってた大学もこういうの作ればよかったのに） ‐ 課題で自動微分ライブラリを使います，Tensorflowがdefaultだけど別のものを使ってもいいよーとのこと ‐ Piazzaが少しだけ気になりますね 2020/4/3 -8-

SFの世界 2020/4/3 -9- ★ このスライドでは，いろんなSFで出てきたロボットを紹介（一番左のやつ見たことないですね）これらのロボットは，Adaptively（適応的）かつ，Flexible（柔軟）に行動できるでは，これらを作るのに
• どんな技術が足りていないのか？ • どんな問題を解けば，この子たちを作れるのか？次で今の技術でできることを紹介します

今できることできないこと 2020/4/3 -10- 今の技術である場所からある場所までを移動させること（navigate）することは簡単．でも，タンカーには人がいます．この人は，右図のように何かが起きたら直すということをします．この何かが起きたらというのは，予期されていないことなので，柔軟にか
つ適応的に対応しないといけない．今の技術では上記を実現するのはかなり難しい．（状況が非常にComplexなので） ★

深層学習 2020/4/3 -11- Deep learningはそのUnstructuralなものに対して強い． Low levelの情報（画像など）から，モデルを構築することができます．以下その例！
★

強化学習 2020/4/3 -12- では，ここで，強化学習についてみていくと左の図みたいに，強化学習は観察情報を使って行動を決定するための枠組みを提供してくれるものです（要は意思決定問題を解く）右図がその例
TD-Gammonしらなかったです． ★

深層強化学習・導入 2020/4/3 -13- 通常，画像認識を行う場合， HOG特徴量を抽出して，変換して，クラス分類をするという多段階のステップが必要．（それぞれステップを手で組み合わせる）深層学習なら①ハンドメイド的でなくかつ， ②様々なものに勝手に最適化された，モ
デルを獲得できる．深層強化学習でいえば，特に何が大事なのかが分からないため，手でfeatureを抽出すると，そのfeatureを使う以上の行動が獲得できない．そこで深層強化学習！！ ★

深層強化学習・導入 2020/4/3 -14- もう少し深層強化学習（End-to-end）について説明すると，もしジャングルでトラを見た時に知覚と行動決定のプロセスが分かれていた場合は，トラだと認識➔どう行動？になる．それだと，どれだけ離れているのかとか，種類は？とかそういう情報が抜
け落ちる． End-to-endでやれば，そこを一気通貫して学習できる，（もはやトラであることは必要ない） ★ End- to-end

例：ロボット 2020/4/3 -15- ロボットの例も見てみる．ロボットだと，①観察②推定③予測④計画⑤lowレベルの制御⑥制御というステップを踏む．それぞれがもはや研究テーマだけど，適切にそれぞれを選ばないといけないさらに，良くないのはそれぞれの部分の
仮定が影響しあわないように仮定がより簡便なほうに設定されがち（ロボットはゆっくり動く）で全体としてパーフォーマンスが落ちる ★

例：ロボット 2020/4/3 -16- この左の研究はロボットを End-to-endで学習させた例結果として積み木を箱にいれることに成功している．最適化は経験から行われる． ★

深層強化学習 2020/4/3 -17- 強化学習には，エージェントと環境があって，Actとobs，rewardですべてを左のように設定することができる．さらに，この問題設定で画像認識（正しく画像を認識できたかどうがをrewardに設定）や自然言語処理も扱うことができる．
Deepなモデルは強化学習において複雑なタスクをEnd-to-endで解法することを手伝ってくれる ★

例：複雑なタスクでの強化学習 2020/4/3 -18- 複雑なタスクを解いている例釘をうったり，見えなくなっているけど Breakout（ブロック崩し）したり，交通整備のタスクに成功している ★

なぜ今深層強化学習？ 2020/4/3 -19- これについては見ての通りです．深層学習の発展強化学習でのアルゴリズムの発展コンピュータの発展個人的には一番下が大きいのではと思っています． ★

実は発想自体は昔からある 2020/4/3 -20- 実は強化学習と深層学習を組み合わせて複雑な問題を解けるという話は昔から提案されているそうで上の本では，階層型学習や教師あり学習についても述べられているそうです．下の図はこの5年での深層強化学習の発展を紹介
★

意思決定問題を解くための課題 2020/4/3 -21- （複雑なタスクを深層モデルを使って解く）以外に現実の意思決定問題を解くためにどんな問題があるか？強化学習はもともと報酬を最大化することを目的としたものしかしこれだけが意思決定問題において問題なのではない
授業内で， • 報酬を学習する • ドメインで知識をTransfer（変換）させる • 予測を使って行動するなどもう少し発展的な内容にも取り組みます ★

報酬は一体どこから？ 2020/4/3 -22- ゲームであればスコアがある．しかし，現実の問題はそう単純じゃない．人間だと脳のBasal gangliaが報酬を感じる？そうだけど，そのプロセスは解明されていないし下のガゼルの例でいえば，チーターはランダムにガゼルを捕まえて食べ
て，よし生き残るのに必要！（報酬獲得！）となり，ガゼルを捕まえるようになるのかというとそうではない．（ガゼルは逃げるのでそんなランダムに動いていてもチーターがガゼルを食べるときはこない）もっと違う何かがある．（経験だけで，報酬は作られない）また，人間は見て，推測することに優れている．（例えば他の人を見て，どんな報酬なんだろうと推測することができる） ★

見て学ぶ，見て推測する 2020/4/3 -23- （例えば他の人を見て，どんな報酬なんだろうと推測することができる）けど，他にどんなものを見て学ぶことができるか？ • デモから学習する • 動作の真似をする
• 報酬（さっきの例） • 世界を学ぶ • 観察から予測する • 観察から教師なし学習をする • 他のタスクから学ぶ ★

模倣学習の例 2020/4/3 -24- 模倣学習の例で自動運転（確かUber）だった気がする下の例は男の人が本を左にある棚にいれようとするシーンで，その意図をくみ取った子供がそれを開けるという動画（見て，報酬がなんなのか推測，扉がどういうものなのかを予測して，報酬を最大
化する）こういうことをできないといけないと思う．ぜひ動画をみてみてください ★

逆強化学習の例 2020/4/3 -25- 子供の例は複雑すぎるけど，見て報酬を推測する（逆強化学習）の例．これは，人間がロボットにコップの水を移す作業を教えて，報酬を獲得（ポテンシャル）して，どの位置にコップがきても移せるようになるという研究
★

予測の例 2020/4/3 -26- 予測ができないと計画ができない．という話その下の図は，正確なモデルがあると面白い動きができる（複雑な歩行を実現できる）予測の例で，画像を予測している例を示している．
★ ★

どうやってintelligentな機械を作るか 2020/4/3 -27- 少し別の話（もっと上のレイヤー）になるけど，どうやってインテリジェントな機械を作るのかを考えてみたい．どこからはじめればいいだろうか？脳を作ればよい？脳はそれぞれの部分について解明が進んでいるからそれぞれの処理を
頑張ってコードに書けばいいだろうか？でも，それはとても大変だ．．．ここである仮説があるので紹介します． ★

学習こそintelligence 2020/4/3 -28- 仮説というのは学習こそintelligence であるというものというのも， • 歩くといったはみんなができること • 車を運転するといった学べばできるよ
うになること • そして，とても難しいことも学べば人間はできるようになるから，学ぶこと，学習こそが大切なことなのでは？ ★

1つのアルゴリズム 2020/4/3 -29- 簡単な1つのアルゴリズムから Intelligenceは成り立っているのだろうか？実際，下から目の情報，音から位置の情報を知る（学んで分かるようになる）ことができるし，フェレットの実験では，耳の情報が入る
ところに目の情報をつないでもしばらくすると，フェレットは活動することができた ➔1つのアルゴリズムを学ぶことで， Intelligenceは成り立っている ★

1つのアルゴリズム 2020/4/3 -30- アルゴリズムがやることはセンサ情報を受け取り，行動を決定すること上記を“学び”たい深層強化学習で上記をやるべきなのは，ディープなモデルはセンサ情報を変化できるし，複雑な行動を決定できるから
★

実際の例 2020/4/3 -31- 本当に深層強化学習は複雑なセンサを処理できて，複雑な行動を決定できるのかの例を示している．視覚の処理や，音の処理，ものに触った際の処理を深層学習で表現できている強化学習で言えば
ある信号に対して必ず良い報酬がもらえるとその信号が良いものとして扱われるようになる（ベルマンバックアップと似てる）などなど ★

今の深層強化学習ができること 2020/4/3 -32- 見たままですが， • 既知のルールやシンプルなルールのもとでは高い精度の技術を獲得することができる • たくさんの生データがあればシンプル
なスキルを獲得できる • たくさんの教師の動作から模倣することができる ★

今の深層強化学習ができないこと 2020/4/3 -33- 見たままですが， • 人はとても早く適応する • 過去の情報をreuseできる（転移の意味） •
報酬関数をどのように設定するか • 予測の役割は？モデルフリーがいいのか，モデルベースがいいのか．．． ★

最後に 2020/4/3 -34- 人間の脳は，シンプルな1つのアルゴリズムで表せそうそして，ここである言葉をなぜ大人の脳をシミュレートするプログラムを作る代わりに，子供の脳をシミュレートするものを作らないのですか？もし学ばせることができれば，
子供の脳は大人の脳になる． ★

Sergey Levine Lecture Remake 1st Introduction a...

Sergey Levine Lecture Remake 1st Introduction and Overview

Shunichi09

More Decks by Shunichi09

Other Decks in Research

Featured

Transcript

Sergey Levine Lecture Remake 第1回 Introduction and Course Overview 2020/04/03

このスライドの目的 2020/4/3 -2- 以下のSergey Levineの授業（2018）を徹底的に理解する • 参考URL • http://rail.eecs.berkeley.edu/deeprlcourse/

各回のスライドはgithubにまとめます • https://github.com/Shunichi09/SergeyLectureRemake 2020/4/3 -3-

このスライドについて • 公開されているSergeyの講義資料（2018）を基に作成しています ‐ 資料 ‐ http://rail.eecs.berkeley.edu/deeprlcourse-fa18/ ‐ 資料から切り出した画像については★を付け，引用していることとします．

スライドの構成 2020/4/3 -6- ★ 引用を表す Sergeyの授業スライドコメントや要約など

第一回 • 主な内容 ‐ 強化学習と深層学習 ‐ 深層強化学習になぜ今注目すべきか？ ‐ 現在オープンな課題はなにか？強化学習に限らず，意思決定の問題で

SFの世界 2020/4/3 -9- ★ このスライドでは，いろんなSFで出てきたロボットを紹介（一番左のやつ見たことないですね）これらのロボットは，Adaptively（適応的）かつ，Flexible（柔軟）に行動できるでは，これらを作るのに

深層学習 2020/4/3 -11- Deep learningはそのUnstructuralなものに対して強い． Low levelの情報（画像など）から，モデルを構築することができます．以下その例！

強化学習 2020/4/3 -12- では，ここで，強化学習についてみていくと左の図みたいに，強化学習は観察情報を使って行動を決定するための枠組みを提供してくれるものです（要は意思決定問題を解く）右図がその例

例：ロボット 2020/4/3 -16- この左の研究はロボットを End-to-endで学習させた例結果として積み木を箱にいれることに成功している．最適化は経験から行われる． ★

例：複雑なタスクでの強化学習 2020/4/3 -18- 複雑なタスクを解いている例釘をうったり，見えなくなっているけど Breakout（ブロック崩し）したり，交通整備のタスクに成功している ★

なぜ今深層強化学習？ 2020/4/3 -19- これについては見ての通りです．深層学習の発展強化学習でのアルゴリズムの発展コンピュータの発展個人的には一番下が大きいのではと思っています． ★

見て学ぶ，見て推測する 2020/4/3 -23- （例えば他の人を見て，どんな報酬なんだろうと推測することができる）けど，他にどんなものを見て学ぶことができるか？ • デモから学習する • 動作の真似をする

予測の例 2020/4/3 -26- 予測ができないと計画ができない．という話その下の図は，正確なモデルがあると面白い動きができる（複雑な歩行を実現できる）予測の例で，画像を予測している例を示している．

学習こそintelligence 2020/4/3 -28- 仮説というのは学習こそintelligence であるというものというのも， • 歩くといったはみんなができること • 車を運転するといった学べばできるよ

実際の例 2020/4/3 -31- 本当に深層強化学習は複雑なセンサを処理できて，複雑な行動を決定できるのかの例を示している．視覚の処理や，音の処理，ものに触った際の処理を深層学習で表現できている強化学習で言えば

今の深層強化学習ができること 2020/4/3 -32- 見たままですが， • 既知のルールやシンプルなルールのもとでは高い精度の技術を獲得することができる • たくさんの生データがあればシンプル

今の深層強化学習ができないこと 2020/4/3 -33- 見たままですが， • 人はとても早く適応する • 過去の情報をreuseできる（転移の意味） •