Slide 1

Slide 1 text

Sergey Levine Lecture Remake 第1回 Introduction and Course Overview 2020/04/03 関口舜一 Twitter : https://twitter.com/menomendy Github : https://github.com/Shunichi09 Qiita : https://qiita.com/MENDY https://www.youtube.com/watch?v=opaBjK4TfLc&lis t=PLkFD6_40KJIxJMR- j5A1mkxK26gh_qg37&index=26&t=0s Sergeyの動画 Sergeyの講義PDF http://rail.eecs.berkeley.edu/deeprlcourse- fa18/static/slides/lec-1.pdf

Slide 2

Slide 2 text

このスライドの目的 2020/4/3 -2- 以下のSergey Levineの授業(2018)を 徹底的に理解する • 参考URL • http://rail.eecs.berkeley.edu/deeprlcourse/

Slide 3

Slide 3 text

各回のスライドはgithubにまとめます • https://github.com/Shunichi09/SergeyLectureRemake 2020/4/3 -3-

Slide 4

Slide 4 text

なんでこの授業? • この授業はすごく分かりやすい ‐ 分かりやすすぎて毎回感激するっていうぐらい 後世に残すべき授業,ただ少し理解が必要な部分がある 自分のためにまとめます • 深層強化学習,深層学習,変分推論など 最近の論文を追うのに必要なほぼすべての範囲が網羅 2020/4/3 -4-

Slide 5

Slide 5 text

このスライドについて • 公開されているSergeyの講義資料(2018)を基に 作成しています ‐ 資料 ‐ http://rail.eecs.berkeley.edu/deeprlcourse-fa18/ ‐ 資料から切り出した画像については★を付け,引用していることとします. ‐ 動画 ‐ https://www.youtube.com/playlist?list=PLkFD6_40KJIxJMR- j5A1mkxK26gh_qg37 • 上記2つを見ながらこのスライドを 見てもらえるとよいかもしれないです! 2020/4/3 -5-

Slide 6

Slide 6 text

スライドの構成 2020/4/3 -6- ★ 引用を 表す Sergeyの授業 スライド コメントや 要約など ※必ずではないです あくまで基本構成

Slide 7

Slide 7 text

第一回 • 主な内容 ‐ 強化学習と深層学習 ‐ 深層強化学習になぜ今注目すべきか? ‐ 現在オープンな課題はなにか?強化学習に限らず, 意思決定の問題で 2020/4/3 -7- https://www.youtube.com/watch?v=opaBjK4TfLc&lis t=PLkFD6_40KJIxJMR- j5A1mkxK26gh_qg37&index=26&t=0s Sergeyの動画 Sereyの講義PDF http://rail.eecs.berkeley.edu/deeprlcourse- fa18/static/slides/lec-1.pdf

Slide 8

Slide 8 text

授業の概要(p1~p8) • 本題とは全く関係ないので飛ばしますが,少し補足 ‐ Advancedなクラスです,かつ,特定の授業を先に取得しておいてね! のような条件が付いている講義です. ‐ 受講希望者の人数が取っても多い,2倍といっていた ‐ オフィスアワー(授業の相談)とかは,水曜日の授業終わった後です! (僕の行ってた大学もこういうの作ればよかったのに) ‐ 課題で自動微分ライブラリを使います,Tensorflowがdefaultだけど 別のものを使ってもいいよーとのこと ‐ Piazzaが少しだけ気になりますね 2020/4/3 -8-

Slide 9

Slide 9 text

SFの世界 2020/4/3 -9- ★ このスライドでは, いろんなSFで出てきたロボットを紹介 (一番左のやつ見たことないですね) これらのロボットは,Adaptively(適応的) かつ,Flexible(柔軟)に行動できる では,これらを作るのに • どんな技術が足りていないのか? • どんな問題を解けば,この子たちを 作れるのか? 次で今の技術でできることを紹介します

Slide 10

Slide 10 text

今できることできないこと 2020/4/3 -10- 今の技術である場所からある場所まで を移動させること(navigate)することは 簡単.でも,タンカーには人がいます. この人は,右図のように何かが起きたら 直すということをします. この何かが起きたらというのは, 予期されていないことなので,柔軟にか つ適応的に対応しないといけない. 今の技術では上記を実現するのは かなり難しい. (状況が非常にComplexなので) ★

Slide 11

Slide 11 text

深層学習 2020/4/3 -11- Deep learningはそのUnstructuralなもの に対して強い. Low levelの情報(画像など)から,モデル を構築することができます. 以下その例! ★

Slide 12

Slide 12 text

強化学習 2020/4/3 -12- では,ここで, 強化学習についてみていくと 左の図みたいに,強化学習は 観察情報を使って行動を決定する ための枠組みを提供してくれるものです (要は意思決定問題を解く) 右図がその例 TD-Gammonしらなかったです. ★

Slide 13

Slide 13 text

深層強化学習・導入 2020/4/3 -13- 通常,画像認識を行う場合, HOG特徴量を抽出して,変換して, クラス分類をするという多段階のステップ が必要.(それぞれステップを手で組み合 わせる) 深層学習なら①ハンドメイド的でなくかつ, ②様々なものに勝手に最適化された,モ デルを獲得できる. 深層強化学習でいえば,特に何が大事な のかが分からないため,手でfeatureを抽 出すると,そのfeatureを使う以上の行動 が獲得できない. そこで深層強化学習!! ★

Slide 14

Slide 14 text

深層強化学習・導入 2020/4/3 -14- もう少し深層強化学習(End-to-end) について説明すると, もしジャングルでトラを見た時に 知覚と行動決定のプロセスが分かれてい た場合は,トラだと認識➔どう行動? になる.それだと,どれだけ離れているの かとか,種類は?とかそういう情報が抜 け落ちる. End-to-endでやれば,そこを一気通貫し て学習できる,(もはやトラであることは必 要ない) ★ End- to-end

Slide 15

Slide 15 text

例:ロボット 2020/4/3 -15- ロボットの例も見てみる. ロボットだと,①観察②推定③予測④計 画⑤lowレベルの制御⑥制御 というステップを踏む. それぞれがもはや研究テーマだけど, 適切にそれぞれを選ばないといけない さらに,良くないのはそれぞれの部分の 仮定が影響しあわないように 仮定がより簡便なほうに設定されがち (ロボットはゆっくり動く) で全体としてパーフォーマンスが落ちる ★

Slide 16

Slide 16 text

例:ロボット 2020/4/3 -16- この左の研究はロボットを End-to-endで学習させた例 結果として積み木を箱にいれることに 成功している. 最適化は経験から行われる. ★

Slide 17

Slide 17 text

深層強化学習 2020/4/3 -17- 強化学習には,エージェントと環境があっ て,Actとobs,rewardですべてを左のよう に設定することができる. さらに,この問題設定で 画像認識(正しく画像を認識できたかどう がをrewardに設定)や自然言語処理も 扱うことができる. Deepなモデルは強化学習において 複雑なタスクをEnd-to-endで解法する ことを手伝ってくれる ★

Slide 18

Slide 18 text

例:複雑なタスクでの強化学習 2020/4/3 -18- 複雑なタスクを解いている例 釘をうったり,見えなくなっているけど Breakout(ブロック崩し)したり, 交通整備のタスクに成功している ★

Slide 19

Slide 19 text

なぜ今深層強化学習? 2020/4/3 -19- これについては見ての通りです. 深層学習の発展 強化学習でのアルゴリズムの発展 コンピュータの発展 個人的には一番下が大きいのでは と思っています. ★

Slide 20

Slide 20 text

実は発想自体は昔からある 2020/4/3 -20- 実は強化学習と深層学習を 組み合わせて複雑な問題を解ける という話は昔から提案されているそうで 上の本では,階層型学習や教師あり学習 についても述べられているそうです. 下の図はこの5年での 深層強化学習の発展を紹介 ★

Slide 21

Slide 21 text

意思決定問題を解くための課題 2020/4/3 -21- (複雑なタスクを深層モデルを使って解く) 以外に現実の意思決定問題を解くために どんな問題があるか? 強化学習はもともと報酬を最大化するこ とを目的としたもの しかしこれだけが意思決定問題において 問題なのではない 授業内で, • 報酬を学習する • ドメインで知識をTransfer(変換)させる • 予測を使って行動する などもう少し発展的な内容にも取り組み ます ★

Slide 22

Slide 22 text

報酬は一体どこから? 2020/4/3 -22- ゲームであればスコアがある. しかし,現実の問題はそう単純じゃない. 人間だと脳のBasal gangliaが報酬を感じる?そ うだけど,そのプロセスは解明されていないし 下のガゼルの例でいえば, チーターはランダムにガゼルを捕まえて食べ て,よし生き残るのに必要!(報酬獲得!)と なり,ガゼルを捕まえるようになるのかというと そうではない.(ガゼルは逃げるのでそんなラ ンダムに動いていてもチーターがガゼルを食 べるときはこない)もっと違う何かがある.(経 験だけで,報酬は作られない) また,人間は見て,推測することに 優れている.(例えば他の人を見て, どんな報酬なんだろうと推測することができる) ★

Slide 23

Slide 23 text

見て学ぶ,見て推測する 2020/4/3 -23- (例えば他の人を見て,どんな報酬なん だろうと推測することができる)けど,他に どんなものを見て学ぶことができるか? • デモから学習する • 動作の真似をする • 報酬(さっきの例) • 世界を学ぶ • 観察から予測する • 観察から教師なし学習をする • 他のタスクから学ぶ ★

Slide 24

Slide 24 text

模倣学習の例 2020/4/3 -24- 模倣学習の例で 自動運転(確かUber)だった気がする 下の例は男の人が本を左にある棚にい れようとするシーンで,その意図をくみ 取った子供がそれを開けるという動画 (見て,報酬がなんなのか推測,扉がどう いうものなのかを予測して,報酬を最大 化する) こういうことをできないといけないと 思う. ぜひ動画をみてみてください ★

Slide 25

Slide 25 text

逆強化学習の例 2020/4/3 -25- 子供の例は複雑すぎるけど, 見て報酬を推測する(逆強化学習) の例. これは,人間がロボットにコップの水を 移す作業を教えて,報酬を獲得(ポテン シャル)して,どの位置にコップがきても 移せるようになるという研究 ★

Slide 26

Slide 26 text

予測の例 2020/4/3 -26- 予測ができないと計画ができない.という 話 その下の図は,正確なモデルがあると 面白い動きができる(複雑な歩行を実現 できる) 予測の例で,画像を予測している例 を示している. ★ ★

Slide 27

Slide 27 text

どうやってintelligentな機械を作るか 2020/4/3 -27- 少し別の話(もっと上のレイヤー)になる けど,どうやってインテリジェントな機械を 作るのかを考えてみたい. どこからはじめればいいだろうか? 脳を作ればよい? 脳はそれぞれの部分について解明が 進んでいるからそれぞれの処理を 頑張ってコードに書けばいいだろうか? でも,それはとても大変だ... ここである仮説があるので紹介します. ★

Slide 28

Slide 28 text

学習こそintelligence 2020/4/3 -28- 仮説というのは学習こそintelligence であるというもの というのも, • 歩くといったはみんなができること • 車を運転するといった学べばできるよ うになること • そして,とても難しいことも学べば人間 はできるようになる から, 学ぶこと,学習こそが大切なことなので は? ★

Slide 29

Slide 29 text

1つのアルゴリズム 2020/4/3 -29- 簡単な1つのアルゴリズムから Intelligenceは成り立っているのだろう か? 実際,下から目の情報,音から位置の情 報を知る(学んで分かるようになる) ことができるし, フェレットの実験では,耳の情報が入る ところに目の情報をつないでも しばらくすると, フェレットは活動することができた ➔1つのアルゴリズムを学ぶことで, Intelligenceは成り立っている ★

Slide 30

Slide 30 text

1つのアルゴリズム 2020/4/3 -30- アルゴリズムがやることは センサ情報を受け取り,行動を決定する こと 上記を“学び”たい 深層強化学習で上記をやるべきなのは, ディープなモデルはセンサ情報を変化で きるし,複雑な行動を決定できるから ★

Slide 31

Slide 31 text

実際の例 2020/4/3 -31- 本当に深層強化学習は 複雑なセンサを処理できて, 複雑な行動を決定できるのかの例を示し ている. 視覚の処理や,音の処理,ものに触った 際の処理を深層学習で表現できている 強化学習で言えば ある信号に対して必ず良い報酬がもらえ るとその信号が良いものとして扱われる ようになる(ベルマンバックアップと似て る)などなど ★

Slide 32

Slide 32 text

今の深層強化学習ができること 2020/4/3 -32- 見たままですが, • 既知のルールやシンプルなルールの もとでは高い精度の技術を獲得するこ とができる • たくさんの生データがあればシンプル なスキルを獲得できる • たくさんの教師の動作から模倣するこ とができる ★

Slide 33

Slide 33 text

今の深層強化学習ができないこと 2020/4/3 -33- 見たままですが, • 人はとても早く適応する • 過去の情報をreuseできる(転移の意 味) • 報酬関数をどのように設定するか • 予測の役割は?モデルフリーがいい のか,モデルベースがいいのか... ★

Slide 34

Slide 34 text

最後に 2020/4/3 -34- 人間の脳は, シンプルな1つのアルゴリズムで表せそう そして,ここである言葉を なぜ大人の脳をシミュレートするプログラ ムを作る代わりに,子供の脳をシミュレー トするものを作らないのですか? もし学ばせることができれば, 子供の脳は大人の脳になる. ★