AIは教えてもらわなければ何もできないのか

AIは教えてもらわないと何もできないのか慶應義塾大学今井研究室 M1 妹尾卓磨 1

自己紹介妹尾卓磨 - 慶應義塾大学大学院修士1年 - 今井研究室所属研究テーマ - 深層強化学習の基礎研究 -
強化学習を用いた適応的インタラクション 2

作りたいもの - 青と白 - 丸っこい - 頼れる - 主人公の相棒的存在 3

作りたいもの 4 https://www.google.co.jp/url?sa=i&source=images&cd=&cad=rja&uact=8&ved=2ahUKEwj8-42Z3IHhAhX5xosBHZtjD_ cQjRx6BAgBEAU&url=https%3A%2F%2Fstarwars.disney.co.jp%2Fmovie%2Flastjedi%2Fcharacter%2Fr2-d2.html&psi g=AOvVaw0-qiCJ0Rmt19KwIqa0Rutt&ust=1552655915918085

R2-D2 ハードウェア 5 ソフトウェア ? https://youtu.be/V4f3J7tPWAw

工学屋さんの考え方 inputとoutputのある箱をどう作るかを考える 6 SYSTEM input output これを作る

R2-D2のソフトウェアをどう作る？あらかじめあらゆる状況を想定して作り込めるか？ - ルールは？ if...then…? ifには何がくる？ - 深層学習？教師データは？ 7 SYSTEM
input output

世の中想定外ばかり 8 http://vignette3.wikia.nocookie.net/starwars/images/f/fe/Skyrocke tsinflight.jpg/revision/latest?cb=20100125171306 https://www.youtube.com/watch?v=tj70-y9hNLg 自分で生きる術を学んでほしい

強化学習 9

強化学習とは 10 これをたくさんもらえるような行動を学習する機械学習

強化学習ってどんなことができる？ 11

Deep Q-Network (2015) 深層強化学習によるゲームプレイ Mnih, Volodymyr, Koray Kavukcuoglu, David
Silver, Andrei A. Rusu, Joel Veness, Marc G. Bellemare, Alex Graves et al. "Human-level control through deep reinforcement learning." Nature 518, no. 7540 (2015): 529. 12 ここがゲーム

AlphaGo (2016) 囲碁の世界チャンピオンに強化学習を用いて勝利 13 ここが囲碁

AlphaStar (2019) 高度な戦略ゲームでプロプレイヤーに勝利 https://deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/ 14

大脳基底核 https://www.thoughtco.com/thmb/utjGsj4RVGGlmzPOUNfK PnLBwWc=/768x0/filters:no_upscale():max_bytes(150000): strip_icc()/basal_ganglia-57d71c383df78c5833761812.jpg パブロフの犬 15

強化学習の苦手なものなかなか報酬がもらえない問題 16

マリオとか難しいゴール ( 報酬 ) 17

でも人間って報酬もらってる？ 18

内発的動機内発的動機行為それ自身が本質的にもつ楽しみや満足のための動機、興味、挑戦など e.g. 宿題が面白いからやる外発的動機行為自身とは別の結果を得ることが目的の行為をとり続ける動機、操作的価値 e.g.
宿題を親から怒られないためにやる 19 Ryan, Richard M., and Edward L. Deci. "Intrinsic and extrinsic motivations: Classic definitions and new directions." Contemporary educational psychology 25, no. 1 (2000): 54-67.

好奇心駆動探索予測誤差が報酬 ⬇ 外から報酬をもらわなくても探索することでできる 21 Pathak, Deepak, Pulkit
Agrawal, Alexei A. Efros, and Trevor Darrell. "Curiosity-driven exploration by self-supervised prediction." In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, pp. 16-17. 2017.

Diversity Is All You Need なるべく違う行動が出るように報酬を与える 22 Eysenbach, Benjamin, Abhishek
Gupta, Julian Ibarz, and Sergey Levine. "Diversity is all you need: Learning skills without a reward function." arXiv preprint arXiv:1802.06070 (2018).

神経科学的な内発的動機新記事象が発生すると大脳基底核と海馬においてドーパミン領域の活性化によって学習が行われるどちらもドーパミンが新規事象に関する情報をもち - 新規スキルや知識の獲得 - 脳内での学習信号の生成 - 獲得後の学習終了
という特徴をもつ 23 Redgrave, Peter, and Kevin Gurney. "The short-latency dopamine signal: a role in discovering novel actions?." Nature reviews neuroscience 7, no. 12 (2006): 967. Kumaran, Dharshan, and Eleanor A. Maguire. "Which computational mechanisms operate in the hippocampus during novelty detection?." Hippocampus 17, no. 9 (2007): 735-748.

未来のAI（そしてきっとR2-D2も） 24 内発的動機で自分で勉強内発的動機で得た知識を活かして仕事する

Thank You!! 25

僕の考える知能あらかじめ設計されていない振る舞いや知識を自律的に獲得して環境とインタラクションするもの 26 設計されてない

僕の考える知能: 今のAIに足りてないもの今までの知識で未知の環境を扱える 27 継続的に知識を蓄積できる

AIは教えてもらわなければ何もできないのか

AIは教えてもらわなければ何もできないのか

Takuma Seno

More Decks by Takuma Seno

Other Decks in Technology

Featured

Transcript

AIは教えてもらわないと何もできないのか慶應義塾大学今井研究室 M1 妹尾卓磨 1

自己紹介妹尾卓磨 - 慶應義塾大学大学院修士1年 - 今井研究室所属研究テーマ - 深層強化学習の基礎研究 -

作りたいもの - 青と白 - 丸っこい - 頼れる - 主人公の相棒的存在 3

作りたいもの 4 https://www.google.co.jp/url?sa=i&source=images&cd=&cad=rja&uact=8&ved=2ahUKEwj8-42Z3IHhAhX5xosBHZtjD_ cQjRx6BAgBEAU&url=https%3A%2F%2Fstarwars.disney.co.jp%2Fmovie%2Flastjedi%2Fcharacter%2Fr2-d2.html&psi g=AOvVaw0-qiCJ0Rmt19KwIqa0Rutt&ust=1552655915918085

R2-D2 ハードウェア 5 ソフトウェア ? https://youtu.be/V4f3J7tPWAw

工学屋さんの考え方 inputとoutputのある箱をどう作るかを考える 6 SYSTEM input output これを作る

R2-D2のソフトウェアをどう作る？あらかじめあらゆる状況を想定して作り込めるか？ - ルールは？ if...then…? ifには何がくる？ - 深層学習？教師データは？ 7 SYSTEM

世の中想定外ばかり 8 http://vignette3.wikia.nocookie.net/starwars/images/f/fe/Skyrocke tsinflight.jpg/revision/latest?cb=20100125171306 https://www.youtube.com/watch?v=tj70-y9hNLg 自分で生きる術を学んでほしい

強化学習 9

強化学習とは 10 これをたくさんもらえるような行動を学習する機械学習

強化学習ってどんなことができる？ 11

Deep Q-Network (2015) 深層強化学習によるゲームプレイ Mnih, Volodymyr, Koray Kavukcuoglu, David

AlphaGo (2016) 囲碁の世界チャンピオンに強化学習を用いて勝利 13 ここが囲碁

AlphaStar (2019) 高度な戦略ゲームでプロプレイヤーに勝利 https://deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/ 14

大脳基底核 https://www.thoughtco.com/thmb/utjGsj4RVGGlmzPOUNfK PnLBwWc=/768x0/filters:no_upscale():max_bytes(150000): strip_icc()/basal_ganglia-57d71c383df78c5833761812.jpg パブロフの犬 15

強化学習の苦手なものなかなか報酬がもらえない問題 16

マリオとか難しいゴール ( 報酬 ) 17

でも人間って報酬もらってる？ 18

内発的動機内発的動機行為それ自身が本質的にもつ楽しみや満足のための動機、興味、挑戦など e.g. 宿題が面白いからやる外発的動機行為自身とは別の結果を得ることが目的の行為をとり続ける動機、操作的価値 e.g.

20

好奇心駆動探索予測誤差が報酬 ⬇ 外から報酬をもらわなくても探索することでできる 21 Pathak, Deepak, Pulkit

Diversity Is All You Need なるべく違う行動が出るように報酬を与える 22 Eysenbach, Benjamin, Abhishek

未来のAI（そしてきっとR2-D2も） 24 内発的動機で自分で勉強内発的動機で得た知識を活かして仕事する

Thank You!! 25

僕の考える知能あらかじめ設計されていない振る舞いや知識を自律的に獲得して環境とインタラクションするもの 26 設計されてない

僕の考える知能: 今のAIに足りてないもの今までの知識で未知の環境を扱える 27 継続的に知識を蓄積できる