AIは教えてもらわなければ何もできないのか

by Takuma Seno

Slide 1

Slide 1 text

AIは教えてもらわないと何もできないのか慶應義塾大学今井研究室 M1 妹尾卓磨 1

Slide 2

Slide 2 text

自己紹介妹尾卓磨 - 慶應義塾大学大学院修士1年 - 今井研究室所属研究テーマ - 深層強化学習の基礎研究 - 強化学習を用いた適応的インタラクション 2

Slide 3

Slide 3 text

作りたいもの - 青と白 - 丸っこい - 頼れる - 主人公の相棒的存在 3

Slide 4

Slide 4 text

作りたいもの 4 https://www.google.co.jp/url?sa=i&source=images&cd=&cad=rja&uact=8&ved=2ahUKEwj8-42Z3IHhAhX5xosBHZtjD_ cQjRx6BAgBEAU&url=https%3A%2F%2Fstarwars.disney.co.jp%2Fmovie%2Flastjedi%2Fcharacter%2Fr2-d2.html&psi g=AOvVaw0-qiCJ0Rmt19KwIqa0Rutt&ust=1552655915918085

Slide 5

Slide 5 text

R2-D2 ハードウェア 5 ソフトウェア ? https://youtu.be/V4f3J7tPWAw

Slide 6

Slide 6 text

工学屋さんの考え方 inputとoutputのある箱をどう作るかを考える 6 SYSTEM input output これを作る

Slide 7

Slide 7 text

R2-D2のソフトウェアをどう作る？あらかじめあらゆる状況を想定して作り込めるか？ - ルールは？ if...then…? ifには何がくる？ - 深層学習？教師データは？ 7 SYSTEM input output

Slide 8

Slide 8 text

世の中想定外ばかり 8 http://vignette3.wikia.nocookie.net/starwars/images/f/fe/Skyrocke tsinflight.jpg/revision/latest?cb=20100125171306 https://www.youtube.com/watch?v=tj70-y9hNLg 自分で生きる術を学んでほしい

Slide 9

Slide 9 text

強化学習 9

Slide 10

Slide 10 text

強化学習とは 10 これをたくさんもらえるような行動を学習する機械学習

Slide 11

Slide 11 text

強化学習ってどんなことができる？ 11

Slide 12

Slide 12 text

Deep Q-Network (2015) 深層強化学習によるゲームプレイ Mnih, Volodymyr, Koray Kavukcuoglu, David Silver, Andrei A. Rusu, Joel Veness, Marc G. Bellemare, Alex Graves et al. "Human-level control through deep reinforcement learning." Nature 518, no. 7540 (2015): 529. 12 ここがゲーム

Slide 13

Slide 13 text

AlphaGo (2016) 囲碁の世界チャンピオンに強化学習を用いて勝利 13 ここが囲碁

Slide 14

Slide 14 text

AlphaStar (2019) 高度な戦略ゲームでプロプレイヤーに勝利 https://deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/ 14

Slide 15

Slide 15 text

大脳基底核 https://www.thoughtco.com/thmb/utjGsj4RVGGlmzPOUNfK PnLBwWc=/768x0/filters:no_upscale():max_bytes(150000): strip_icc()/basal_ganglia-57d71c383df78c5833761812.jpg パブロフの犬 15

Slide 16

Slide 16 text

強化学習の苦手なものなかなか報酬がもらえない問題 16

Slide 17

Slide 17 text

マリオとか難しいゴール ( 報酬 ) 17

Slide 18

Slide 18 text

でも人間って報酬もらってる？ 18

Slide 19

Slide 19 text

内発的動機内発的動機行為それ自身が本質的にもつ楽しみや満足のための動機、興味、挑戦など e.g. 宿題が面白いからやる外発的動機行為自身とは別の結果を得ることが目的の行為をとり続ける動機、操作的価値 e.g. 宿題を親から怒られないためにやる 19 Ryan, Richard M., and Edward L. Deci. "Intrinsic and extrinsic motivations: Classic definitions and new directions." Contemporary educational psychology 25, no. 1 (2000): 54-67.

Slide 20

Slide 20 text

Slide 21

Slide 21 text

好奇心駆動探索予測誤差が報酬 ⬇ 外から報酬をもらわなくても探索することでできる 21 Pathak, Deepak, Pulkit Agrawal, Alexei A. Efros, and Trevor Darrell. "Curiosity-driven exploration by self-supervised prediction." In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, pp. 16-17. 2017.

Slide 22

Slide 22 text

Diversity Is All You Need なるべく違う行動が出るように報酬を与える 22 Eysenbach, Benjamin, Abhishek Gupta, Julian Ibarz, and Sergey Levine. "Diversity is all you need: Learning skills without a reward function." arXiv preprint arXiv:1802.06070 (2018).

Slide 23

Slide 23 text

神経科学的な内発的動機新記事象が発生すると大脳基底核と海馬においてドーパミン領域の活性化によって学習が行われるどちらもドーパミンが新規事象に関する情報をもち - 新規スキルや知識の獲得 - 脳内での学習信号の生成 - 獲得後の学習終了という特徴をもつ 23 Redgrave, Peter, and Kevin Gurney. "The short-latency dopamine signal: a role in discovering novel actions?." Nature reviews neuroscience 7, no. 12 (2006): 967. Kumaran, Dharshan, and Eleanor A. Maguire. "Which computational mechanisms operate in the hippocampus during novelty detection?." Hippocampus 17, no. 9 (2007): 735-748.

Slide 24

Slide 24 text

未来のAI（そしてきっとR2-D2も） 24 内発的動機で自分で勉強内発的動機で得た知識を活かして仕事する

Slide 25

Slide 25 text

Thank You!! 25

Slide 26

Slide 26 text

僕の考える知能あらかじめ設計されていない振る舞いや知識を自律的に獲得して環境とインタラクションするもの 26 設計されてない

Slide 27

Slide 27 text

僕の考える知能: 今のAIに足りてないもの今までの知識で未知の環境を扱える 27 継続的に知識を蓄積できる