AIは教えてもらわなければ何もできないのか

 AIは教えてもらわなければ何もできないのか

全脳アーキテクチャ若手の会, 第三回異分野交流会

6711b98e551cf77257ca33c86b748eec?s=128

Takuma Seno

March 21, 2019
Tweet

Transcript

  1. AIは教えてもらわないと 何もできないのか 慶應義塾大学 今井研究室 M1 妹尾卓磨 1

  2. 自己紹介 妹尾卓磨 - 慶應義塾大学大学院修士1年 - 今井研究室所属 研究テーマ - 深層強化学習の基礎研究 -

    強化学習を用いた適応的インタラクション 2
  3. 作りたいもの - 青と白 - 丸っこい - 頼れる - 主人公の相棒的存在 3

  4. 作りたいもの 4 https://www.google.co.jp/url?sa=i&source=images&cd=&cad=rja&uact=8&ved=2ahUKEwj8-42Z3IHhAhX5xosBHZtjD_ cQjRx6BAgBEAU&url=https%3A%2F%2Fstarwars.disney.co.jp%2Fmovie%2Flastjedi%2Fcharacter%2Fr2-d2.html&psi g=AOvVaw0-qiCJ0Rmt19KwIqa0Rutt&ust=1552655915918085

  5. R2-D2 ハードウェア 5 ソフトウェア ? https://youtu.be/V4f3J7tPWAw

  6. 工学屋さんの考え方 inputとoutputのある箱をどう作るかを考える 6 SYSTEM input output これを作る

  7. R2-D2のソフトウェアをどう作る? あらかじめあらゆる状況を想定して作り込めるか? - ルールは? if...then…? ifには何がくる? - 深層学習?教師データは? 7 SYSTEM

    input output
  8. 世の中想定外ばかり 8 http://vignette3.wikia.nocookie.net/starwars/images/f/fe/Skyrocke tsinflight.jpg/revision/latest?cb=20100125171306 https://www.youtube.com/watch?v=tj70-y9hNLg 自分で生きる術を学んでほしい

  9. 強化学習 9

  10. 強化学習とは 10 これをたくさんもらえるような行動を学習する機械学習

  11. 強化学習ってどんなことができる? 11

  12. Deep Q-Network (2015) 深層強化学習によ るゲームプレイ Mnih, Volodymyr, Koray Kavukcuoglu, David

    Silver, Andrei A. Rusu, Joel Veness, Marc G. Bellemare, Alex Graves et al. "Human-level control through deep reinforcement learning." Nature 518, no. 7540 (2015): 529. 12 ここがゲーム
  13. AlphaGo (2016) 囲碁の世界チャンピ オンに強化学習を用 いて勝利 13 ここが囲碁

  14. AlphaStar (2019) 高度な戦略ゲーム でプロプレイヤーに 勝利 https://deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/ 14

  15. 大脳基底核 https://www.thoughtco.com/thmb/utjGsj4RVGGlmzPOUNfK PnLBwWc=/768x0/filters:no_upscale():max_bytes(150000): strip_icc()/basal_ganglia-57d71c383df78c5833761812.jpg パブロフの犬 15

  16. 強化学習の苦手なもの なかなか報酬がもら えない問題 16

  17. マリオとか難しい ゴール ( 報酬 ) 17

  18. でも人間って報酬もらってる? 18

  19. 内発的動機 内発的動機 行為それ自身が本質的にもつ楽しみや満足のための 動機、興味、挑戦など e.g. 宿題が面白いからやる 外発的動機 行為自身とは別の結果を得ることが目的の行為をとり続ける動機、 操作的価値 e.g.

    宿題を親から怒られないためにやる 19 Ryan, Richard M., and Edward L. Deci. "Intrinsic and extrinsic motivations: Classic definitions and new directions." Contemporary educational psychology 25, no. 1 (2000): 54-67.
  20. 20

  21. 好奇心駆動探索 予測誤差が報酬 ⬇ 外から報酬をもらわ なくても探索すること でできる 21 Pathak, Deepak, Pulkit

    Agrawal, Alexei A. Efros, and Trevor Darrell. "Curiosity-driven exploration by self-supervised prediction." In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, pp. 16-17. 2017.
  22. Diversity Is All You Need なるべく違う行動が出るように報酬を与える 22 Eysenbach, Benjamin, Abhishek

    Gupta, Julian Ibarz, and Sergey Levine. "Diversity is all you need: Learning skills without a reward function." arXiv preprint arXiv:1802.06070 (2018).
  23. 神経科学的な内発的動機 新記事象が発生すると大脳基底核と海馬においてドーパミン領域 の活性化によって学習が行われる どちらもドーパミンが新規事象に関する情報をもち - 新規スキルや知識の獲得 - 脳内での学習信号の生成 - 獲得後の学習終了

    という特徴をもつ 23 Redgrave, Peter, and Kevin Gurney. "The short-latency dopamine signal: a role in discovering novel actions?." Nature reviews neuroscience 7, no. 12 (2006): 967. Kumaran, Dharshan, and Eleanor A. Maguire. "Which computational mechanisms operate in the hippocampus during novelty detection?." Hippocampus 17, no. 9 (2007): 735-748.
  24. 未来のAI(そしてきっとR2-D2も) 24 内発的動機で自分で勉強 内発的動機で得た知識を 活かして仕事する

  25. Thank You!! 25

  26. 僕の考える知能 あらかじめ設計されていない振る舞いや知識を自律的に 獲得して環境とインタラクションするもの 26 設計されてない

  27. 僕の考える知能: 今のAIに足りてないもの 今までの知識で未知の環境を扱える 27 継続的に知識を蓄積できる