$30 off During Our Annual Pro Sale. View Details »

AIは教えてもらわなければ何もできないのか

 AIは教えてもらわなければ何もできないのか

全脳アーキテクチャ若手の会, 第三回異分野交流会

Takuma Seno

March 21, 2019
Tweet

More Decks by Takuma Seno

Other Decks in Technology

Transcript

  1. AIは教えてもらわないと
    何もできないのか
    慶應義塾大学 今井研究室 M1
    妹尾卓磨
    1

    View Slide

  2. 自己紹介
    妹尾卓磨
    - 慶應義塾大学大学院修士1年
    - 今井研究室所属
    研究テーマ
    - 深層強化学習の基礎研究
    - 強化学習を用いた適応的インタラクション
    2

    View Slide

  3. 作りたいもの
    - 青と白
    - 丸っこい
    - 頼れる
    - 主人公の相棒的存在
    3

    View Slide

  4. 作りたいもの
    4
    https://www.google.co.jp/url?sa=i&source=images&cd=&cad=rja&uact=8&ved=2ahUKEwj8-42Z3IHhAhX5xosBHZtjD_
    cQjRx6BAgBEAU&url=https%3A%2F%2Fstarwars.disney.co.jp%2Fmovie%2Flastjedi%2Fcharacter%2Fr2-d2.html&psi
    g=AOvVaw0-qiCJ0Rmt19KwIqa0Rutt&ust=1552655915918085

    View Slide

  5. R2-D2
    ハードウェア
    5
    ソフトウェア
    ?
    https://youtu.be/V4f3J7tPWAw

    View Slide

  6. 工学屋さんの考え方
    inputとoutputのある箱をどう作るかを考える
    6
    SYSTEM
    input output
    これを作る

    View Slide

  7. R2-D2のソフトウェアをどう作る?
    あらかじめあらゆる状況を想定して作り込めるか?
    - ルールは? if...then…? ifには何がくる?
    - 深層学習?教師データは?
    7
    SYSTEM
    input output

    View Slide

  8. 世の中想定外ばかり
    8
    http://vignette3.wikia.nocookie.net/starwars/images/f/fe/Skyrocke
    tsinflight.jpg/revision/latest?cb=20100125171306 https://www.youtube.com/watch?v=tj70-y9hNLg
    自分で生きる術を学んでほしい

    View Slide

  9. 強化学習
    9

    View Slide

  10. 強化学習とは
    10
    これをたくさんもらえるような行動を学習する機械学習

    View Slide

  11. 強化学習ってどんなことができる?
    11

    View Slide

  12. Deep Q-Network (2015)
    深層強化学習によ
    るゲームプレイ
    Mnih, Volodymyr, Koray Kavukcuoglu, David Silver, Andrei A. Rusu, Joel Veness, Marc
    G. Bellemare, Alex Graves et al. "Human-level control through deep reinforcement
    learning." Nature 518, no. 7540 (2015): 529.
    12
    ここがゲーム

    View Slide

  13. AlphaGo (2016)
    囲碁の世界チャンピ
    オンに強化学習を用
    いて勝利
    13
    ここが囲碁

    View Slide

  14. AlphaStar (2019)
    高度な戦略ゲーム
    でプロプレイヤーに
    勝利
    https://deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/ 14

    View Slide

  15. 大脳基底核
    https://www.thoughtco.com/thmb/utjGsj4RVGGlmzPOUNfK
    PnLBwWc=/768x0/filters:no_upscale():max_bytes(150000):
    strip_icc()/basal_ganglia-57d71c383df78c5833761812.jpg
    パブロフの犬
    15

    View Slide

  16. 強化学習の苦手なもの
    なかなか報酬がもら
    えない問題
    16

    View Slide

  17. マリオとか難しい
    ゴール
    ( 報酬 )
    17

    View Slide

  18. でも人間って報酬もらってる?
    18

    View Slide

  19. 内発的動機
    内発的動機
    行為それ自身が本質的にもつ楽しみや満足のための
    動機、興味、挑戦など
    e.g. 宿題が面白いからやる
    外発的動機
    行為自身とは別の結果を得ることが目的の行為をとり続ける動機、
    操作的価値
    e.g. 宿題を親から怒られないためにやる
    19
    Ryan, Richard M., and Edward L. Deci. "Intrinsic and extrinsic motivations: Classic definitions and new directions."
    Contemporary educational psychology 25, no. 1 (2000): 54-67.

    View Slide

  20. 20

    View Slide

  21. 好奇心駆動探索
    予測誤差が報酬

    外から報酬をもらわ
    なくても探索すること
    でできる
    21
    Pathak, Deepak, Pulkit Agrawal, Alexei A. Efros, and Trevor Darrell. "Curiosity-driven exploration by self-supervised prediction." In
    Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, pp. 16-17. 2017.

    View Slide

  22. Diversity Is All You Need
    なるべく違う行動が出るように報酬を与える
    22
    Eysenbach, Benjamin, Abhishek Gupta, Julian Ibarz, and Sergey Levine. "Diversity is all you need: Learning skills without a
    reward function." arXiv preprint arXiv:1802.06070 (2018).

    View Slide

  23. 神経科学的な内発的動機
    新記事象が発生すると大脳基底核と海馬においてドーパミン領域
    の活性化によって学習が行われる
    どちらもドーパミンが新規事象に関する情報をもち
    - 新規スキルや知識の獲得
    - 脳内での学習信号の生成
    - 獲得後の学習終了
    という特徴をもつ
    23
    Redgrave, Peter, and Kevin Gurney. "The short-latency dopamine signal: a role in discovering novel actions?." Nature reviews neuroscience
    7, no. 12 (2006): 967.
    Kumaran, Dharshan, and Eleanor A. Maguire. "Which computational mechanisms operate in the hippocampus during novelty detection?."
    Hippocampus 17, no. 9 (2007): 735-748.

    View Slide

  24. 未来のAI(そしてきっとR2-D2も)
    24
    内発的動機で自分で勉強 内発的動機で得た知識を
    活かして仕事する

    View Slide

  25. Thank You!!
    25

    View Slide

  26. 僕の考える知能
    あらかじめ設計されていない振る舞いや知識を自律的に
    獲得して環境とインタラクションするもの
    26
    設計されてない

    View Slide

  27. 僕の考える知能: 今のAIに足りてないもの
    今までの知識で未知の環境を扱える
    27
    継続的に知識を蓄積できる

    View Slide