$30 off During Our Annual Pro Sale. View Details »

ゲームAI、メタバース、スマートシティ

miyayou
July 21, 2023

 ゲームAI、メタバース、スマートシティ

本日の大学講義用の資料です。

miyayou

July 21, 2023
Tweet

More Decks by miyayou

Other Decks in Education

Transcript

  1. ゲームAI、メタバース、
    スマートシティ
    三宅 陽一郎 @miyayou
    [email protected]
    2023.7.21

    View Slide

  2. 第I部:デジタルゲームAI
    第II部:メタバースとスマートシティ

    View Slide

  3. 自己紹介

    View Slide

  4. My Works (2004-2022)
    AI for Game Titles
    Books

    View Slide

  5. 近著

    View Slide

  6. View Slide

  7. View Slide

  8. 戦略ゲームAI
    • 戦略ゲームにおける人工知能の技術を、
    起源から集めた著作
    • 2021年10月15日
    • 300ページぐらい

    View Slide

  9. リアルタイム
    ノンリアルタイム
    身体を持つ
    身体を持たない
    身体を持ち
    リアルタイムに
    空間を運動する
    身体を持たず
    空間を運動しない
    ゲーム・ロボット
    ビックデータ解析

    View Slide

  10. ゲームAIの特徴
    リアルタイム
    インタラクティブ
    身体を持つ
    ゲーム
    VR/AR ロボット・
    自動運転
    デジタルサイネージ
    ドローン
    エージェント・サービス

    View Slide

  11. AIの分化(1994-2000)
    ゲームシステム
    メタAI
    キャラクターAI ナビゲーションAI
    3つのAIシステムは序々に分化して独立して行った。
    では、今度はナビゲーションAIについてさらに詳しく見てみよう。

    View Slide

  12. レベルスクリプト
    ナビゲーションAI
    キャラクターAI
    メタAI
    1995 2000 2005 2010
    1994
    (ゲームの3D化)
    1999
    (スクリプティッドAIによる
    大型ゲームのキャラクター制御の限界。
    自律型AI技術のアカデミックからの流入)
    2005
    (ウィル・ライトによる“メタAI”定義)
    2008 (“LEFT 4 DEAD”に
    におけるAI Director)
    2010頃~
    (オープンワールド型
    ゲームの隆盛)
    スパーシャルAI
    1980
    PlayStation
    (1994)
    Xbox360
    (2005)
    PlayStation3
    (2006)
    スクリプティッドAI
    三宅陽一郎、水野勇太、里井大輝、 「メタAI」と「AI Director」の歴史的発展、日本デジタルゲーム学会(2020年、Vol.13, No.2)
    LS-Modelモデル LCN-AI連携モデル
    MCS-AI動的連携モデル
    MCN-AI連携モデル

    View Slide

  13. レベル
    キャラクターAI
    レベルを認識し、
    自律的な判断を行い、
    身体を動かす.
    敵・味方
    キャラクタ-
    プレイヤー
    情報獲得
    スパーシャルAI
    空間全般に関する思考
    メタAI, キャラクターAIの為に
    空間認識のためのデータを準備
    ナビゲーション・データの管理
    パス検索 戦術位置解析 オブジェクト認識
    メタAI
    エージェントを動的に配置
    レベル状況を監視
    エージェントに指示
    ゲームの流れを作る
    Order
    Ask &
    Report
    ゲーム全体をコントロール
    Support
    query
    query
    頭脳として機能
    MCS-AI動的
    連携モデル(三宅,2020)

    View Slide

  14. デジタルゲームAI入門①
    (キャラクターAI)

    View Slide

  15. レベル
    キャラクターAI
    レベルを認識し、
    自律的な判断を行い、
    身体を動かす.
    敵・味方
    キャラクタ-
    プレイヤー
    情報獲得
    スパーシャルAI
    空間全般に関する思考
    メタAI, キャラクターAIの為に
    空間認識のためのデータを準備
    ナビゲーション・データの管理
    パス検索 戦術位置解析 オブジェクト認識
    メタAI
    エージェントを動的に配置
    レベル状況を監視
    エージェントに指示
    ゲームの流れを作る
    Order
    Ask &
    Report
    ゲーム全体をコントロール
    Support
    query
    query
    頭脳として機能
    MCS-AI動的
    連携モデル

    View Slide

  16. レベル
    キャラクターAI
    レベルを認識し、
    自律的な判断を行い、
    身体を動かす.
    敵・味方
    キャラクタ-
    プレイヤー
    情報獲得
    スパーシャルAI
    空間全般に関する思考
    メタAI, キャラクターAIの為に
    空間認識のためのデータを準備
    ナビゲーション・データの管理
    パス検索 戦術位置解析 オブジェクト認識
    メタAI
    エージェントを動的に配置
    レベル状況を監視
    エージェントに指示
    ゲームの流れを作る
    Order
    Ask &
    Report
    ゲーム全体をコントロール
    Support
    query
    query
    頭脳として機能
    MCS-AI動的
    連携モデル

    View Slide

  17. 知能の世界
    環境世界
    認識の
    形成
    記憶
    意思の
    決定
    身体
    制御
    エフェクター・
    身体
    運動の
    構成
    センサー・
    身体
    意思決定
    モジュール
    意思決定
    モジュール
    意思決定
    モジュール
    記憶体
    情報処理過程 運動創出過程
    身体部分
    情報
    統合
    運動
    統合

    View Slide

  18. FC SFC SS, PS PS2,GC,Xbox Xbox360, PS3, Wii
    DC (次世代)
    Hardware 時間軸
    2005
    1999
    ゲームの進化と人工知能
    複雑な世界の
    複雑なAI
    ゲームも世界も、AIの身体と内面もますます複雑になる。
    単純な世界の
    シンプルなAI
    (スペースインベーダー、タイトー、1978年) (アサシンクリード、ゲームロフト、2007年)

    View Slide

  19. (例) スペースインベーダー(1978)
    プレイヤーの動きに関係なく、決められた動きをする
    (スペースインベーダー、タイトー、1978年)

    View Slide

  20. (例)プリンス・オブ・ペルシャ
    「プリンス・オブ・ペルシャ」など、
    スプライトアニメーションを用意する必要がある場合、
    必然的にこういった制御となる。
    (プリンスオブペルシャ、1989年)

    View Slide

  21. 3Dゲームの中のAI
    Halo
    (HALO、バンジー、2001年) デバッグ画面
    The Illusion of Intelligence - Bungie.net Downloads
    http://downloads.bungie.net/presentations/gdc02_jaime_griesemer.ppt

    View Slide

  22. 強化学習(例)
    強化学習
    (例)格闘ゲーム
    キック
    パン

    波動
    R_0 : 報酬=ダメージ
    http://piposozai.blog76.fc2.com/
    http://dear-croa.d.dooo.jp/download/illust.html

    View Slide

  23. 強化学習
    (例)格闘ゲームTaoFeng におけるキャラクター学習
    Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
    "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
    http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx
    Microsoft Research Playing Machines: Machine Learning Applications in Computer Games
    http://research.microsoft.com/en-us/projects/mlgames2008/
    Video Games and Artificial Intelligence
    http://research.microsoft.com/en-us/projects/ijcaiigames/

    View Slide

  24. View Slide

  25. View Slide

  26. サブサンプション・アーキテクチャ(ロドニー・ブルックス)
    INPUT OUTPUT
    時間
    情報抽象度
    反射的に行動
    少し場合ごとに対応
    抽象的に思考
    理論的に考える
    言語化のプロセス
    = 自意識の構築化
    Subsumpution Architecture
    運動の実現のプロセス
    = 身体運動の生成

    View Slide

  27. 機能環
    効果器 受容器(刺激→興奮(記号))
    客体
    活動神経網
    知覚神経網
    前野佳彦訳・ユクスキュル「動物の環境と内的世界」 (みすず書房)
    知覚世界
    活動世界
    知覚微表担体
    対象化された機構
    活動担体
    内的世界
    興奮(記号)
    興奮
    興奮
    運動形態
    =特定の筋肉を動かす
    中枢神経網

    View Slide

  28. Physical
    Informat
    ion
    Abstract
    Informat
    ion
    More
    Abstract
    Informat
    ion
    Abstraction
    Time
    Decision-Making
    Decision-Making
    Decision-Making
    Multi-Layered
    Blackboard
    Abstraction
    Abstraction
    Reduction
    Reduction
    Reduction
    World
    World Dynamics
    Artificial Intelligence
    Object
    Object image on the
    lowest layer (Umwelt)
    Object image on
    the second layer
    Object image
    on the third
    layer
    Decision-Making
    Object image
    on the top
    layer

    View Slide

  29. デジタルゲームAI入門②
    (スパーシャルAI)

    View Slide

  30. レベル
    キャラクターAI
    レベルを認識し、
    自律的な判断を行い、
    身体を動かす.
    敵・味方
    キャラクタ-
    プレイヤー
    情報獲得
    スパーシャルAI
    空間全般に関する思考
    メタAI, キャラクターAIの為に
    空間認識のためのデータを準備
    ナビゲーション・データの管理
    パス検索 戦術位置解析 オブジェクト認識
    メタAI
    エージェントを動的に配置
    レベル状況を監視
    エージェントに指示
    ゲームの流れを作る
    Order
    Ask &
    Report
    ゲーム全体をコントロール
    Support
    query
    query
    頭脳として機能
    MCS-AI動的
    連携モデル

    View Slide

  31. ネットワーク上のグラフ検索法
    A*法
    M
    F
    L
    B
    A

    O
    P
    D
    C
    G
    S
    V
    H
    Q
    X
    K
    N
    J
    R
    T
    W
    E
    I
    U
    Z
    Y

    5
    4
    6 3
    7 2
    3
    B C
    3
    3
    2 2
    4 3
    5
    5
    出発点(S)を中心に、そのノードまでの
    最も短い経路を形成して行く。Gにたどり着いたら終了。
    ゴール地点がわかっている場合、現在のノードとゴールとの推定距離(ヒューリスティック距離)
    を想定して、トータル距離を取り、それが最少のノードを探索して行く。
    各ノードの評価距離=出発点からの経路+ヒューリスティック距離
    ヒューリスティック距離
    (普通ユークリッド距離を取る)
    3+14.2 3+13.8
    G H
    3 5+10.5 6+8.4

    View Slide

  32. パス検索(デモと実例)

    View Slide

  33. (メッシュ)
    コスト : 0.5
    見通し: 1.0
    地表: 土
    (メッシュ)
    コスト : 0.8
    見通し: 0.7
    地表: 沼
    (オブジェクト)
    動かせる : (1.0,0.8)向き
    持ち上げる: false
    上に乗れる: false
    硬さ: 0.9
    重たさ: 0.4
    (オブジェクト)
    アクション:レバー倒す
    効果: 扉が開く
    (オブジェクト)扉
    メッシュ同士の
    リンク情報

    View Slide

  34. スパーシャルAI
    空間解析
    状況解析
    位置検索技術
    パス検索
    スマートオブジェクト
    など多数
    影響マップ
    など多数

    View Slide

  35. プレイヤー予測経路(ゴールデンパス)
    M. Jack , M. Vehkala, “Spaces in the Sandbox: Tactical Awareness in Open World Games,” GDC 2013,
    https://www.gdcvault.com/play/1018136/Spaces-in-the-Sandbox-Tactical

    View Slide

  36. ゴールデンパスに沿った位置検索技術
    プレイヤーの
    予想目標地点
    プレイヤーの現在位置
    ゴールデンパス
    ゴールデンパス上で、20m以上プレイヤーから離れて、
    40m以内にある場所で、ゴールデンパスから幅10mの領域でポイントを見つける

    View Slide

  37. M. Jack , M. Vehkala, “Spaces in the Sandbox: Tactical Awareness in Open World Games,” GDC 2013,
    https://www.gdcvault.com/play/1018136/Spaces-in-the-Sandbox-Tactical

    View Slide

  38. Tom Mathews Making "Big Data" Work for 'Halo': A Case Study
    http://ai-wiki/wiki/images/d/d8/AI_Seminar_177th.pdf

    View Slide

  39. 位置検索システム

    View Slide

  40. 位置検索システム
    - キャラクターの性能に応じて
    - 地形毎に
    - リアルタイムで
    最も適したポイントを見つけるシステム

    View Slide

  41. Enemy
    Friend
    NPC
    Rock
    Rock
    Sea
    Hole

    View Slide

  42. View Slide

  43. View Slide

  44. View Slide

  45. View Slide

  46. View Slide

  47. View Slide

  48. View Slide

  49. View Slide

  50. オリジナル

    View Slide

  51. オリジナル

    View Slide

  52. M. Jack , M. Vehkala, “Spaces in the Sandbox: Tactical Awareness in Open World Games,” GDC 2013,
    https://www.gdcvault.com/play/1018136/Spaces-in-the-Sandbox-Tactical

    View Slide

  53. M. Jack , M. Vehkala, “Spaces in the Sandbox: Tactical Awareness in Open World Games,” GDC 2013,
    https://www.gdcvault.com/play/1018136/Spaces-in-the-Sandbox-Tactical

    View Slide

  54. M. Jack , M. Vehkala, “Spaces in the Sandbox: Tactical Awareness in Open World Games,” GDC 2013,
    https://www.gdcvault.com/play/1018136/Spaces-in-the-Sandbox-Tactical

    View Slide

  55. M. Jack , M. Vehkala, “Spaces in the Sandbox: Tactical Awareness in Open World Games,” GDC 2013,
    https://www.gdcvault.com/play/1018136/Spaces-in-the-Sandbox-Tactical

    View Slide

  56. M. Jack , M. Vehkala, “Spaces in the Sandbox: Tactical Awareness in Open World Games,” GDC 2013,
    https://www.gdcvault.com/play/1018136/Spaces-in-the-Sandbox-Tactical

    View Slide

  57. 車に空間感覚を与える
    • 車自体がセンサーだけではなく、空間認識能力を持つ
    • ドライビング以外にも、さまざまな空間的感覚を手に入れる。

    View Slide

  58. スパーシャルAI
    空間解析
    状況解析
    位置検索技術
    パス検索
    スマートオブジェクト
    など多数
    影響マップ
    など多数

    View Slide

  59. スマートオブジェクト、スマートロケーション
    物の方に人工知能を持たせて、物からキャラクターを操る仕組み

    View Slide

  60. 物理的都市空間
    スマートスペース
    メタバース

    View Slide

  61. デジタルゲームAI入門③
    (メタAI)

    View Slide

  62. レベル
    キャラクターAI
    レベルを認識し、
    自律的な判断を行い、
    身体を動かす.
    敵・味方
    キャラクタ-
    プレイヤー
    情報獲得
    スパーシャルAI
    空間全般に関する思考
    メタAI, キャラクターAIの為に
    空間認識のためのデータを準備
    ナビゲーション・データの管理
    パス検索 戦術位置解析 オブジェクト認識
    メタAI
    エージェントを動的に配置
    レベル状況を監視
    エージェントに指示
    ゲームの流れを作る
    Order
    Ask &
    Report
    ゲーム全体をコントロール
    Support
    query
    query
    頭脳として機能
    MCS-AI動的
    連携モデル

    View Slide

  63. メタAIの歴史
    1980 1990 2000
    古典的メタAI
    現代のメタAI
    キャラクターAI技術の発展
    その歴史は古く、1980年代にまでさかのぼる。
    その時代と現代のメタAIは、異なる点も多いので、
    古典的メタAI、現代のメタAIと名づけて区別することにしよう。

    View Slide

  64. (例)「ゼビウス」(ナムコ、1983)
    敵出現テーブル巻き戻し
    敵0
    敵1
    敵2
    敵3
    敵4
    敵5
    『あと面白い機能なんですけれど、 ゼビウスには非常に簡単なAIが組み込まれています。
    「プレイヤーがどれくらいの腕か」というのを判断して、 出てくる敵が強くなるんです。
    強いと思った相手には強い敵が出てきて、 弱いと思った相手には弱い敵が出てきます。 そういっ
    たプログラムが組み込まれています。 ゲームの難易度というのは「初心者には難しくて、上級者
    には簡単だ」ということが、 ひとつの難易度で(調整を)やっていくと起きてしまうので、 その辺を何
    とか改善したいな、ということでそういったことを始めてみたのですけれど、 お陰で割合にあまり上
    手くない人でも比較的長くプレイできる、 うまい人でも最後のほうに行くまで結構ドラマチックに楽
    しめる、 そういった感じになっています。』
    - 遠藤雅伸(出演)、1987、「糸井重里の電視遊戯大展覧会」『遠藤雅伸ゼビウスセミナー』フジテレビ -

    View Slide

  65. メタAIの歴史
    1980 1990 2000
    古典的メタAI
    現代のメタAI
    キャラクターAI技術の発展
    その歴史は古く、1980年代にまでさかのぼる。
    その時代と現代のメタAIは、異なる点も多いので、
    古典的メタAI、現代のメタAIと名づけて区別することにしよう。

    View Slide

  66. メタAI(=AI Director)によるユーザーのリラックス度に応じた敵出現度
    ユーザーの緊張度
    実際の敵出現数
    計算によって
    求められた
    理想的な敵出現数
    Build Up …プレイヤーの緊張度が目標値を超えるまで
    敵を出現させ続ける。
    Sustain Peak … 緊張度のピークを3-5秒維持するために、
    敵の数を維持する。
    Peak Fade … 敵の数を最小限へ減少していく。
    Relax … プレイヤーたちが安全な領域へ行くまで、30-45秒間、
    敵の出現を最小限に維持する。
    Michael Booth, "The AI Systems of Left 4 Dead," Artificial Intelligence and Interactive Digital Entertainment Conference at Stanford.
    http://www.valvesoftware.com/publications.html
    より具体的なアルゴリズム

    View Slide

  67. 安全な領域までの道のり(Flow Distance)
    メタAIはプレイヤー群の経路を
    トレースし予測する。
    - どこへ来るか
    - どこが背面になるか
    - どこに向かうか
    Michael Booth, "The AI Systems of Left 4 Dead," Artificial Intelligence and Interactive Digital Entertainment Conference at Stanford.
    http://www.valvesoftware.com/publications.html

    View Slide

  68. プレイヤーからの可視領域
    可視領域(プレイヤーから見えている
    部屋)では、敵のスパウニング(発生)
    はできない。
    Michael Booth, "The AI Systems of Left 4 Dead," Artificial Intelligence and Interactive Digital Entertainment Conference at Stanford.
    http://www.valvesoftware.com/publications.html

    View Slide

  69. 敵出現領域
    背後 前方
    Michael Booth, "The AI Systems of Left 4 Dead," Artificial Intelligence and Interactive Digital Entertainment Conference at Stanford.
    http://www.valvesoftware.com/publications.html
    前方と背後のプレイヤー群から見えてない部屋に、
    モンスターを発生させる。

    View Slide

  70. Procedural Generation in WarFrame
    • Warframe ではダンジョンが自動生成される。
    Daniel Brewer, AI Postmortems: Assassin's Creed III, XCOM: Enemy Unknown, and Warframe (GDC2015)
    http://www.gdcvault.com/play/1018223/AI-Postmortems-Assassin-s-Creed

    View Slide

  71. Black Combination in WarFrame
    • ブロックを組み合わる
    • 完全に零からの生成
    ではない。
    このような生成のことを
    Semi-procedural と言う。
    Daniel Brewer, AI Postmortems: Assassin's Creed III, XCOM: Enemy Unknown, and Warframe (GDC2015)
    http://www.gdcvault.com/play/1018223/AI-Postmortems-Assassin-s-Creed

    View Slide

  72. WarFrame における自動生成マップの
    自動解析による自動骨格抽出
    • 自動生成するだけでなく、自動生成したダンジョンを、自動解
    析します。ここでは、トポロジー(形状)検出を行います。

    View Slide

  73. WarFrame における自動生成マップの
    自動解析によるナビゲーションデータ作成
    抽出した骨格に沿って
    自動的にナビゲーション・データを作成します。
    Daniel Brewer, AI Postmortems: Assassin's Creed III, XCOM: Enemy Unknown, and Warframe (GDC2015)
    http://www.gdcvault.com/play/1018223/AI-Postmortems-Assassin-s-Creed

    View Slide

  74. スタートポイント、出口、目的地の
    自動生成
    Daniel Brewer, AI Postmortems: Assassin's Creed III, XCOM: Enemy Unknown, and Warframe (GDC2015)
    http://www.gdcvault.com/play/1018223/AI-Postmortems-Assassin-s-Creed

    View Slide

  75. ヒートマップ(影響マップ)を用いて
    ゲーム中にプレイヤーの周囲を自動解析
    Daniel Brewer, AI Postmortems: Assassin's Creed III, XCOM: Enemy Unknown, and Warframe (GDC2015)
    http://www.gdcvault.com/play/1018223/AI-Postmortems-Assassin-s-Creed
    ヒートマップ(影響マップ)とは、対象(ここではプレイヤー)を中心に、位置に温度(影響度)を
    与える方法です。距離に応じて減衰します。また時間が経つと、周囲に熱が拡散します。

    View Slide

  76. Tactical Map の例 (影響マップ)
    (例)敵と自分の勢力をリアルタイムに計算する。
    4 6 8 8 8 8 6 4 2 0 -1 -2 -4 -4 -4 -2
    4 6 8 8 8 8 4 2 1 0 -2 -4 -4 -2
    4 6 8 8 8 6 3 1 0 -2 -4 -4 -4 -2
    4 6 8 8 8 6 6 4 1 0 -2 -4 -4 -2
    2 4 6 8 6 6 4 4 0 -1 -2 -4 -4 -4 -2
    1 2 4 6 6 4 2 2 -4 -5 -3 -3 -4 -4 -2 -1
    3 3 3 3 4 2 2 0 -4 -5 -5 -8 -8 -6 -4 -2
    3 3 2 2 2 0 -2 -4 -8 -10 -10 -8 -4 -2
    3 3 3 2 2 1 0 -4 -8 -10 -10 -8 -8 -4 -2
    2 2 2 2 1 1 0 -3 -8 -10 -10 -8 -8 -4 -2
    1 1 1 1 0 0 -2 -4 -8 -8 -8 -8 -8 -8 -8 -8
    0 0 0 0 0 -1 -1 -2 -5 -6 -6 -6 -8 -8 -8
    0 0 0 0 -1 -2 -2 -2 -4 -4 -4 -6 -8 -8 -8 -8
    0 0 0 0 -1 -2 -2 -2 -2 -2 -2 -2 -2 -2 -2
    0 0 0 0 -1 -2 -2 -2 -2 -2 -2 -2 -2 -2 -2 -2
    0 0 0 0 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1

    View Slide

  77. ヒートマップ(影響マップ)を用いて
    ゲーム中にプレイヤーの周囲を自動解析
    「ヒートが増加する=プレイヤーが近づく点」
    「ヒートが減少する=プレイヤーが遠ざかる点」
    Daniel Brewer, AI Postmortems: Assassin's Creed III, XCOM: Enemy Unknown, and Warframe (GDC2015)
    http://www.gdcvault.com/play/1018223/AI-Postmortems-Assassin-s-Creed

    View Slide

  78. アクティブ・エリアセット(Active Are Set)
    Daniel Brewer, AI Postmortems: Assassin's Creed III, XCOM: Enemy Unknown, and Warframe (GDC2015)
    http://www.gdcvault.com/play/1018223/AI-Postmortems-Assassin-s-Creed
    アクティブ・エリアセットは、プレイヤーの周囲の領域で、
    リアルタイムにメタAIがゲームを調整する領域

    View Slide

  79. メタAIがアクティブ・エリアセット内で
    ゲームを調整する
    「ヒートが増加する=プレイヤーが近づく点」なので、モンスターを生成する。
    「ヒートが減少する=プレイヤーが遠ざかる点」なので、モンスターを停止する。
    Daniel Brewer, AI Postmortems: Assassin's Creed III, XCOM: Enemy Unknown, and Warframe (GDC2015)
    http://www.gdcvault.com/play/1018223/AI-Postmortems-Assassin-s-Creed

    View Slide

  80. 技術の変わり目
    ビックデータ x ディープラーニング
    シミュレーション x ディープラーニング
    データが貯まるところでディープラーニングを行い特徴抽出を行う
    シミュレーションでデータを貯めてディープラーニングを行う

    View Slide

  81. Google 「サッカーシミュレーター」による
    強化学習の研究
    https://automaton-media.com/articles/newsjp/20190613-95002/
    シミュレーション
    現実
    機械学習
    (ディープ
    ラーニン
    グ)
    https://ai.googleblog.com/2019/06/introducing-google-research-football.html

    View Slide

  82. シミュレーション
    現実
    機械学習
    (ディープ
    ラーニン
    グ)
    DeepMind社「Capture the flag」による
    ディープラーニング学習
    https://deepmind.com/blog/article/capture-the-flag-science

    View Slide

  83. AnyLogic「シミュレーションx機械学習」
    サービス
    シミュレーション
    現実
    機械学習
    (ディープ
    ラーニン
    グ)
    https://www.anylogic.com/warehouse-operations/

    View Slide

  84. Microsoft 「AirSim」による強化学習の研究
    シミュレーション
    現実
    機械学習
    (ディープ
    ラーニン
    グ)
    https://microsoft.github.io/AirSim/

    View Slide

  85. Nvidia「ドライビングシミュレーター」によ
    る強化学習の研究
    シミュレーション
    現実
    機械学習
    (ディープ
    ラーニン
    グ)
    https://www.nvidia.com/en-us/self-driving-cars/drive-constellation

    View Slide

  86. シミュレー
    ション
    これからの人工知能のフレームワーク
    現実
    機械学習
    (ディープ
    ラーニン
    グ)
    この2つの技術の結びつきが、現実においても、仮想
    空間においても、これからの協力な技術コアとなる。

    View Slide

  87. 現実世界
    デジタル
    ツイン 相互作用
    ミラーワールド
    スマートシティ
    センシング
    AIによる干渉
    With
    ディープラーニング

    View Slide

  88. 現実世界
    デジタル
    ツイン 相互作用
    ミラーワールド
    スマートシティ
    センシング
    AIによる干渉
    With
    ディープラーニング
    コモングラウンド

    View Slide

  89. シム空間とリアル空間を行き来する車
    • リアルな存在であると同時に、デジタル空間の存在でもある。
    • 二重性を持つ。
    • 夢を見る車=昼間は知ったコースを反芻してイメージする

    View Slide

  90. 現実世界
    デジタル
    ツイン 相互作用
    ミラーワールド
    スマートシティ
    センシング
    AIによる干渉
    With
    ディープラーニング

    View Slide

  91. 現実世界
    現実世界
    センサー
    エフェクタ
    デジタル
    ツイン
    意思決定・
    シミュレーション
    ゲームエンジン
    都市のエージェントの
    エージェント・
    アーキテクチャ
    情報経路

    View Slide

  92. 現実世界
    現実世界
    センサー
    エフェクタ
    デジタル
    ツイン
    ×
    世界モデル
    (ディープ
    ラーニング)
    都市の
    世界モデルの獲得
    世界モデル
    シミュレーション
    意思決定
    都市の夢を見る
    シミュレーション
    エンジン
    都市メタAIの
    エージェント・
    アーキテクチャ
    情報経路

    View Slide

  93. ゲームエンジン

    View Slide

  94. 現実世界
    メタバース
    (ゲーム
    エンジン)
    物理法則
    化学法則
    経済法則
    社会法則
    生物法則
    知能の法則
    抽出 実装
    物理シミュレーション
    化学シミュレーション
    経済シミュレーション
    社会シミュレーション
    生物シミュレーション
    知能シミュレーション
    シミュレーション化
    サイエンス・エンジニアリング 情報処理
    物・運動 データ構造・プログラム

    View Slide

  95. 現実世界
    デジタル
    ツイン
    (ゲーム
    エンジン)
    相互作用
    ミラーワールド
    スマートシティ
    センシング
    AIによる干渉

    View Slide


  96. 頂点
    ポリゴン
    頂点
    移動計算
    移動計算
    メモリ
    CPU or
    GPU


    アーティスト
    エンジニア
    ロード
    (格納)
    実行

    View Slide

  97. ゲームエンジンの時代
    • ゲームエンジンは古くからある(80年代、ナムコのタスクシステム)
    • ゲームの規模が小さいうちは効果が大きくない
    • 90年代(ほとんどない。ソースコードレベル)
    • 00年代(黎明期)
    • ゲームエンジン群雄割拠時代(2010-2020)
    • 市販のエンジンに加えて、それぞれのゲーム会社でゲームエンジンが作られた
    • 現代では、ゲームエンジンなしで大型ゲームは作れない
    • ゲームエンジン=ゲームの質に直結、ゲーム開発の技術を集積する場所
    • Unreal Engine(Epic)とUnity3Dが生き残った
    • Unreal Engine アメリカ 巨漢大砲主義の思想
    • Unity 3D デンマーク(北欧)Do it yourself の思想

    View Slide

  98. ジョブ・コントローラー(ナムコ、ゼビウスなど)
    三宅 陽一郎 「タスクシステムの起源について」 2016年 年次大会 予稿集

    View Slide

  99. 大型ゲームエンジン一覧(他にもたくさん)
    タイトル ゲームエンジン名 会社
    Far Cry 3,4 DUNIA ENGINE 2 Ubisoft Montreal
    THE DIVISION snow drop engine Ubisoft (massive)
    Assassin’s creed: syndicate AnvilNext 2.0 game engine Ubisoft Montreal
    For Honor AnvilNext 2.0 game engine Ubisoft Montreal
    Rise of Tomb Raider Foundation engine Crystal Dynamics
    The Witcher 3 RED ENGINE CD PROJEKT
    Dragon Age : Inquisition frostbite engine EA DICE
    ゲームエンジン名 会社
    汎用型 Unity3D Unity Technologies (デンマーク)
    汎用型 UNREAL ENGINE 4 Epic Games (米)
    汎用型 CryEngine CryTech (独)
    汎用型 Lumberyard Amazon
    汎用型 Stingray Autodesk

    View Slide

  100. メタバース
    物・運動
    データ構造・プログラム
    現実世界
    ツールで
    アーティスト・
    デザイナーが
    作成
    エンジニアが
    プログラミング
    存在 法則

    View Slide

  101. 原子
    分子=原子+力
    物質=分子と力
    現象=物質と力
    データ
    オブジェクト
    =データ+プロ
    エンティティ
    =オブジェクト
    現象
    =エンティティ+
    現実世界 メタバース

    View Slide

  102. データ処理
    オブジェクト
    =データ+プログラム
    エンティティ
    =オブジェクトとプログラム
    現象
    =エンティティ+プログラム
    メタバース
    情報処理基礎
    (プログラミング基礎)
    オブジェクト指向
    プログラミング
    大規模システム
    プログラミング
    シミュレーション
    プログラミング

    View Slide

  103. https://www.moguravr.com/virtual-shibuya-8/

    View Slide

  104. https://www.youtube.com/watch?v=1FOz5dMxn3s

    View Slide

  105. ビックデータ x ディープラーニング
    から
    シミュレーション x ディープラーニング

    View Slide

  106. ゲームの中、ゲームの外
    ゲーム周辺AI
    (外=開発、現実)
    ゲームAI
    (中=コンテンツ)
    メタAI
    キャラクター
    AI
    ナビゲーション
    AI
    開発支援
    AI
    QA-AI
    自動バランス
    AI
    インターフェース
    上のAI
    データ
    マイニング
    シミュレーショ
    ン技術
    ゲーム
    可視化
    ユーザーの
    生体信号
    プロシー
    ジャルAI

    View Slide

  107. レベル
    キャラクターAI
    レベルを認識し、
    自律的な判断を行い、
    身体を動かす.
    敵・味方
    キャラクタ-
    プレイヤー
    情報獲得
    スパーシャルAI
    空間全般に関する思考
    メタAI, キャラクターAIの為に
    空間認識のためのデータを準備
    ナビゲーション・データの管理
    パス検索 戦術位置解析 オブジェクト認識
    メタAI
    エージェントを動的に配置
    レベル状況を監視
    エージェントに指示
    ゲームの流れを作る
    Order
    Ask &
    Report
    ゲーム全体をコントロール
    Support
    query
    query
    頭脳として機能
    MCS-AI動的
    連携モデル

    View Slide

  108. 人工知能全域
    機械学習
    ディープ
    ラーニング
    統計
    学習
    コネクショニズム
    シンボリズム
    デジタルゲームAI
    ゲームAIはシンボリックAIから機械学習へ
    今後10年かけて徐々にシフトする
    現在、社内でも研究中。

    View Slide

  109. 人工知能全域
    機械学習
    ディープ
    ラーニング
    統計
    学習
    コネクショニズム
    シンボリズム
    デジタルゲームAI
    ゲームAIはシンボリックAIから機械学習へ
    今後10年かけて徐々にシフトする
    現在、社内でも研究中。

    View Slide

  110. 人工知能全域
    機械学習
    ディープ
    ラーニング
    統計
    学習
    コネクショニズム
    シンボリズム
    デジタルゲームAI
    機械学習の導入には土台となるシミュレーション
    (物理、仕組み)が必要
    シミュレーション技術

    View Slide

  111. クラシックゲームを用いた
    ディープラーニング環境構築
    - 強化学習の発展-

    View Slide

  112. はじめに

    View Slide

  113. ゲームとディープラーニング
    現状
    • この3年間で、ゲーム産業以外で、ゲームを用いたディープ
    ラーニングの研究が増加している。
    • 当のゲーム産業では、それ程多くない。
    理由
    • 強化学習(DQNなど)を研究するには、結局ルールを持つシ
    ミュレーション空間を使う必要がある。
    • データがないところでディープラーニングを活用したい
    • 現実空間で応用する前に箱庭で成長させたい
    • ほとんどすべて研究環境がオープンソースになっている。

    View Slide

  114. 年 企業 テーマ 開発環境公開
    2003 Microsoft 「Teo Feng」における強化学習
    2005 Microsoft 「Forzamotor Sports」における強化学習
    2013 DeepMind AtariのゲームをDQNで学習 〇
    2015 DeepMind 囲碁 AlphaGO
    2017 AnyLogic 倉庫・機械などモデルのシミュレーション
    Microsoft 「パックマン」多報酬学習
    Hybrid Reward Architecture for Reinforcement Learning

    2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
    DeepMind 「Capture the flag」によるディープラーニング学習 〇
    Microsoft 「AirSim」ドローンシミュレーター 〇
    Nvidia 「ドライビングシミュレーター」
    Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
    facebook 「CraftAssist」マインクラフト内で会話研究 〇
    CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
    facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
    OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
    DeepMind 「StarCraft2」AlphaStar 〇
    DeepMind 「Capture the Flag」QuakeIII エンジン 〇
    2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
    DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
    OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

    View Slide

  115. シミュレー
    ション
    これからの人工知能のフレームワーク
    現実
    機械学習
    (ディープ
    ラーニン
    グ)
    この2つの技術の結びつきが、現実においても、仮想
    空間においても、これからの協力な技術コアとなる。

    View Slide

  116. ビックデータ x ディープラーニング
    から
    シミュレーション x ディープラーニング

    View Slide

  117. Google 「サッカーシミュレーター」による
    強化学習の研究
    https://automaton-media.com/articles/newsjp/20190613-95002/
    シミュレーション
    現実
    機械学習
    (ディープ
    ラーニン
    グ)
    https://ai.googleblog.com/2019/06/introducing-google-research-football.html

    View Slide

  118. シミュレーション
    現実
    機械学習
    (ディープ
    ラーニン
    グ)
    DeepMind社「Capture the flag」による
    ディープラーニング学習
    https://deepmind.com/blog/article/capture-the-flag-science

    View Slide

  119. AnyLogic「シミュレーションx機械学習」
    サービス
    シミュレーション
    現実
    機械学習
    (ディープ
    ラーニン
    グ)
    https://www.anylogic.com/warehouse-operations/

    View Slide

  120. Microsoft 「AirSim」による強化学習の研究
    シミュレーション
    現実
    機械学習
    (ディープ
    ラーニン
    グ)
    https://microsoft.github.io/AirSim/

    View Slide

  121. Nvidia「ドライビングシミュレーター」によ
    る強化学習の研究
    シミュレーション
    現実
    機械学習
    (ディープ
    ラーニン
    グ)
    https://www.nvidia.com/en-us/self-driving-cars/drive-constellation

    View Slide

  122. パックマンによる研究

    View Slide

  123. 年 企業 テーマ Open
    2003 Microsoft 「Teo Feng」における強化学習
    2005 Microsoft 「Forzamotor Sports」における強化学習
    2013 DeepMind A tariのゲームをDQNで学習
    2015 DeepMind 囲碁 AlphaGO
    2017 AnyLogic 倉庫・機械などモデルのシミュレーション
    Microsoft 「パックマン」多報酬学習 Hybrid Reward Architecture for Reinforcement Learning
    2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
    DeepMind 「Capture the flag」によるディープラーニング学習
    Microsoft 「AirSim」ドローンシミュレーター 〇
    Nvidia 「ドライビングシミュレーター」
    Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
    facebook 「CraftAssist」マインクラフト内で会話研究 〇
    CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
    facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
    OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
    DeepMind 「StarCraft2」AlphaStar 〇
    DeepMind 「Capture the Flag」QuakeIII エンジン 〇
    2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
    DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
    OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

    View Slide

  124. ディープラーニングによるパックマンの目コピー
    (Nvidia, 2020)
    Learning to Simulate Dynamic Environments with GameGAN
    https://nv-tlabs.github.io/gameGAN/

    View Slide

  125. Learning to Simulate Dynamic Environments with GameGAN
    https://nv-tlabs.github.io/gameGAN/
    ディープラーニングによるパックマンの目コピー
    (Nvidia, 2020)

    View Slide

  126. 面白い点
    • 外側からだけでゲームをコピーする
    問題点
    • 音などはどうするのか
    実用面
    • クオリティ的には厳しい
    ディープラーニングによるパックマンの目コピー
    (Nvidia, 2020)
    Harm van Seijen, Mehdi Fatemi, Joshua Romoff, Romain
    Laroche, Tavian Barnes, Jeffrey Tsang
    “Hybrid Reward Architecture for Reinforcement Learning”
    https://arxiv.org/abs/1706.04208

    View Slide

  127. Hybrid Reward Architecture for
    Reinforcement Learning (Microsoft, 2017)
    • 複数の報酬系を一つのニューラ
    ルネットワークに盛り込む。
    Harm van Seijen, Mehdi Fatemi, Joshua Romoff, Romain
    Laroche, Tavian Barnes, Jeffrey Tsang
    “Hybrid Reward Architecture for Reinforcement Learning”
    https://arxiv.org/abs/1706.04208

    View Slide

  128. 強化学習

    View Slide

  129. 強化学習ふりかえり

    View Slide

  130. 年 企業 テーマ Open
    2003 Microsoft 「Teo Feng」における強化学習
    2005 Microsoft 「Forzamotor Sports」における強化学習
    2013 DeepMind AtariのゲームをDQNで学習
    2015 DeepMind 囲碁 AlphaGO
    2017 AnyLogic 倉庫・機械などモデルのシミュレーション
    Microsoft 「パックマン」多報酬学習
    Hybrid Reward Architecture for Reinforcement Learning
    2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
    DeepMind 「Capture the flag」によるディープラーニング学習
    Microsoft 「AirSim」ドローンシミュレーター 〇
    Nvidia 「ドライビングシミュレーター」
    Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
    facebook 「CraftAssist」マインクラフト内で会話研究 〇
    CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
    facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
    OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
    DeepMind 「StarCraft2」AlphaStar 〇
    DeepMind 「Capture the Flag」QuakeIII エンジン 〇
    2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
    DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
    OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

    View Slide

  131. 2000年に発行(昔はこの本しかなかった。
    今はたくさんある)
    • Sutton先生の、森北出版「強化学習」
    https://www.morikita.co.jp/books/book/1990
    • は、2000年の翻訳のままで、
    • 2018年に新版
    • https://www.andrew.cmu.edu/course/10-
    703/textbook/BartoSutton.pdf

    View Slide

  132. 強化学習とは
    • とりあえず行動してみる(ランダムでもいい)
    • 行動から得られるリターンによって行動の方針を変えること
    自分で例を考えてみましょう。
    • 初めてのコミュニティーに入る時
    • 研究とか
    • 初めてさわるゲーム
    • サッカーわかんないけどとりあえず蹴ってみる
    • 部屋の片付け

    View Slide

  133. 強化学習とは?
    行動選択
    =ポリシー
    (π)
    環境(Env)
    行動(a)
    状態(S)
    報酬(R)
    報酬
    関数
    環境のモデルはよくわからない。
    でも、行動をして、それに対する結果(=報酬)が環境から返って来る。
    その報酬から、現在の状態と行動の評価を見直して、
    行動選択の方針を変えて行くことを強化学習という。

    View Slide

  134. 強化学習とは
    • とりあえず行動してみる(ランダムでもいい)
    • 行動から得られるリターンによって行動の方針を変えること
    • とりあえず行動してみる(ランダムでもいい)
    • 行動から報酬が得られる(低かろうと高かろうと)
    • そこから行動に対して期待される報酬の指標を設定できる
    A
    Q
    R

    View Slide

  135. Q-Learning とは
    • π:Q = 各アクションで期待される報酬の指標
    (意思決定:Qが一番大きいアクションを選択する)
    • S = State
    • A = Action
    • R = Reward
    • Q (s,a) という関数を決める方法

    View Slide

  136. Q
    キャラクターにおける学習の原理
    意思決定
    A
    行動の表現
    実際は、たくさんの学習アルゴリズムがある。
    S
    R
    結果の表現
    現状態の表現

    View Slide

  137. 世界
    五感
    身体
    言語
    知識表
    現型
    知識
    生成
    Knowledge
    Making
    意思決定
    Decision
    Making
    身体
    運動
    生成
    Motion
    Making
    インフォメーション・フロー(情報回廊)
    記憶
    状態Sのとき関数Qで行動Aを評価
    行動の表現
    結果の表現 意思決定
    S
    R
    Q
    A1
    A2
    A3
    行動とその結果から、意思決定を変化させる = 学習

    View Slide

  138. 強化学習
    (例)格闘ゲーム
    http://piposozai.blog76.fc2.com/
    http://dear-croa.d.dooo.jp/download/illust.html
    現状態の表現
    S = 距離、速度、姿勢など

    View Slide

  139. 強化学習
    (例)格闘ゲーム
    キック
    パン

    波動
    R : 報酬=ダメージ
    http://piposozai.blog76.fc2.com/
    http://dear-croa.d.dooo.jp/download/illust.html
    A : アクション
    ℚ値=0.4
    ℚ値=0.5
    ℚ値=0.1
    ℚ : 期待される報酬

    View Slide

  140. S(状態),A(アクション)の空間
    離れている ほどほど 近い
    パンチ
    Q(離れている、パンチ) Q(ほどほど、パンチ) Q(近い、パンチ)
    キック
    Q(離れている、キック) Q(ほどほど、キック) Q(近い、キック)
    波動拳
    Q(離れている、波動拳) Q(ほどほど、波動拳) Q(近い、波動拳)
    A S

    View Slide

  141. S(状態),A(アクション)の空間
    離れている ほどほど 近い
    パンチ
    0.7 0.6 0.9
    キック
    0.2 2.7 1.9
    波動拳
    0.1 3.5 1.1
    A S

    View Slide

  142. S,Aの空間が大きくなると学習を用いる
    学習=Q(S,A)が自動的に入力される仕組み
    たとえば、こんな式を使う

    View Slide

  143. 新しいQ(s,a) 古いQ(s,a) 見直すべき指標となる量
    Q(s,a)を変化させる度合い=学習の速さを制御する
    (大きいと早い。早ければいいというわけではない。
    不安定になることもある.
    小さい値なら、ゆっくりで安定する。ただし遅い。)
    学習率と言われる。

    View Slide

  144. 状態sで行動aを取った
    ときの報酬
    古いQ(s,a)
    γはそれをどれぐらい考慮に入れるか。
    0なら将来のことは加味しない。1ならかなり考える。実際は0~1の間。割引率と呼ばれる。
    状態sで行動aを取ることで、状態s’になったけど、s’に
    なることで、将来どれぐらい良い方向になったか。

    View Slide

  145. https://club.informatix.co.jp/?p=2009
    離散版

    View Slide

  146. 移った先の状態の良さ・悪さを反映する
    見込み(Q)と実際の報酬(r)の差
    見込み(Q)と実際の報酬(r)の差だが、
    行動a_t で移った先の状態が良いか悪いかを追加して反映。

    View Slide

  147. S(状態),A(アクション)の空間
    離れている ほどほど 近い
    パンチ
    Q(離れている、パンチ) Q(ほどほど、パンチ) Q(近い、パンチ)
    キック
    Q(離れている、キック) Q(ほどほど、キック) Q(近い、キック)
    波動拳
    Q(離れている、波動拳) Q(ほどほど、波動拳) Q(近い、波動拳)
    A S

    View Slide

  148. S(状態),A(アクション)の空間
    離れている ほどほど 近い
    パンチ
    Q(離れている、パンチ) Q(ほどほど、パンチ) Q(近い、パンチ)
    キック
    Q(離れている、キック) Q(ほどほど、キック) Q(近い、キック)
    波動拳
    Q(離れている、波動拳) Q(ほどほど、波動拳) Q(近い、波動拳)
    A S
    状態sで行動aを取ることで、状態s’になったけど、s’に
    なることで、将来どれぐらい良い方向になったか。
    = この「ほどほど」の中でのQ値の最大値

    View Slide

  149. S(状態),A(アクション)の空間
    離れている ほどほど 近い
    パンチ
    Q(離れている、パンチ) Q(ほどほど、パンチ) Q(近い、パンチ)
    キック
    Q(離れている、キック) Q(ほどほど、キック) Q(近い、キック)
    波動拳
    Q(離れている、波動拳) Q(ほどほど、波動拳) Q(近い、波動拳)
    A S

    View Slide

  150. LEARNING TO FIGHT T. Graepel, R. Herbrich, Julian Gold Published 2004 Computer Science
    https://www.microsoft.com/en-us/research/wp-content/uploads/2004/01/graehergol04.pdf

    View Slide

  151. 3 ft
    Q-Table THROW KICK STAND
    1ft / GROUND
    2ft / GROUND
    3ft / GROUND
    4ft / GROUND
    5ft / GROUND
    6ft / GROUND
    1ft / KNOCKED
    2ft / KNOCKED
    3ft / KNOCKED
    4ft / KNOCKED
    5ft / KNOCKED
    6ft / KNOCKED
    actions
    game states
    13.2 10.2 -1.3
    3.2 6.0 4.0
    +10.0
    Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
    "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
    http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx

    View Slide

  152. 3 ft
    Q-Table THROW KICK STAND
    1ft / GROUND
    2ft / GROUND
    3ft / GROUND
    4ft / GROUND
    5ft / GROUND
    6ft / GROUND
    1ft / KNOCKED
    2ft / KNOCKED
    3ft / KNOCKED
    4ft / KNOCKED
    5ft / KNOCKED
    6ft / KNOCKED
    actions
    game states
    13.2 10.2 -1.3
    3.2 6.0 4.0
    +10.0
    Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
    "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
    http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx

    View Slide

  153. Early in the learning process … … after 15 minutes of learning
    Reward for decrease in Wulong Goth’s health
    Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
    "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
    http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx

    View Slide

  154. Early in the learning process … … after 15 minutes of learning
    Punishment for decrease in either player’s health
    Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
    "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
    http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx

    View Slide

  155. Hopper Training Hopper Trained

    View Slide

  156. Ralf Herbrich, Thore Graepel
    Applied Games Group
    Microsoft Research Cambridge
    Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games
    Group,Microsoft Research Cambridge
    "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
    https://www.slideserve.com/liam/forza-halo-xbox-live-the-magic-of-
    research-in-microsoft-products

    View Slide

  157.  Real time racing simulation.
     Goal: as fast lap times as possible.

    View Slide

  158. Laser Range Finder
    Measurements as Features
    Progress along Track as
    Reward

    View Slide

  159. 機械学習
    (例)FORZA MOTORSPORT におけるドライビング学習
    Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
    "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
    http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx

    View Slide

  160. 機械学習
    (例)FORZA MOTORSPORT におけるドライビング学習
    Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
    "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
    http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx

    View Slide

  161. 機械学習
    (例)FORZA MOTORSPORT におけるドライビング学習
    • 揺らぎ
    • ライン – コーナーやそのコンビネーションに対し
    て、どれぐらいスムーズに車をガイドするか。
    • コーナーへの突入スピードとブレーキを踏むタイ
    ミングと。保守的か過激か。
    • コーナーの頂点にどれぐらい近づくか、どれぐら
    いの速度でそこを抜けるか?
    • コーナーを抜ける時のスピードとコーナーを回る
    時のスピード。
    Drivatar がプレイヤーのコントロールから学習するもの
    Microsoft Research
    Drivatar™ in Forza Motorsport
    http://research.microsoft.com/en-us/projects/drivatar/forza.aspx

    View Slide

  162. 機械学習
    (例)FORZA MOTORSPORT におけるドライビング学習
    Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
    "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
    http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx
    プレイヤーの特性を解析する
    特徴となる数値をドライブモデルに渡す

    View Slide

  163. 機械学習
    (例)FORZA MOTORSPORT におけるドライビング学習
    Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
    "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
    http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx
    レーシングラインを事前に構築する。生成というよりテーブルから組み合わせる。

    View Slide

  164. 機械学習
    (例)FORZA MOTORSPORT におけるドライビング学習
    Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
    "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
    http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx
    レーシングラインを事前に構築する。生成というよりテーブルから組み合わせる。

    View Slide

  165. 機械学習
    (例)FORZA MOTORSPORT におけるドライビング学習
    Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
    "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
    http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx
    レーシングラインに沿わせるのではなく、理想とする位置とスピードから
    コントローラーの制御を計算して、物理制御によって車を運転する。

    View Slide

  166. Forza motorsports (EA)
    Jeffrey Schlimmer, "Drivatar and Machine Learning Racing Skills in the Forza Series"
    http://archives.nucl.ai/recording/drivatar-and-machine-learning-racing-skills-in-the-forza-series/

    View Slide

  167. DQNを有名にした
    「AlphaGO」

    View Slide

  168. 年 企業 テーマ 開発環境公開
    2003 Microsoft 「Teo Feng」における強化学習
    2005 Microsoft 「Forzamotor Sports」における強化学習
    2013 DeepMind AtariのゲームをDQNで学習 〇
    2015 DeepMind 囲碁 AlphaGO
    2017 AnyLogic 倉庫・機械などモデルのシミュレーション
    Microsoft 「パックマン」多報酬学習
    Hybrid Reward Architecture for Reinforcement Learning

    2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
    DeepMind 「Capture the flag」によるディープラーニング学習 〇
    Microsoft 「AirSim」ドローンシミュレーター 〇
    Nvidia 「ドライビングシミュレーター」
    Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
    facebook 「CraftAssist」マインクラフト内で会話研究 〇
    CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
    facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
    OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
    DeepMind 「StarCraft2」AlphaStar 〇
    DeepMind 「Capture the Flag」QuakeIII エンジン 〇
    2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
    DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
    OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

    View Slide

  169. DQN (Deep Q network)とは

    View Slide

  170. Deep Q Learning (深層強化学習)
    Q-Learning
    ×
    Deep Learning

    View Slide

  171. Q-Learning とは
    • Q = 期待される報酬 (意思決定関数)
    • S = State (座標、速度、現在の姿勢)
    • A = Action (キック、パンチ、波動拳)
    • R = 報酬
    • Q (s,a ) という関数を決める方法

    View Slide

  172. 世界
    五感
    身体
    言語
    知識表
    現型
    知識
    生成
    Knowledge
    Making
    意思決定
    Decision
    Making
    身体
    運動
    生成
    Motion
    Making
    インフォメーション・フロー(情報回廊)
    記憶
    キャラクターにおける学習の原理
    行動の表現
    結果の表現 意思決定
    Q(s,a)
    関数

    View Slide

  173. Deep Q Network (DQN)とは
    • Q = 予想される報酬 (意思決定関数)
    • S = State (座標、速度、現在の姿勢)
    • A = Action (キック、パンチ、波動拳)
    • R = 報酬
    • Q (s,a ) という関数を決める方法
    深層ニューラルネットワーク
    Deep Q Network

    View Slide

  174. 世界
    五感
    身体
    言語
    知識表
    現型
    知識
    生成
    Knowledge
    Making
    意思決定
    Decision
    Making
    身体
    運動
    生成
    Motion
    Making
    インフォメーション・フロー(情報回廊)
    記憶
    キャラクターにおける学習の原理
    行動の表現
    状態・結果の表現 意思決定
    ニューラル
    ネットワーク
    (DQN)

    View Slide

  175. 年 企業 テーマ Open
    2003 Microsoft 「Teo Feng」における強化学習
    2005 Microsoft 「Forzamotor Sports」における強化学習
    2013 DeepMind AtariのゲームをDQNで学習 〇
    2015 DeepMind 囲碁 AlphaGO
    2017 AnyLogic 倉庫・機械などモデルのシミュレーション
    Microsoft 「パックマン」多報酬学習
    Hybrid Reward Architecture for Reinforcement Learning

    2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
    DeepMind 「Capture the flag」によるディープラーニング学習 〇
    Microsoft 「AirSim」ドローンシミュレーター 〇
    Nvidia 「ドライビングシミュレーター」
    Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
    facebook 「CraftAssist」マインクラフト内で会話研究 〇
    CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
    facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
    OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
    DeepMind 「StarCraft2」AlphaStar 〇
    DeepMind 「Capture the Flag」QuakeIII エンジン 〇
    2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
    DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
    OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

    View Slide

  176. Deep Q-Learning (2013)
    Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves,
    Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller (DeepMind Technologies)
    Playing Atari with Deep Reinforcement Learning
    http://www.cs.toronto.edu/~vmnih/docs/dqn.pdf
    画面を入力
    操作はあらかじめ教える
    スコアによる強化学習

    View Slide

  177. 学習過程解析
    Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves,
    Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller (DeepMind Technologies)
    Playing Atari with Deep Reinforcement Learning
    http://www.cs.toronto.edu/~vmnih/docs/dqn.pdf

    View Slide

  178. AlphaGO
    膨大な棋譜のデータ
    (人間では多過ぎて
    読めない)
    この棋譜を
    そっくり打てる
    ように学習する
    自己対戦して
    棋譜を貯める
    この棋譜を
    そっくり打てる
    ように学習する
    AlphaGO

    View Slide

  179. • Pπ ロールアウトポリシー(ロールアウトで討つ手を決める。
    Pπ(a|s) sという状態でaを討つ確率)
    • Pσ Supervised Learning Network プロの討つ手からその
    手を討つ確率を決める。Pσ(a|s)sという状態でaを討つ確
    率。
    • Pρ 強化学習ネットワーク。Pρ(学習済み)に初期化。
    • Vθ(s’) 局面の状態 S’ を見たときに、勝敗の確率を予測
    する関数。つまり、勝つか、負けるかを返します。
    Mastering the game of Go with deep neural networks and tree search
    http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html
    https://deepmind.com/research/alphago/

    View Slide

  180. 囲碁AI:
    位置評価関数から位置評価ニューラルネットワークへ
    Mastering the game of Go with deep neural networks and tree search
    http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html
    https://deepmind.com/research/alphago/
    S
    Q

    View Slide

  181. モンテカルロ木探索とは
    (MCTS)

    View Slide

  182. 現在の盤面の状態

    勝率 : 4/5 勝率 : 2/5 勝率 : 3/5
    基本、
    乱数による
    プレイアウト

    候補となる手

    View Slide

  183. W_1(=80) W_2(=70) W_3(=120)
    試行回数
    報酬合計
    3回 2回 4回 全試行回数 9回
    20ドル/回
    マシン1 マシン2 マシン3
    120
    80
    +
    2 ∗ 9
    80
    70
    40
    +
    2 ∗ 9
    40
    80
    60
    +
    2 ∗ 9
    60
    UCB1
    掛け金総額 60ドル 40ドル 80ドル
    プレイヤー

    View Slide

  184. 現在のゲーム状態
    次の一手のゲーム状態
    次の次の一手のゲーム状態
    末端
    次の一手の中で一番
    リグレットの値が一番高いノード
    一回シミュレーションを加えたら、それまでのノードに結果を反映してリグレット値を更新
    次の次の一手の中で一番
    リグレットの値が一番高い
    ノード
    次の次の次の一手の中で一番
    リグレットの値が一番高いノード
    Value

    View Slide

  185. 敵チーム AIチーム
    AIチーム
    ゲート

    View Slide

  186. アクション・バケット
    末端のノード
    選択された
    アクション・バケット
    現在のゲーム状態
    Combat := if prev( wait ) then
    Artillery
    AttackOrder
    SpecialOrder
    UseGate
    Openings := if root then
    WaitUntilContact
    WaitUntilAmbush
    PuckStealth

    View Slide

  187. 囲碁AI:
    位置評価関数から位置評価ニューラルネットワークへ
    Mastering the game of Go with deep neural networks and tree search
    http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html
    https://deepmind.com/research/alphago/
    S
    Q R

    View Slide

  188. 年 企業 テーマ Open
    2003 Microsoft 「Teo Feng」における強化学習
    2005 Microsoft 「Forzamotor Sports」における強化学習
    2013 DeepMind AtariのゲームをDQNで学習 〇
    2015 DeepMind 囲碁 AlphaGO
    2017 AnyLogic 倉庫・機械などモデルのシミュレーション
    Microsoft 「パックマン」多報酬学習
    Hybrid Reward Architecture for Reinforcement Learning

    2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
    DeepMind 「Capture the flag」によるディープラーニング学習 〇
    Microsoft 「AirSim」ドローンシミュレーター 〇
    Nvidia 「ドライビングシミュレーター」
    Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
    facebook 「CraftAssist」マインクラフト内で会話研究 〇
    CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
    facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
    OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
    DeepMind 「StarCraft2」AlphaStar 〇
    DeepMind 「Capture the Flag」QuakeIII エンジン 〇
    2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
    DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
    OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

    View Slide

  189. Deep Mind社 「Agent 57」
    • Atariの古典的なゲーム57個を人間よりうまくプレイできるよう
    になった Deep Mind社のAI
    • https://deepmind.com/blog/article/Agent57-Outperforming-
    the-human-Atari-benchmark

    View Slide

  190. DQNのさらなる発展
    • 最後までスコアに苦しんだゲーム
    • Montezuma’s Revenge
    • Pitfall
    • Solaris
    • Skiing
    Agent57: Outperforming the human Atari benchmark (DeepMind)
    https://deepmind.com/blog/article/Agent57-Outperforming-the-human-Atari-benchmark

    View Slide

  191. Microsoft Researchにおける
    ゲーム会話研究
    テキストアドベンチャーゲームを利用した対話学習 (2019)

    View Slide

  192. 年 企業 テーマ Open
    2003 Microsoft 「Teo Feng」における強化学習
    2005 Microsoft 「Forzamotor Sports」における強化学習
    2013 DeepMind AtariのゲームをDQNで学習 〇
    2015 DeepMind 囲碁 AlphaGO
    2017 AnyLogic 倉庫・機械などモデルのシミュレーション
    Microsoft 「パックマン」多報酬学習
    Hybrid Reward Architecture for Reinforcement Learning

    2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
    DeepMind 「Capture the flag」によるディープラーニング学習 〇
    Microsoft 「AirSim」ドローンシミュレーター 〇
    Nvidia 「ドライビングシミュレーター」
    Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
    facebook 「CraftAssist」マインクラフト内で会話研究 〇
    CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
    facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
    OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
    DeepMind 「StarCraft2」AlphaStar 〇
    DeepMind 「Capture the Flag」QuakeIII エンジン 〇
    2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
    DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
    OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

    View Slide

  193. TextWorld
    • マイクロソフトが構築したテキストアドベンチャーの学習環境
    • 50ほどのテキストアドベンチャーを内包している
    • TextWorld: A Learning Environment for Text-based Games
    • https://arxiv.org/abs/1806.11532

    • TextWorld: A learning environment for training reinforcement learning agents,
    inspired by text-based games
    • https://www.microsoft.com/en-us/research/blog/textworld-a-learning-
    environment-for-training-reinforcement-learning-agents-inspired-by-text-
    based-games/

    • Getting Started with TextWorld
    • https://www.youtube.com/watch?v=WVIIigrPUJs
    https://www.microsoft.com/en-us/research/project/textworld/

    View Slide

  194. https://www.youtube.com/watch?v=WVIIigrPUJs

    View Slide

  195. Microsoft: TextWorld
    TextWorld: A Learning Environment for Text-based Games
    https://arxiv.org/abs/1806.11532

    View Slide

  196. TextWorld: A Learning Environment for Text-based Games
    https://arxiv.org/abs/1806.11532

    View Slide

  197. Facebook AIにおける
    ゲーム会話研究 I
    マインクラフトを用いた対話学習(2019)

    View Slide

  198. 年 企業 テーマ Open
    2003 Microsoft 「Teo Feng」における強化学習
    2005 Microsoft 「Forzamotor Sports」における強化学習
    2013 DeepMind AtariのゲームをDQNで学習 〇
    2015 DeepMind 囲碁 AlphaGO
    2017 AnyLogic 倉庫・機械などモデルのシミュレーション
    Microsoft 「パックマン」多報酬学習
    Hybrid Reward Architecture for Reinforcement Learning

    2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
    DeepMind 「Capture the flag」によるディープラーニング学習 〇
    Microsoft 「AirSim」ドローンシミュレーター 〇
    Nvidia 「ドライビングシミュレーター」
    Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
    facebook 「CraftAssist」マインクラフト内で会話研究 〇
    CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
    facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
    OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
    DeepMind 「StarCraft2」AlphaStar 〇
    DeepMind 「Capture the Flag」QuakeIII エンジン 〇
    2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
    DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
    OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

    View Slide

  199. Microsoft:Malmo
    • エージェントを学習させる環境を提供
    • https://www.microsoft.com/en-us/research/project/project-malmo/
    • https://blogs.microsoft.com/ai/project-malmo-using-minecraft-build-
    intelligent-technology/
    • チュートリアル
    • https://techcommunity.microsoft.com/t5/azure-ai/introducing-
    reinforcement-learning-on-azure-machine-learning/ba-p/1403028

    View Slide

  200. facebook:「CraftAssist」(2019)
    • マインクラフトでプレイヤーと共同作
    業可能なAIを実装するためのオープン
    ソースプラットフォーム
    https://gigazine.net/news/20190719-craftassist-
    collaborative-ai-minecraft/
    • テキスト会話によって、エージェント
    (キャラクター)に意味を解釈させる。
    「青い家を建てろ」など。
    CraftAssist: A Framework for Dialogue-enabled Interactive Agents - Facebook Research
    https://research.fb.com/publications/craftassist-a-framework-for-dialogue-enabled-interactive-agents/
    Open-sourcing CraftAssist, a platform for studying collaborative AI bots in Minecraft
    https://ai.facebook.com/blog/craftassist-platform-for-collaborative-minecraft-bots/

    View Slide

  201. カーネギーメロン大学「MineRL」
    • カーネギーメロン大学が NeurIPSで主催するマインクラフトを題材にした
    強化学習コンテストのフレームワーク
    • https://ai-scholar.tech/articles/treatise/minerl-ai-353
    • https://minerl.io/competition/
    • https://www.aicrowd.com/challenges/neurips-2020-minerl-competition
    論文
    • https://arxiv.org/pdf/1907.13440.pdf
    • https://arxiv.org/abs/1904.10079
    • https://www.microsoft.com/en-us/research/project/project-malmo/
    • https://minerl.io/docs/
    • https://slideslive.at/38922880/the-minerl-competition?ref=search

    View Slide

  202. MineRL: A Large-Scale Dataset of Minecraft Demonstrations
    https://arxiv.org/pdf/1907.13440.pdf

    View Slide

  203. Facebook AIにおける
    ゲーム会話研究 II
    テーブルトークRPGを用いた対話学習(2019)

    View Slide

  204. 年 企業 テーマ Open
    2003 Microsoft 「Teo Feng」における強化学習
    2005 Microsoft 「Forzamotor Sports」における強化学習
    2013 DeepMind AtariのゲームをDQNで学習 〇
    2015 DeepMind 囲碁 AlphaGO
    2017 AnyLogic 倉庫・機械などモデルのシミュレーション
    Microsoft 「パックマン」多報酬学習
    Hybrid Reward Architecture for Reinforcement Learning

    2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
    DeepMind 「Capture the flag」によるディープラーニング学習 〇
    Microsoft 「AirSim」ドローンシミュレーター 〇
    Nvidia 「ドライビングシミュレーター」
    Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
    facebook 「CraftAssist」マインクラフト内で会話研究 〇
    CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
    facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
    OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
    DeepMind 「StarCraft2」AlphaStar 〇
    DeepMind 「Capture the Flag」QuakeIII エンジン 〇
    2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
    DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
    OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

    View Slide

  205. LIGHT(facebook.ai, 2019)
    (テキストアドベンチャーフレームワーク)
    • クラウドワーカーを用
    いてゲーム設計を募集
    • クラウドワーカーに役
    を割り当てて会話
    チャットでデータ収集
    • この上で自然言語会話
    を研究
    https://parl.ai/projects/light/
    https://ai.facebook.com/blog/introducing-light-a-multiplayer-text-adventure-game-for-dialogue-research/

    View Slide

  206. (faceboo ai)
    Prithviraj Ammanabrolu, Jack Urbanek, Margaret Li, Arthur Szlam, Tim Rocktäschel, Jason Weston
    How to Motivate Your Dragon: Teaching Goal-Driven Agents to Speak and Act in Fantasy Worlds
    https://arxiv.org/abs/2010.00685

    View Slide

  207. https://parl.ai/projects/light/

    View Slide

  208. https://parl.ai/projects/light/

    View Slide

  209. (faceboo ai)
    Prithviraj Ammanabrolu, Jack Urbanek, Margaret Li, Arthur Szlam, Tim Rocktäschel, Jason Weston
    How to Motivate Your Dragon: Teaching Goal-Driven Agents to Speak and Act in Fantasy Worlds
    https://arxiv.org/abs/2010.00685

    View Slide

  210. (faceboo ai)
    Prithviraj Ammanabrolu, Jack Urbanek, Margaret Li, Arthur Szlam, Tim Rocktäschel, Jason Weston
    How to Motivate Your Dragon: Teaching Goal-Driven Agents to Speak and Act in Fantasy Worlds
    https://arxiv.org/abs/2010.00685

    View Slide

  211. (faceboo ai)
    Prithviraj Ammanabrolu, Jack Urbanek, Margaret Li, Arthur Szlam, Tim Rocktäschel, Jason Weston
    How to Motivate Your Dragon: Teaching Goal-Driven Agents to Speak and Act in Fantasy Worlds
    https://arxiv.org/abs/2010.00685

    View Slide

  212. Dota2における人工知能
    (OpenAI, 2019)
    テーブルトークRPGを用いた対話学習

    View Slide

  213. 年 企業 テーマ Open
    2003 Microsoft 「Teo Feng」における強化学習
    2005 Microsoft 「Forzamotor Sports」における強化学習
    2013 DeepMind AtariのゲームをDQNで学習
    2015 DeepMind 囲碁 AlphaGO
    2017 AnyLogic 倉庫・機械などモデルのシミュレーション
    Microsoft 「パックマン」多報酬学習
    Hybrid Reward Architecture for Reinforcement Learning
    2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
    DeepMind 「Capture the flag」によるディープラーニング学習
    Microsoft 「AirSim」ドローンシミュレーター 〇
    Nvidia 「ドライビングシミュレーター」
    Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
    facebook 「CraftAssist」マインクラフト内で会話研究 〇
    CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
    facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
    OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
    DeepMind 「StarCraft2」AlphaStar 〇
    DeepMind 「Capture the Flag」QuakeIII エンジン 〇
    2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
    DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
    OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

    View Slide

  214. 日本におけるゲームセンターの対戦文化の流れ(1980年代~)
    アメリカを中心とするFPS対戦の流れ(2000年前後~)
    韓国におけるeスポーツ文化の流れ(1997年~)
    世界的なMOBAスタイルの
    チーム対戦の流れ(2010年~)
    1985 1990 1995 2007
    ⅬAN
    ゲームセンターの
    対戦台 インターネット 高速インターネット・動画配信
    実際の現場でギャラリー観戦 テレビなどで観戦 インターネットで観戦
    ゲーム聴衆
    の誕生

    View Slide

  215. Dota2 eSportsで大人気
    OpenAI Five: Dota Gameplay https://www.youtube.com/watch?v=UZHTNBMAfAA
    解説:『Dota 2』における人間側のチャンピオンチームとAIチームの戦い https://alienwarezone.jp/post/2316

    View Slide

  216. OpenAI Five https://openai.com/projects/five/
    Christopher Berner, et al.,“Dota 2 with Large Scale Deep
    Reinforcement Learning” https://arxiv.org/abs/1912.06680

    View Slide

  217. HERO
    ベクター
    認識過程
    認識情報
    ベクター
    HERO
    ベクター
    HERO
    ベクター
    HERO
    ベクター
    各HERO
    埋め込み
    バリュー・
    ファンクション
    LSTM
    アクション
    Tied Weight
    OpenAI Five https://openai.com/projects/five/
    Christopher Berner, et al.,“Dota 2 with Large Scale Deep
    Reinforcement Learning” https://arxiv.org/abs/1912.06680

    View Slide

  218. ゲーム(Dota2)
    コントローラー
    Forward Pass GPU
    (512GPUs)
    新しいパラメータを
    配布
    ロールアウトワーカー
    57600ワーカー
    51200CPUs (Python)
    アクション
    各ワーカーから0.25秒
    おきに監視
    Exp. Buffer
    各ワーカーから1分おきに
    256サンプルを送信
    GPU
    1分(オプティマイザーで言えば32ステップ)
    ごとに新しいパラメータを渡す
    2秒ごとに
    1920サンプル
    オプティマイザー(512GPUs)
    2秒おきに
    NCCL(Nvidia)のAllreduceの
    ライブラリによる全GPUの
    Gradientの平均化

    View Slide

  219. 時系列
    空間
    ストラテジーゲームの時空間
    自発的なプラン
    状況的に展開せざる得ないプラン
    状況的に展開せざる得ないプラン
    ある
    ゲーム
    状況
    ある
    ゲーム
    状況
    時間

    View Slide

  220. StarCraft~StarCraft2における
    人工知能
    (DeepMind, 2019)

    View Slide

  221. 年 企業 テーマ Open
    2003 Microsoft 「Teo Feng」における強化学習
    2005 Microsoft 「Forzamotor Sports」における強化学習
    2013 DeepMind AtariのゲームをDQNで学習 〇
    2015 DeepMind 囲碁 AlphaGO
    2017 AnyLogic 倉庫・機械などモデルのシミュレーション
    Microsoft 「パックマン」多報酬学習
    Hybrid Reward Architecture for Reinforcement Learning

    2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
    DeepMind 「Capture the flag」によるディープラーニング学習 〇
    Microsoft 「AirSim」ドローンシミュレーター 〇
    Nvidia 「ドライビングシミュレーター」
    Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
    facebook 「CraftAssist」マインクラフト内で会話研究 〇
    CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
    facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
    OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
    DeepMind 「StarCraft2」AlphaStar 〇
    DeepMind 「Capture the Flag」QuakeIII エンジン 〇
    2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
    DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
    OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

    View Slide

  222. StarCraftのAI
    • Santiago Ontañon, Gabriel Synnaeve, Alberto Uriarte, Florian
    Richoux, David Churchill, et al..
    • “A Survey of Real-Time Strategy Game AI Research and
    Competition in StarCraft”. IEEE Transactions on
    Computational Intelligence and AI in games, IEEE
    Computational Intelligence Society, 2013, 5(4), pp.1-19. hal-
    00871001
    • https://hal.archives-ouvertes.fr/hal-00871001

    View Slide

  223. StarCraftの7つのアーキテクチャ (2010-2020)

    View Slide

  224. 戦略思考
    ハイレベル、抽象的
    3分~
    知識収集と
    学習
    敵のモデル化
    戦略決定
    部隊形成
    命令プランの構築
    戦術思考
    中間レベル
    30秒~1分
    スカウティング
    戦闘タイミングと
    位置
    ユニットと建築物
    の配置
    反射コントロール
    低レベル、物理的
    ~1秒
    小ユニット
    マルチエージェン
    パス検索
    StarCraft 一般的なアーキテクチャ

    View Slide

  225. 戦闘
    ゴール
    マネージャー
    ユニットグループ
    ベイジアン・ネット
    BroodWarBotQ
    仲介モジュール
    知能
    マップ
    マネージャー
    技術推定
    ユニット
    フィルター
    資源管理
    ワーカー
    マネージャー
    基地
    マネージャー
    生産
    マネージャー
    建築
    マネージャー
    StarCraft BroodWarQ Bot アーキテクチャ

    View Slide

  226. 知能
    建築命令マネージャー
    スカウト
    マネージャー
    資源
    マネージャー
    マクロ
    マネージャー
    拡張
    マネージャー
    供給
    マネージャー
    部隊
    マネージャー
    封鎖経路
    マネージャー
    戦略
    戦術
    タスクマネージャー
    建築設置
    モジュール
    タスク n
    StarCraft SkyNet Bot アーキテクチャ

    View Slide

  227. 資源管理
    戦闘
    部隊マネージャー
    防御マネージャー
    戦闘マネージャー
    AIUR
    ムード
    マネージャー
    知能
    仲介モジュール
    スカウト
    マネー
    ジャー
    情報マネージャー
    ワーカー
    マネージャー
    基地
    マネージャー
    生産
    マネージャー
    建築
    マネージャー
    スパイ
    マネー
    ジャー
    消費
    マネージャー
    StarCraft AIUR Bot アーキテクチャ

    View Slide

  228. StarCraft~StarCraft2における
    人工知能
    (DeepMind, 2019)
    Oriol Vinyals, et al., “StarCraft II: A New Challenge for Reinforcement Learning”,
    https://arxiv.org/abs/1708.04782
    PySC2 - StarCraft II Learning Environment
    https://github.com/deepmind/pysc2

    View Slide

  229. StarCraft II API
    StarCraft II バイナリー
    PySC2
    エージェント
    アクション select_rect(p1, p2) or build_supply(p3) or …
    観察
    資源
    可能なアクション
    建築命令
    スクリーン
    (ゲーム情報)
    ミニマップ
    (特定の情報)
    報酬
    -1/0/+1
    SC2LE

    View Slide

  230. 評価値
    Value
    Network
    Baseline features
    アクション・タイプ ディレイ ユニット選択
    命令発行 ターゲット選択
    Residual MLP MLP MLP Pointer
    Network
    Attention D
    分散表現
    MLP
    分散表現
    MLP
    分散表現
    MLP
    Embedding
    MLP
    コア
    Deep LSTM
    スカラー
    エンコーダー
    MLP
    エンティティ
    エンコーダー
    トランス
    フォーマー
    空間
    エンコーダー
    ResNet
    ゲーム
    パラメーター群
    エンティティ ミニマップ

    View Slide

  231. Oriol Vinyals, et al., “StarCraft II: A New Challenge for Reinforcement Learning”,
    https://arxiv.org/abs/1708.04782
    PySC2 - StarCraft II Learning Environment
    https://github.com/deepmind/pysc2

    View Slide

  232. Oriol Vinyals, et al., “StarCraft II: A New Challenge for Reinforcement Learning”,
    https://arxiv.org/abs/1708.04782
    PySC2 - StarCraft II Learning Environment
    https://github.com/deepmind/pysc2

    View Slide

  233. DeepMind社「Capture the flag」
    によるディープラーニング学習
    (2019年)

    View Slide

  234. 年 企業 テーマ Open
    2003 Microsoft 「Teo Feng」における強化学習
    2005 Microsoft 「Forzamotor Sports」における強化学習
    2013 DeepMind AtariのゲームをDQNで学習 〇
    2015 DeepMind 囲碁 AlphaGO
    2017 AnyLogic 倉庫・機械などモデルのシミュレーション
    Microsoft 「パックマン」多報酬学習
    Hybrid Reward Architecture for Reinforcement Learning

    2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
    DeepMind 「Capture the flag」によるディープラーニング学習 〇
    Microsoft 「AirSim」ドローンシミュレーター 〇
    Nvidia 「ドライビングシミュレーター」
    Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
    facebook 「CraftAssist」マインクラフト内で会話研究 〇
    CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
    facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
    OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
    DeepMind 「StarCraft2」AlphaStar 〇
    DeepMind 「Capture the Flag」QuakeIII エンジン 〇
    2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
    DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
    OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

    View Slide

  235. シミュレーション
    現実
    機械学習
    (ディープ
    ラーニン
    グ)
    https://deepmind.com/blog/article/capture-the-flag-science
    Human-level performance in 3D multiplayer games with population-based reinforcement learning
    Max Jaderberg et al.
    Science 31 May 2019: Vol. 364, Issue 6443, pp. 859-865
    DOI: 10.1126/science.aau6249

    View Slide

  236. Human-level performance in 3D multiplayer games with population-based reinforcement learning
    Max Jaderberg et al.
    Science 31 May 2019: Vol. 364, Issue 6443, pp. 859-865
    DOI: 10.1126/science.aau6249

    View Slide

  237. π
    ゲーム画像 ゲーム画像 ゲーム画像 ゲーム画像 ゲーム画像
    サンプルされた
    潜在変数
    アクション
    内部報酬

    勝敗判定
    方針
    ゲーム
    ポイント
    ゆっくりとしたRNN
    高速なRNN
    Xt
    𝑄𝑡
    𝑄𝑡+1
    Human-level performance in 3D multiplayer games with population-based reinforcement learning
    Max Jaderberg et al.
    Science 31 May 2019: Vol. 364, Issue 6443, pp. 859-865
    DOI: 10.1126/science.aau6249

    View Slide

  238. 赤チーム陣地
    青チーム陣地 赤フラグを青チーム陣地に
    持ち帰る青エージェント
    赤フラグが赤チーム陣地に
    再び自動返却されるタイミング
    を待つ青エージェント
    赤エージェント
    Human-level performance in 3D multiplayer games with population-based
    reinforcement learning Max Jaderberg et al.
    Science 31 May 2019: Vol. 364, Issue 6443, pp. 859-865 DOI: 10.1126/science.aau6249

    View Slide

  239. OpenAI「HIDE AND SEEK」 による学習
    (2019年)

    View Slide

  240. 年 企業 テーマ Open
    2003 Microsoft 「Teo Feng」における強化学習
    2005 Microsoft 「Forzamotor Sports」における強化学習
    2013 DeepMind AtariのゲームをDQNで学習
    2015 DeepMind 囲碁 AlphaGO
    2017 AnyLogic 倉庫・機械などモデルのシミュレーション
    Microsoft 「パックマン」多報酬学習
    Hybrid Reward Architecture for Reinforcement Learning
    2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
    DeepMind 「Capture the flag」によるディープラーニング学習
    Microsoft 「AirSim」ドローンシミュレーター 〇
    Nvidia 「ドライビングシミュレーター」
    Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
    facebook 「CraftAssist」マインクラフト内で会話研究 〇
    CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
    facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
    OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
    DeepMind 「StarCraft2」AlphaStar 〇
    DeepMind 「Capture the Flag」QuakeIII エンジン 〇
    2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
    DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
    OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

    View Slide

  241. 「かくれんぼ」によってマルチエージェ
    ントを学習させる
    • オブジェクトがあって、動かしたり固
    定したりできる。
    • オブジェクトは直方体、傾斜台、長い
    板がある。
    • 一度固定したオブジェトは動かせない
    • エージェントは次第にオブジェクトを
    利用してかくれんぼをするようになる
    • 6種類の戦術を順番に発見・学習して
    いく
    https://openai.com/blog/emergent-tool-use/
    Emergent Tool Use From Multi-Agent Autocurricula (2019)
    Bowen Baker, Ingmar Kanitscheider, Todor Markov, Yi Wu, Glenn Powell, Bob McGrew, Igor Mordatch
    https://arxiv.org/abs/1909.07528

    View Slide

  242. https://www.youtube.com/watch?v=kopoLzvh5jY

    View Slide

  243. Emergent Tool Use From Multi-Agent Autocurricula (2019)
    Bowen Baker, Ingmar Kanitscheider, Todor Markov, Yi Wu, Glenn Powell, Bob McGrew, Igor Mordatch
    https://arxiv.org/abs/1909.07528

    View Slide

  244. 自分の座標
    周囲の状況
    (LIDARによる)
    他のエージェ
    ントの座標
    ボックスの
    座標、速度
    傾斜台の
    座標、速度
    全結合
    全結合
    全結合
    自分
    コンボリューション
    円方位ID 全結合
    エージェント
    埋め込みベクトル
    ボックス
    ボックス
    マスクされた平均プーリング
    エンティティ間のアテンション
    マスクされた要素
    (壁などで見えない)
    LSTM
    移動
    アクション
    つかむ
    アクション
    ロック
    アクション
    自分
    エージェント ボックス
    傾斜台
    メモリーステート

    View Slide

  245. Project PAIDIA
    • マイクロソフトは、「ゲームインテリジェンスグループ」
    • https://www.microsoft.com/en-us/research/theme/game-intelligence/
    • を設置して30人程の研究者でゲームAIの研究をしています。
    • https://www.microsoft.com/en-us/research/project/project-paidia/#!people
    • これまでは、チェスや囲碁、そして最近ではマインクラフトを題材にしてエージェン
    トの知能を作る「Project Malmo」などを推進してきましたが、
    • GDC2020で「プロジェクト PAIDIA」を発表しました。
    • https://innovation.microsoft.com/en-us/exploring-project-paidia
    • これは、Ninja Theory 社と一緒にアクションゲームでプレイヤーと強調するキャラ
    クターの知能を作るプロジェクトです。

    View Slide

  246. • 3つの研究を柱として(かなり専門的ですが)推進しています。
    • https://www.microsoft.com/en-us/research/blog/three-new-reinforcement-
    learning-methods-aim-to-improve-ai-in-gaming-and-beyond/
    不確定な状況下での意思決定
    • https://www.microsoft.com/en-us/research/publication/conservative-
    uncertainty-estimation-by-fitting-prior-networks/
    リアルタイムで蓄積される記憶の整備
    • https://www.microsoft.com/en-us/research/publication/amrl-aggregated-
    memory-for-reinforcement-learning/
    不確定な状況下での強化学習
    • https://www.microsoft.com/en-us/research/publication/varibad-a-very-
    good-method-for-bayes-adaptive-deep-rl-via-meta-learning/
    Project PAIDIA

    View Slide

  247. 年 企業 テーマ 開発環境公開
    2003 Microsoft 「Teo Feng」における強化学習
    2005 Microsoft 「Forzamotor Sports」における強化学習
    2013 DeepMind AtariのゲームをDQNで学習 〇
    2015 DeepMind 囲碁 AlphaGO
    2017 AnyLogic 倉庫・機械などモデルのシミュレーション
    Microsoft 「パックマン」多報酬学習
    Hybrid Reward Architecture for Reinforcement Learning

    2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
    DeepMind 「Capture the flag」によるディープラーニング学習 〇
    Microsoft 「AirSim」ドローンシミュレーター 〇
    Nvidia 「ドライビングシミュレーター」
    Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
    facebook 「CraftAssist」マインクラフト内で会話研究 〇
    CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
    facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
    OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
    DeepMind 「StarCraft2」AlphaStar 〇
    DeepMind 「Capture the Flag」QuakeIII エンジン 〇
    2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
    DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
    OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

    View Slide

  248. 第I部:デジタルゲームAI
    第II部:メタバースとスマートシティ

    View Slide

  249. 情報処理学会 7月号(電子) 人工知能学会誌 7月号

    View Slide

  250. 参考文献
    • 三宅陽一郎
    「デジタルゲームAI技術を応用したスマートシティの設計」
    人工知能学会誌、37巻4号(2022年) 10ページ
    • 三宅陽一郎
    • 「メタバースの成立と未来 ―新しい時間と空間の獲得へ向けて―」,
    情報処理, Vol.63 No.7 (2022年) 34ページ
    https://ipsj.ixsq.nii.ac.jp/ej/?action=pages_view_main&active_action=repository_view_main_item_detail&item_id=218538&item_no=1&page_id=13&block_id=8
    https://www.jstage.jst.go.jp/article/jjsai/37/4/37_436/_article/-char/ja/

    View Slide

  251. スマートシティ

    View Slide

  252. データ収集
    (DataSF, CityVerve)
    サービス
    https://www.softbank.jp/biz/blog/business/articles/202003/overseas-smart-city/

    View Slide

  253. スマートシティの全体設計

    View Slide

  254. レベル
    キャラクターAI
    レベルを認識し、
    自律的な判断を行い、
    身体を動かす.
    敵・味方
    キャラクタ-
    プレイヤー
    情報獲得
    スパーシャルAI
    空間全般に関する思考
    メタAI, キャラクターAIの為に
    空間認識のためのデータを準備
    ナビゲーション・データの管理
    パス検索 戦術位置解析 オブジェクト認識
    メタAI
    エージェントを動的に配置
    レベル状況を監視
    エージェントに指示
    ゲームの流れを作る
    Order
    Ask &
    Report
    ゲーム全体をコントロール
    Support
    query
    query
    頭脳として機能
    MCS-AI動的
    連携モデル(三宅,2020)

    View Slide

  255. 都市全体の知能(意識)
    交通全般を制御するAI
    各エリアを
    監視・制御するAI
    各ビルを監視・
    制御するAI
    道路を
    監視・制御
    するAI
    各広場を
    監視・制御
    するAI
    人の流れを
    監視・制御
    するAI
    抑止・委任 報告
    抑止・委任 報告
    監視
    制御
    人 ドローン ロボット
    デジタル
    アバター
    報告
    命令

    監視
    制御
    監視
    制御
    協調
    協調
    協調・
    命令
    監視
    制御




















    キャラクターAI






    AI
    メタAI






    協調
    協調

    View Slide

  256. 都市
    環境アクターネットワーク
    人工知能
    (メタAI, キャラクターAI, スパーシャルAI)
    都市の人工知能システム
    都市の実体(物質、仕組み、ネットワーク構造)

    View Slide

  257. 都市のアクター
    ネットワーク
    物理的な都市
    都市の
    人工知能
    都市の
    意識
    (都市の無意識)
    (都市の身体)

    View Slide

  258. 都市を囲う環境世界
    命令の
    構成
    世界モデル
    世界シミュレーション
    都市のセンサー群
    都市のアクター群
    スパー
    シャルAI
    認識の
    形成
    意思の
    決定
    都市のエージェント群
    メタAI
    (都市の人工知能)
    キャラクターAI

    View Slide

  259. 空間型AIの作成

    View Slide

  260. スマート環境アクター
    スマートオブジェクト
    エージェント
    スマートポイント
    スマートスペース
    エージェント
    エージェント
    制御 制御 制御
    ドア
    ドアノブ
    スペース
    オブジェクト(物) ポイント(座標)

    View Slide

  261. エージェント
    主体 客体
    エージェント
    主体
    客体
    転換
    環境アクター
    スマート
    環境アクター
    主客転換制御

    View Slide

  262. メタAI
    エージェント
    エージェント自律制御
    スマート環境アクター制御 スマート環境アクター制御
    スマートスペース
    スマートオブジェクト
    スマートポイント
    コミュニケーション
    コミュニケーション

    View Slide

  263. メタAI
    エージェント
    エージェント自律制御
    スマート環境アクター制御 スマート環境アクター制御
    スマートスペース
    スマートオブジェクト
    スマートポイント
    コミュニケーション
    コミュニケーション
    コモングラウンド

    View Slide

  264. (メッシュ)
    コスト : 0.5
    見通し: 1.0
    地表: 床
    推奨高度:5m
    (メッシュ)
    コスト : 0.5
    見通し: 1.0
    地表: 床
    推奨高度:10m
    (メッシュ)
    コスト : 2.5
    見通し: 1.0
    地表: 土
    推奨高度:10m
    壁面:ガラス
    壁との衝突は
    必ず回避してください
    エージェント
    ナビゲーション・メッシュ
    (メッシュ)
    コスト : 0.5
    見通し: 1.0
    地表: 床
    推奨高度:7m
    エレベーターの入り口:
    使用する場合は、
    メッセージ001を送ってください
    空間記述表現

    View Slide

  265. 物理的都市空間
    スマートスペース
    メタバース

    View Slide

  266. 空間型AIの制御に入る車
    メタAI
    エージェント
    エージェント自律制御
    スマート環境アクター制御 スマート環境アクター制御
    スマートスペース
    スマートオブジェクト
    スマートポイント
    コミュニケーション
    コミュニケーション

    View Slide

  267. 現実空間のためのキャラクターAI,
    メタAIの検証

    View Slide

  268. オンラインゲーム メタバース 物理空間
    世界観 強固、かつ詳細 なるべく緩い設定 現実のまま
    物語 大きな物語を準備
    物語に沿って
    イベントが展開
    特になし
    ユーザーが作り出す
    現実の経済、人間関係
    (ソーシャル)、社会、
    など無限の要素
    キャラクター
    (人)の役割
    世界、物語の中で
    最初から定義
    特になし ユーザー
    の関係の中で発生
    不明(実存)
    オンラインゲーム 物理空間
    純粋なメタバース
    (空っぽの空間)

    View Slide

  269. 現実世界 デジタル
    ツイン
    ミラーワールド
    スマートシティ
    メタAI
    都市
    メタバース
    (世界モデルと
    して機能する)
    同期
    現実を認識する
    現実を予測する

    View Slide

  270. 垂直構造(現実との関連性)
    水平構造(世界のスケールの広がり)
    メタバース
    現実世界
    デジタル世界
    スマート
    シティ
    ミラーリングによる同期

    View Slide

  271. 現実世界
    (1) お金の動き
    (2) 物の動き
    (3) 人・動物の動き
    (4) 自然の動き
    デジタル
    ツイン
    (現実世界
    そっくりの
    メタバース)
    同期
    引き写し
    ミラーワールド
    スマートシティ
    センシングと情報取り込
    みによる(1)-(4)の同期
    ロボット・AI・情報提示に
    よるサービス・干渉

    View Slide

  272. 広場

    都市
    大学
    道路
    同期
    同期
    同期
    同期
    同期
    現実と同期するメタバース

    View Slide

  273. 奈良の鹿ミラーワールド
    同期
    (ミラー)
    現実
    メタバース
    本物の鹿 デジタルツイン鹿
    現実とメタバースをつなぐ

    View Slide

  274. 物理空間
    シミュレーション空間
    物理=シミュレーション
    混合空間

    View Slide

  275. 現実世界
    現実世界
    センサー
    エフェクタ
    デジタル
    ツイン
    意思決定・
    シミュレーション
    ゲームエンジン
    都市のエージェントの
    エージェント・
    アーキテクチャ
    情報経路

    View Slide

  276. 現実世界
    現実世界
    センサー
    エフェクタ
    デジタル
    ツイン
    ×
    世界モデル
    (ディープ
    ラーニング)
    都市の
    世界モデルの獲得
    世界モデル
    シミュレーション
    意思決定
    都市の夢を見る
    シミュレーション
    エンジン
    都市メタAIの
    エージェント・
    アーキテクチャ
    情報経路

    View Slide

  277. 物理世界へ
    の作用
    (指令・行為)
    知能
    物理世界
    情報収集
    (知覚)
    メタバース
    (集合知性)

    View Slide

  278. メタバース
    情報の
    蓄積
    シミュレー
    ション
    による予測
    人間の叡知
    一つの集合知性として機能する
    物理空間
    への作用
    センサー
    意思決定
    エフェクター
    物理空間
    からの情報
    物理空間へ
    の作用
    集合知性の
    エージェント・アーキテクチャ

    View Slide

  279. 物理世界
    物理世界 デジタル世界
    物理世界
    集合知性
    メタバース
    物理世界
    機械
    Level I
    Level 0
    Level III
    Level II
    意識の変容 人とデジタル空間の融合
    物理世界

    View Slide

  280. 活動神経網
    知覚神経網
    作用
    (行為)
    内的世界
    知能
    物理世界
    物理世界のリアリティ
    反作用
    (知覚)

    View Slide

  281. 活動神経網
    知覚神経網
    反作用
    (知覚)
    作用
    (行為)
    内的世界
    知能
    シミュレーション世界
    シミュレーション世界のリアリティ

    View Slide

  282. 物理世界へ
    の作用
    (指令・行為)
    知能
    物理世界
    情報収集
    (知覚)
    メタバース
    (集合知性)

    View Slide

  283. シミュレーション

    View Slide

  284. ゲームエンジンのUnityにPLATEAUのモデルを入れた画面。
    モデルは、品川駅周辺のモデル
    ~都市全体の外観~ ~道路~
    PLATEAUは建物のモデル
    のみなので、市民が実際に
    歩くことになる道路は自作。
    Pythonでの数値シミュレー
    ション同様、この道路1つ1
    つにサービスの水準を設定
    し、市民が通ると効用が得
    られるような画面を作る。
    今後の展望:実際の都市の3Dモデルによるシミュレーション
    石政龍矢 三宅陽一郎「メタAI型スマートシティ形成の提唱-」
    第64回土木計画学研究発表大会、2021年12月

    View Slide

  285. 仮想空間シミュレーションの動画
    シミュレーションを行っている状況を動画で紹介する。
    動画内で赤く動いているのが市民である。
    市民は品川駅を目指して動き、その過程で効用が計算されるように実装している。
    石政龍矢 三宅陽一郎「メタAI型スマートシティ形成の提唱-」
    第64回土木計画学研究発表大会、2021年12月

    View Slide

  286. メタAI型スマートシティの有効性の検証
    (Pythonによる数値シミュレーション)
    メタAIの有効性を検証するために、まずはPythonによる数値シミュレーションを行う。
    実験で想定すること
    市民は、目的地に着くまでに何本かの道路を歩く。市民は、バリアフリーが充実している道路等、その道
    路のもともとの公共サービスの充実度(サービスの水準)に応じて、効用を得る。さらに、各道路には一体
    ずつAIエージェントが配置され、AIエージェントは市民から一人を選んで公共サービスを行う。選ばれた市
    民は、その道路から得られる効用が、さらに増加する。メタAIは、AIエージェントが重複して同じ市民を選
    ばないように命令し、公共サービスを広く全体に行き渡らせる。
    道路1 道路2
    メタAI
    左の市民は前の道路で選ばれ
    たので、候補から外しなさい
    石政龍矢 三宅陽一郎「メタAI型スマートシティ形成の提唱-」
    第64回土木計画学研究発表大会、2021年12月

    View Slide

  287. メタAIのスマートシティへの活用
    石政龍矢 三宅陽一郎「メタAI型スマートシティ形成の提唱
    -PLATEAUデータを用いたマルチエージェントシミュレーションの観点から-」
    第64回土木計画学研究発表大会、2021年12月

    View Slide

  288. メタAI型スマートシティの有効性の検証
    横軸はシミュレーションの回数、縦軸は社会全体の効用について、
    メタAIがある場合の効用から、ない場合の効用を引いたもの
    全ての状況において、
    メタAIを導入した方が社
    会全体の効用が高くな

    メタAIがある場合とない場合の差
    各パターン
    効用の差
    ~留意点~
    検証の目的はメタAIが
    上手く機能することの確
    認であるため、効用の
    差の大きさにはあまり
    意味はない
    石政龍矢 三宅陽一郎「メタAI型スマートシティ形成の提唱-」
    第64回土木計画学研究発表大会、2021年12月

    View Slide

  289. メタバース

    View Slide

  290. メタバースの定義

    View Slide

  291. メタバース
    オンライン
    ゲーム 現実

    View Slide

  292. オンラインゲーム メタバース 物理空間
    世界観 強固、かつ詳細 なるべく緩い設定 現実のまま
    物語 大きな物語を準備
    物語に沿って
    イベントが展開
    特になし
    ユーザーが作り出す
    現実の経済、人間関係
    (ソーシャル)、社会、
    など無限の要素
    キャラクター
    (人)の役割
    世界、物語の中で
    最初から定義
    特になし ユーザー
    の関係の中で発生
    不明(実存)
    オンラインゲーム 物理空間
    純粋なメタバース
    (空っぽの空間)
    オンラインゲームとメタバースの違い

    View Slide

  293. 検索エンジン SNS メタバース
    検索サーバー
    ユーザー ユーザー
    タイム
    ライン
    デジタル空間
    インタラク
    ション
    デファクト・メジャーの遷移

    View Slide

  294. メタバース
    SNS
    検索エンジン
    現実の人間関係
    現実の情報
    現実の情報
    現実の人間関係
    現実の世界の状態
    現実の情報
    現実の深度
    仮想空間のリアリティ

    View Slide

  295. デジタル世界
    現実世界
    垂直構造(現実との関連性)
    水平構造(世界のスケールの広がり)
    オンライン
    ゲーム
    メタバース
    デジタル空間の水平構造と垂直構造

    View Slide

  296. 時代 メタバース世界の多様化
    2006 セカンドライフ
    2008 meet-me 2018
    2006 Roblox
    2009 Internet Adventure
    2012 The Sandbox
    2008 PlayStation Home
    2011
    2021
    Horizon Worlds
    2008 ai sp@ce
    メタバース
    創成記
    メタバースと
    ゲーム空間の
    融合
    セカンド
    ライフの影響
    メタバースと
    現実空間・
    経済との融合
    2017 フォートナイト
    2022
    仮想通貨SAND導入(2017年-)
    2003 EVE ONLINE
    2015
    2000 Phantasy Star Online / Phantasy Star Online 2
    UGCを軸とした
    オンラインゲーム
    アイテム課金モデル 仮想通貨の隆盛

    View Slide

  297. メタバースとソーシャル

    View Slide

  298. ソー
    シャル
    空間
    ゲーム
    空間
    ソーシャル
    空間
    メタバース
    ソーシャル
    空間
    1990 2010
    2000 2020
    オンラインゲームにおいて
    徐々にソーシャル的要素が
    入れられていった。SNSに
    対抗する必要があった。
    1990年代において
    ゲームはソロプレイか
    その場の数人でする
    ものであった。
    ゲーム的要素の少ないソーシャル
    空間をメインとするメタバースが
    台頭する。しかし、ゲームとは
    つながっている。
    ゲーム的要素がまったくない、
    独立したソーシャル空間が成立
    する。SNSの延長としての
    ソーシャル空間。
    SN
    S
    SNS
    SNS
    ソーシャル
    空間
    SNSの台頭と拡大
    ゲーム
    空間
    ゲーム
    空間
    SNS+ゲーム空間=メタバース

    View Slide

  299. ゲーム空間とソーシャル空間
    の関係
    関係図 特徴
    ゲーム空間をメインとしつつ、
    その周辺のソーシャル空間を
    配置する
    ゲーム空間を補完する形、或いは
    ゲーム空間で満たされない部分を
    ソーシャル空間においてみたすよ
    うに設計する。たとえば、ゲーム
    空間が戦闘であれば、ソーシャル
    空間は音楽・演劇など。
    ソーシャル空間をメインとし
    つつ、その中にゲーム空間が
    埋め込まれる。
    ソーシャル空間がメインであり、
    そこにそれぞれ独立したゲーム空
    間が埋め込まれる。多くの場合、
    ユーザーが作成したミニゲームが
    点在する形となる。
    ゲーム空間-ソーシャル空間
    一体型
    ゲーム空間とソーシャル空間の区
    別ではない。あらゆる場所がゲー
    ム空間であり、ユーザーが望めば、
    あらゆる空間で交流が可能である。
    ゲーム空間
    ソーシャル
    空間
    ゲーム
    空間
    ゲーム
    空間
    ゲーム
    空間
    ゲーム
    空間
    ソーシャ

    空間
    Roblox
    Sandbox
    フォートナイト
    あつ森など
    ソーシャル
    空間

    View Slide

  300. メタバース=ゲーム空間の解放
    オンラインゲーム

    View Slide



  301. テキスト
    テキスト


    画像/声
    画像/声


    擬似身体・声
    擬似身体・声
    空間
    メタバース
    オンライン会議
    SNS・チャットなど
    拡張するコミュニケーション

    View Slide


  302. エー
    ジェ
    ント
    エー
    ジェ
    ント
    エー
    ジェ
    ント
    エー
    ジェ
    ント エー
    ジェ
    ント
    エー
    ジェ
    ント

    エー
    ジェ
    ント
    エー
    ジェ
    ント
    エー
    ジェ
    ント
    エー
    ジェ
    ント エー
    ジェ
    ント
    エー
    ジェ
    ント

    エー
    ジェ
    ント
    エー
    ジェ
    ント
    エー
    ジェ
    ント
    エー
    ジェ
    ント
    エー
    ジェ
    ント
    エー
    ジェ
    ント
    エー
    ジェ
    ント
    人-エージェント-エージェント-人関係
    人-人関係
    から
    人-AI-AI-人
    関係へ

    View Slide

  303. 文化
    社会
    文化は社会を変える
    AI文化はAIを変える
    集積された文化を編纂し促進するAI
    =科学者・芸術家
    AI文化はAIが集積する
    エー
    ジェン

    エー
    ジェ
    ント
    エー
    ジェ
    ント
    エー
    ジェ
    ント
    エー
    ジェ
    ント
    エー
    ジェ
    ント
    エー
    ジェ
    ント
    エー
    ジェ
    ント
    エー
    ジェ
    ント

    View Slide

  304. ゲーム世界
    プレイヤー
    (主人公)
    プレイする
    バーチャル
    アイドル
    プロデューサー
    応援する・
    プロデュース
    する
    ゲーム世界
    (eSports)
    観戦者
    観戦する
    メタバース
    一参加者
    参加する
    デジタル世界への参加の仕方の変化
    デジタル空間への参加の仕方の変化

    View Slide

  305. メタバース
    (コモングラウンド)

    View Slide

  306. スマートシティとメタバースの融合、
    人間の行動変容

    View Slide

  307. レベル
    キャラクターAI
    レベルを認識し、
    自律的な判断を行い、
    身体を動かす.
    敵・味方
    キャラクタ-
    プレイヤー
    情報獲得
    スパーシャルAI
    空間全般に関する思考
    メタAI, キャラクターAIの為に
    空間認識のためのデータを準備
    ナビゲーション・データの管理
    パス検索 戦術位置解析 オブジェクト認識
    メタAI
    エージェントを動的に配置
    レベル状況を監視
    エージェントに指示
    ゲームの流れを作る
    Order
    Ask &
    Report
    ゲーム全体をコントロール
    Support
    query
    query
    頭脳として機能

    View Slide

  308. 現実世界
    デジタル
    ツイン
    (現実世界
    そっくりの
    メタバース)
    相互作用
    ミラーワールド
    スマートシティ
    センシング
    AIによる干渉

    View Slide

  309. 現実世界 デジタル
    ツイン
    ミラーワールド
    スマートシティ
    メタAI
    都市
    メタバース
    (世界モデルとし
    て機能する)
    同期
    引き写し
    現実を認識する
    現実を予測する

    View Slide

  310. 活動神経網
    知覚神経網
    作用
    (行為)
    内的世界
    知能
    物理世界
    物理世界のリアリティ
    反作用
    (知覚)

    View Slide

  311. 活動神経網
    知覚神経網
    反作用
    (知覚)
    作用
    (行為)
    内的世界
    知能
    シミュレーション世界
    シミュレーション世界のリアリティ

    View Slide

  312. 人の知的レベル=環境との相互作用による知的行動
    人 環境(世界)
    知的行動
    知的行動の拡大

    View Slide

  313. 環境(世界)
    知的行動
    知的行動の拡大
    人 他者(自律的存在)
    信頼感情の生成
    人の知性の拡大

    View Slide

  314. スマートシティ
    エージェント
    知的行動
    知的行動の拡大
    人 メタAI
    スマートシティによる知的行動の拡大

    View Slide

  315. 新しい現実
    スマートシティ
    エージェント
    知的行動 知的行動の拡大
    メタバース
    人 メタAI
    人の知性の拡大

    View Slide

  316. デジタルゲームから現実=仮想融合世界へ
    これまでの研究: デジタルゲームの人工知能の
    汎用的フレームの構築
    これからの研究:都市のための人工知能の
    汎用的フレームの構築

    View Slide

  317. これまでの研究: デジタルゲームの人工知能の
    汎用的フレームの構築
    これからの研究:都市のための人工知能の
    汎用的フレームの構築
    人工知能が人間
    を理解すること
    人工知能が社会
    を理解すること
    デジタルゲームから現実=仮想融合世界へ

    View Slide