Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ゲームAI、メタバース、スマートシティ

miyayou
June 07, 2023

 ゲームAI、メタバース、スマートシティ

ゲームAI、メタバース、スマートシティについて解説します。

miyayou

June 07, 2023
Tweet

More Decks by miyayou

Other Decks in Science

Transcript

  1. ゲームAI、メタバース、
    スマートシティ
    三宅 陽一郎 @miyayou
    [email protected]
    2023.5.16
    東京大学 ICTと産業2023

    View full-size slide

  2. 参考文献(以下に情報を集約してます)
    • 三宅陽一郎
    • 私のブックマーク「ディジタルゲームの人工知能の歴史的変遷
    ─ルールベースからディープラーニングまで」
    • https://www.ai-gakkai.or.jp/resource/my-bookmark/my-
    bookmark_vol37-no6/
    • 私のブックマーク「ディジタルゲームの人工知能(Artificial
    Intelligence in Digital Game)」
    • https://www.ai-gakkai.or.jp/resource/my-bookmark/my-
    bookmark_vol32-no4/

    View full-size slide

  3. 第I部:デジタルゲームAI
    第II部:メタバースとスマートシティ

    View full-size slide

  4. 自己紹介

    View full-size slide

  5. My Works (2004-2022)
    AI for Game Titles
    Books

    View full-size slide

  6. 戦略ゲームAI
    • 戦略ゲームにおける人工知能の技術を、
    起源から集めた著作
    • 2021年10月15日
    • 300ページぐらい

    View full-size slide

  7. リアルタイム
    ノンリアルタイム
    身体を持つ
    身体を持たない
    身体を持ち
    リアルタイムに
    空間を運動する
    身体を持たず
    空間を運動しない
    ゲーム・ロボット
    ビックデータ解析

    View full-size slide

  8. ゲームAIの特徴
    リアルタイム
    インタラクティブ
    身体を持つ
    ゲーム
    VR/AR ロボット・
    自動運転
    デジタルサイネージ
    ドローン
    エージェント・サービス

    View full-size slide

  9. AIの分化(1994-2000)
    ゲームシステム
    メタAI
    キャラクターAI ナビゲーションAI
    3つのAIシステムは序々に分化して独立して行った。
    では、今度はナビゲーションAIについてさらに詳しく見てみよう。

    View full-size slide

  10. レベルスクリプト
    ナビゲーションAI
    キャラクターAI
    メタAI
    1995 2000 2005 2010
    1994
    (ゲームの3D化)
    1999
    (スクリプティッドAIによる
    大型ゲームのキャラクター制御の限界。
    自律型AI技術のアカデミックからの流入)
    2005
    (ウィル・ライトによる“メタAI”定義)
    2008 (“LEFT 4 DEAD”に
    におけるAI Director)
    2010頃~
    (オープンワールド型
    ゲームの隆盛)
    スパーシャルAI
    1980
    PlayStation
    (1994)
    Xbox360
    (2005)
    PlayStation3
    (2006)
    スクリプティッドAI
    三宅陽一郎、水野勇太、里井大輝、 「メタAI」と「AI Director」の歴史的発展、日本デジタルゲーム学会(2020年、Vol.13, No.2)
    LS-Modelモデル LCN-AI連携モデル MCS-AI動的連携モデル
    MCN-AI連携モデル

    View full-size slide

  11. レベル
    キャラクターAI
    レベルを認識し、
    自律的な判断を行い、
    身体を動かす.
    敵・味方
    キャラクタ-
    プレイヤー
    情報獲得
    スパーシャルAI
    空間全般に関する思考
    メタAI, キャラクターAIの為に
    空間認識のためのデータを準備
    ナビゲーション・データの管理
    パス検索 戦術位置解析 オブジェクト認識
    メタAI
    エージェントを動的に配置
    レベル状況を監視
    エージェントに指示
    ゲームの流れを作る
    Order
    Ask &
    Report
    ゲーム全体をコントロール
    Support
    query
    query
    頭脳として機能
    MCS-AI動的
    連携モデル(三宅,2020)

    View full-size slide

  12. デジタルゲームAI入門①
    (キャラクターAI)

    View full-size slide

  13. レベル
    キャラクターAI
    レベルを認識し、
    自律的な判断を行い、
    身体を動かす.
    敵・味方
    キャラクタ-
    プレイヤー
    情報獲得
    スパーシャルAI
    空間全般に関する思考
    メタAI, キャラクターAIの為に
    空間認識のためのデータを準備
    ナビゲーション・データの管理
    パス検索 戦術位置解析 オブジェクト認識
    メタAI
    エージェントを動的に配置
    レベル状況を監視
    エージェントに指示
    ゲームの流れを作る
    Order
    Ask &
    Report
    ゲーム全体をコントロール
    Support
    query
    query
    頭脳として機能
    MCS-AI動的
    連携モデル

    View full-size slide

  14. レベル
    キャラクターAI
    レベルを認識し、
    自律的な判断を行い、
    身体を動かす.
    敵・味方
    キャラクタ-
    プレイヤー
    情報獲得
    スパーシャルAI
    空間全般に関する思考
    メタAI, キャラクターAIの為に
    空間認識のためのデータを準備
    ナビゲーション・データの管理
    パス検索 戦術位置解析 オブジェクト認識
    メタAI
    エージェントを動的に配置
    レベル状況を監視
    エージェントに指示
    ゲームの流れを作る
    Order
    Ask &
    Report
    ゲーム全体をコントロール
    Support
    query
    query
    頭脳として機能
    MCS-AI動的
    連携モデル

    View full-size slide

  15. 知能の世界
    環境世界
    認識の
    形成
    記憶
    意思の
    決定
    身体
    制御
    エフェクター・
    身体
    運動の
    構成
    センサー・
    身体
    意思決定
    モジュール
    意思決定
    モジュール
    意思決定
    モジュール
    記憶体
    情報処理過程 運動創出過程
    身体部分
    情報
    統合
    運動
    統合

    View full-size slide

  16. FC SFC SS, PS PS2,GC,Xbox Xbox360, PS3, Wii
    DC (次世代)
    Hardware 時間軸
    2005
    1999
    ゲームの進化と人工知能
    複雑な世界の
    複雑なAI
    ゲームも世界も、AIの身体と内面もますます複雑になる。
    単純な世界の
    シンプルなAI
    (スペースインベーダー、タイトー、1978年) (アサシンクリード、ゲームロフト、2007年)

    View full-size slide

  17. (例) スペースインベーダー(1978)
    プレイヤーの動きに関係なく、決められた動きをする
    (スペースインベーダー、タイトー、1978年)

    View full-size slide

  18. (例)プリンス・オブ・ペルシャ
    「プリンス・オブ・ペルシャ」など、
    スプライトアニメーションを用意する必要がある場合、
    必然的にこういった制御となる。
    (プリンスオブペルシャ、1989年)

    View full-size slide

  19. 3Dゲームの中のAI
    Halo
    (HALO、バンジー、2001年) デバッグ画面
    The Illusion of Intelligence - Bungie.net Downloads
    http://downloads.bungie.net/presentations/gdc02_jaime_griesemer.ppt

    View full-size slide

  20. 強化学習(例)
    強化学習
    (例)格闘ゲーム
    キック
    パン

    波動
    R_0 : 報酬=ダメージ
    http://piposozai.blog76.fc2.com/
    http://dear-croa.d.dooo.jp/download/illust.html

    View full-size slide

  21. 強化学習
    (例)格闘ゲームTaoFeng におけるキャラクター学習
    Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
    "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
    http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx
    Microsoft Research Playing Machines: Machine Learning Applications in Computer Games
    http://research.microsoft.com/en-us/projects/mlgames2008/
    Video Games and Artificial Intelligence
    http://research.microsoft.com/en-us/projects/ijcaiigames/

    View full-size slide

  22. サブサンプション・アーキテクチャ(ロドニー・ブルックス)
    INPUT OUTPUT
    時間
    情報抽象度
    反射的に行動
    少し場合ごとに対応
    抽象的に思考
    理論的に考える
    言語化のプロセス
    = 自意識の構築化
    Subsumpution Architecture
    運動の実現のプロセス
    = 身体運動の生成

    View full-size slide

  23. 機能環
    効果器 受容器(刺激→興奮(記号))
    客体
    活動神経網
    知覚神経網
    前野佳彦訳・ユクスキュル「動物の環境と内的世界」 (みすず書房)
    知覚世界
    活動世界
    知覚微表担体
    対象化された機構
    活動担体
    内的世界
    興奮(記号)
    興奮
    興奮
    運動形態
    =特定の筋肉を動かす
    中枢神経網

    View full-size slide

  24. Physical
    Informat
    ion
    Abstract
    Informat
    ion
    More
    Abstract
    Informat
    ion
    Abstraction
    Time
    Decision-Making
    Decision-Making
    Decision-Making
    Multi-Layered
    Blackboard
    Abstraction
    Abstraction
    Reduction
    Reduction
    Reduction
    World
    World Dynamics
    Artificial Intelligence
    Object
    Object image on the
    lowest layer (Umwelt)
    Object image on
    the second layer
    Object image
    on the third
    layer
    Decision-Making
    Object image
    on the top
    layer

    View full-size slide

  25. デジタルゲームAI入門②
    (スパーシャルAI)

    View full-size slide

  26. レベル
    キャラクターAI
    レベルを認識し、
    自律的な判断を行い、
    身体を動かす.
    敵・味方
    キャラクタ-
    プレイヤー
    情報獲得
    スパーシャルAI
    空間全般に関する思考
    メタAI, キャラクターAIの為に
    空間認識のためのデータを準備
    ナビゲーション・データの管理
    パス検索 戦術位置解析 オブジェクト認識
    メタAI
    エージェントを動的に配置
    レベル状況を監視
    エージェントに指示
    ゲームの流れを作る
    Order
    Ask &
    Report
    ゲーム全体をコントロール
    Support
    query
    query
    頭脳として機能
    MCS-AI動的
    連携モデル

    View full-size slide

  27. ネットワーク上のグラフ検索法
    A*法
    M
    F
    L
    B
    A

    O
    P
    D
    C
    G
    S
    V
    H
    Q
    X
    K
    N
    J
    R
    T
    W
    E
    I
    U
    Z
    Y

    5
    4
    6 3
    7 2
    3
    B C
    3
    3
    2 2
    4 3
    5
    5
    出発点(S)を中心に、そのノードまでの
    最も短い経路を形成して行く。Gにたどり着いたら終了。
    ゴール地点がわかっている場合、現在のノードとゴールとの推定距離(ヒューリスティック距離)
    を想定して、トータル距離を取り、それが最少のノードを探索して行く。
    各ノードの評価距離=出発点からの経路+ヒューリスティック距離
    ヒューリスティック距離
    (普通ユークリッド距離を取る)
    3+14.2 3+13.8
    G H
    3 5+10.5 6+8.4

    View full-size slide

  28. パス検索(デモと実例)

    View full-size slide

  29. (メッシュ)
    コスト : 0.5
    見通し: 1.0
    地表: 土
    (メッシュ)
    コスト : 0.8
    見通し: 0.7
    地表: 沼
    (オブジェクト)
    動かせる : (1.0,0.8)向き
    持ち上げる: false
    上に乗れる: false
    硬さ: 0.9
    重たさ: 0.4
    (オブジェクト)
    アクション:レバー倒す
    効果: 扉が開く
    (オブジェクト)扉
    メッシュ同士の
    リンク情報

    View full-size slide

  30. スパーシャルAI
    空間解析
    状況解析
    位置検索技術
    パス検索
    スマートオブジェクト
    など多数
    影響マップ
    など多数

    View full-size slide

  31. プレイヤー予測経路(ゴールデンパス)
    M. Jack , M. Vehkala, “Spaces in the Sandbox: Tactical Awareness in Open World Games,” GDC 2013,
    https://www.gdcvault.com/play/1018136/Spaces-in-the-Sandbox-Tactical

    View full-size slide

  32. ゴールデンパスに沿った位置検索技術
    プレイヤーの
    予想目標地点
    プレイヤーの現在位置
    ゴールデンパス
    ゴールデンパス上で、20m以上プレイヤーから離れて、
    40m以内にある場所で、ゴールデンパスから幅10mの領域でポイントを見つける

    View full-size slide

  33. M. Jack , M. Vehkala, “Spaces in the Sandbox: Tactical Awareness in Open World Games,” GDC 2013,
    https://www.gdcvault.com/play/1018136/Spaces-in-the-Sandbox-Tactical

    View full-size slide

  34. Tom Mathews Making "Big Data" Work for 'Halo': A Case Study
    http://ai-wiki/wiki/images/d/d8/AI_Seminar_177th.pdf

    View full-size slide

  35. 位置検索システム

    View full-size slide

  36. 位置検索システム
    - キャラクターの性能に応じて
    - 地形毎に
    - リアルタイムで
    最も適したポイントを見つけるシステム

    View full-size slide

  37. Enemy
    Friend
    NPC
    Rock
    Rock
    Sea
    Hole

    View full-size slide

  38. オリジナル

    View full-size slide

  39. オリジナル

    View full-size slide

  40. M. Jack , M. Vehkala, “Spaces in the Sandbox: Tactical Awareness in Open World Games,” GDC 2013,
    https://www.gdcvault.com/play/1018136/Spaces-in-the-Sandbox-Tactical

    View full-size slide

  41. M. Jack , M. Vehkala, “Spaces in the Sandbox: Tactical Awareness in Open World Games,” GDC 2013,
    https://www.gdcvault.com/play/1018136/Spaces-in-the-Sandbox-Tactical

    View full-size slide

  42. M. Jack , M. Vehkala, “Spaces in the Sandbox: Tactical Awareness in Open World Games,” GDC 2013,
    https://www.gdcvault.com/play/1018136/Spaces-in-the-Sandbox-Tactical

    View full-size slide

  43. M. Jack , M. Vehkala, “Spaces in the Sandbox: Tactical Awareness in Open World Games,” GDC 2013,
    https://www.gdcvault.com/play/1018136/Spaces-in-the-Sandbox-Tactical

    View full-size slide

  44. M. Jack , M. Vehkala, “Spaces in the Sandbox: Tactical Awareness in Open World Games,” GDC 2013,
    https://www.gdcvault.com/play/1018136/Spaces-in-the-Sandbox-Tactical

    View full-size slide

  45. 車に空間感覚を与える
    • 車自体がセンサーだけではなく、空間認識能力を持つ
    • ドライビング以外にも、さまざまな空間的感覚を手に入れる。

    View full-size slide

  46. スパーシャルAI
    空間解析
    状況解析
    位置検索技術
    パス検索
    スマートオブジェクト
    など多数
    影響マップ
    など多数

    View full-size slide

  47. スマートオブジェクト、スマートロケーション
    物の方に人工知能を持たせて、物からキャラクターを操る仕組み

    View full-size slide

  48. 物理的都市空間
    スマートスペース
    メタバース

    View full-size slide

  49. デジタルゲームAI入門③
    (メタAI)

    View full-size slide

  50. レベル
    キャラクターAI
    レベルを認識し、
    自律的な判断を行い、
    身体を動かす.
    敵・味方
    キャラクタ-
    プレイヤー
    情報獲得
    スパーシャルAI
    空間全般に関する思考
    メタAI, キャラクターAIの為に
    空間認識のためのデータを準備
    ナビゲーション・データの管理
    パス検索 戦術位置解析 オブジェクト認識
    メタAI
    エージェントを動的に配置
    レベル状況を監視
    エージェントに指示
    ゲームの流れを作る
    Order
    Ask &
    Report
    ゲーム全体をコントロール
    Support
    query
    query
    頭脳として機能
    MCS-AI動的
    連携モデル

    View full-size slide

  51. メタAIの歴史
    1980 1990 2000
    古典的メタAI
    現代のメタAI
    キャラクターAI技術の発展
    その歴史は古く、1980年代にまでさかのぼる。
    その時代と現代のメタAIは、異なる点も多いので、
    古典的メタAI、現代のメタAIと名づけて区別することにしよう。

    View full-size slide

  52. (例)「ゼビウス」(ナムコ、1983)
    敵出現テーブル巻き戻し
    敵0
    敵1
    敵2
    敵3
    敵4
    敵5
    『あと面白い機能なんですけれど、 ゼビウスには非常に簡単なAIが組み込まれています。
    「プレイヤーがどれくらいの腕か」というのを判断して、 出てくる敵が強くなるんです。
    強いと思った相手には強い敵が出てきて、 弱いと思った相手には弱い敵が出てきます。 そういっ
    たプログラムが組み込まれています。 ゲームの難易度というのは「初心者には難しくて、上級者
    には簡単だ」ということが、 ひとつの難易度で(調整を)やっていくと起きてしまうので、 その辺を何
    とか改善したいな、ということでそういったことを始めてみたのですけれど、 お陰で割合にあまり上
    手くない人でも比較的長くプレイできる、 うまい人でも最後のほうに行くまで結構ドラマチックに楽
    しめる、 そういった感じになっています。』
    - 遠藤雅伸(出演)、1987、「糸井重里の電視遊戯大展覧会」『遠藤雅伸ゼビウスセミナー』フジテレビ -

    View full-size slide

  53. メタAIの歴史
    1980 1990 2000
    古典的メタAI
    現代のメタAI
    キャラクターAI技術の発展
    その歴史は古く、1980年代にまでさかのぼる。
    その時代と現代のメタAIは、異なる点も多いので、
    古典的メタAI、現代のメタAIと名づけて区別することにしよう。

    View full-size slide

  54. メタAI(=AI Director)によるユーザーのリラックス度に応じた敵出現度
    ユーザーの緊張度
    実際の敵出現数
    計算によって
    求められた
    理想的な敵出現数
    Build Up …プレイヤーの緊張度が目標値を超えるまで
    敵を出現させ続ける。
    Sustain Peak … 緊張度のピークを3-5秒維持するために、
    敵の数を維持する。
    Peak Fade … 敵の数を最小限へ減少していく。
    Relax … プレイヤーたちが安全な領域へ行くまで、30-45秒間、
    敵の出現を最小限に維持する。
    Michael Booth, "The AI Systems of Left 4 Dead," Artificial Intelligence and Interactive Digital Entertainment Conference at Stanford.
    http://www.valvesoftware.com/publications.html
    より具体的なアルゴリズム

    View full-size slide

  55. 安全な領域までの道のり(Flow Distance)
    メタAIはプレイヤー群の経路を
    トレースし予測する。
    - どこへ来るか
    - どこが背面になるか
    - どこに向かうか
    Michael Booth, "The AI Systems of Left 4 Dead," Artificial Intelligence and Interactive Digital Entertainment Conference at Stanford.
    http://www.valvesoftware.com/publications.html

    View full-size slide

  56. プレイヤーからの可視領域
    可視領域(プレイヤーから見えている
    部屋)では、敵のスパウニング(発生)
    はできない。
    Michael Booth, "The AI Systems of Left 4 Dead," Artificial Intelligence and Interactive Digital Entertainment Conference at Stanford.
    http://www.valvesoftware.com/publications.html

    View full-size slide

  57. 敵出現領域
    背後 前方
    Michael Booth, "The AI Systems of Left 4 Dead," Artificial Intelligence and Interactive Digital Entertainment Conference at Stanford.
    http://www.valvesoftware.com/publications.html
    前方と背後のプレイヤー群から見えてない部屋に、
    モンスターを発生させる。

    View full-size slide

  58. Procedural Generation in WarFrame
    • Warframe ではダンジョンが自動生成される。
    Daniel Brewer, AI Postmortems: Assassin's Creed III, XCOM: Enemy Unknown, and Warframe (GDC2015)
    http://www.gdcvault.com/play/1018223/AI-Postmortems-Assassin-s-Creed

    View full-size slide

  59. Black Combination in WarFrame
    • ブロックを組み合わる
    • 完全に零からの生成
    ではない。
    このような生成のことを
    Semi-procedural と言う。
    Daniel Brewer, AI Postmortems: Assassin's Creed III, XCOM: Enemy Unknown, and Warframe (GDC2015)
    http://www.gdcvault.com/play/1018223/AI-Postmortems-Assassin-s-Creed

    View full-size slide

  60. WarFrame における自動生成マップの
    自動解析による自動骨格抽出
    • 自動生成するだけでなく、自動生成したダンジョンを、自動解
    析します。ここでは、トポロジー(形状)検出を行います。

    View full-size slide

  61. WarFrame における自動生成マップの
    自動解析によるナビゲーションデータ作成
    抽出した骨格に沿って
    自動的にナビゲーション・データを作成します。
    Daniel Brewer, AI Postmortems: Assassin's Creed III, XCOM: Enemy Unknown, and Warframe (GDC2015)
    http://www.gdcvault.com/play/1018223/AI-Postmortems-Assassin-s-Creed

    View full-size slide

  62. スタートポイント、出口、目的地の
    自動生成
    Daniel Brewer, AI Postmortems: Assassin's Creed III, XCOM: Enemy Unknown, and Warframe (GDC2015)
    http://www.gdcvault.com/play/1018223/AI-Postmortems-Assassin-s-Creed

    View full-size slide

  63. ヒートマップ(影響マップ)を用いて
    ゲーム中にプレイヤーの周囲を自動解析
    Daniel Brewer, AI Postmortems: Assassin's Creed III, XCOM: Enemy Unknown, and Warframe (GDC2015)
    http://www.gdcvault.com/play/1018223/AI-Postmortems-Assassin-s-Creed
    ヒートマップ(影響マップ)とは、対象(ここではプレイヤー)を中心に、位置に温度(影響度)を
    与える方法です。距離に応じて減衰します。また時間が経つと、周囲に熱が拡散します。

    View full-size slide

  64. Tactical Map の例 (影響マップ)
    (例)敵と自分の勢力をリアルタイムに計算する。
    4 6 8 8 8 8 6 4 2 0 -1 -2 -4 -4 -4 -2
    4 6 8 8 8 8 4 2 1 0 -2 -4 -4 -2
    4 6 8 8 8 6 3 1 0 -2 -4 -4 -4 -2
    4 6 8 8 8 6 6 4 1 0 -2 -4 -4 -2
    2 4 6 8 6 6 4 4 0 -1 -2 -4 -4 -4 -2
    1 2 4 6 6 4 2 2 -4 -5 -3 -3 -4 -4 -2 -1
    3 3 3 3 4 2 2 0 -4 -5 -5 -8 -8 -6 -4 -2
    3 3 2 2 2 0 -2 -4 -8 -10 -10 -8 -4 -2
    3 3 3 2 2 1 0 -4 -8 -10 -10 -8 -8 -4 -2
    2 2 2 2 1 1 0 -3 -8 -10 -10 -8 -8 -4 -2
    1 1 1 1 0 0 -2 -4 -8 -8 -8 -8 -8 -8 -8 -8
    0 0 0 0 0 -1 -1 -2 -5 -6 -6 -6 -8 -8 -8
    0 0 0 0 -1 -2 -2 -2 -4 -4 -4 -6 -8 -8 -8 -8
    0 0 0 0 -1 -2 -2 -2 -2 -2 -2 -2 -2 -2 -2
    0 0 0 0 -1 -2 -2 -2 -2 -2 -2 -2 -2 -2 -2 -2
    0 0 0 0 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1

    View full-size slide

  65. ヒートマップ(影響マップ)を用いて
    ゲーム中にプレイヤーの周囲を自動解析
    「ヒートが増加する=プレイヤーが近づく点」
    「ヒートが減少する=プレイヤーが遠ざかる点」
    Daniel Brewer, AI Postmortems: Assassin's Creed III, XCOM: Enemy Unknown, and Warframe (GDC2015)
    http://www.gdcvault.com/play/1018223/AI-Postmortems-Assassin-s-Creed

    View full-size slide

  66. アクティブ・エリアセット(Active Are Set)
    Daniel Brewer, AI Postmortems: Assassin's Creed III, XCOM: Enemy Unknown, and Warframe (GDC2015)
    http://www.gdcvault.com/play/1018223/AI-Postmortems-Assassin-s-Creed
    アクティブ・エリアセットは、プレイヤーの周囲の領域で、
    リアルタイムにメタAIがゲームを調整する領域

    View full-size slide

  67. メタAIがアクティブ・エリアセット内で
    ゲームを調整する
    「ヒートが増加する=プレイヤーが近づく点」なので、モンスターを生成する。
    「ヒートが減少する=プレイヤーが遠ざかる点」なので、モンスターを停止する。
    Daniel Brewer, AI Postmortems: Assassin's Creed III, XCOM: Enemy Unknown, and Warframe (GDC2015)
    http://www.gdcvault.com/play/1018223/AI-Postmortems-Assassin-s-Creed

    View full-size slide

  68. 技術の変わり目
    ビックデータ x ディープラーニング
    シミュレーション x ディープラーニング
    データが貯まるところでディープラーニングを行い特徴抽出を行う
    シミュレーションでデータを貯めてディープラーニングを行う

    View full-size slide

  69. Google 「サッカーシミュレーター」による
    強化学習の研究
    https://automaton-media.com/articles/newsjp/20190613-95002/
    シミュレーション
    現実
    機械学習
    (ディープ
    ラーニン
    グ)
    https://ai.googleblog.com/2019/06/introducing-google-research-football.html

    View full-size slide

  70. シミュレーション
    現実
    機械学習
    (ディープ
    ラーニン
    グ)
    DeepMind社「Capture the flag」による
    ディープラーニング学習
    https://deepmind.com/blog/article/capture-the-flag-science

    View full-size slide

  71. AnyLogic「シミュレーションx機械学習」
    サービス
    シミュレーション
    現実
    機械学習
    (ディープ
    ラーニン
    グ)
    https://www.anylogic.com/warehouse-operations/

    View full-size slide

  72. Microsoft 「AirSim」による強化学習の研究
    シミュレーション
    現実
    機械学習
    (ディープ
    ラーニン
    グ)
    https://microsoft.github.io/AirSim/

    View full-size slide

  73. Nvidia「ドライビングシミュレーター」によ
    る強化学習の研究
    シミュレーション
    現実
    機械学習
    (ディープ
    ラーニン
    グ)
    https://www.nvidia.com/en-us/self-driving-cars/drive-constellation

    View full-size slide

  74. シミュレー
    ション
    これからの人工知能のフレームワーク
    現実
    機械学習
    (ディープ
    ラーニン
    グ)
    この2つの技術の結びつきが、現実においても、仮想
    空間においても、これからの協力な技術コアとなる。

    View full-size slide

  75. 現実世界
    デジタル
    ツイン 相互作用
    ミラーワールド
    スマートシティ
    センシング
    AIによる干渉
    With
    ディープラーニング

    View full-size slide

  76. 現実世界
    デジタル
    ツイン 相互作用
    ミラーワールド
    スマートシティ
    センシング
    AIによる干渉
    With
    ディープラーニング
    コモングラウンド

    View full-size slide

  77. シム空間とリアル空間を行き来する車
    • リアルな存在であると同時に、デジタル空間の存在でもある。
    • 二重性を持つ。
    • 夢を見る車=昼間は知ったコースを反芻してイメージする

    View full-size slide

  78. 現実世界
    デジタル
    ツイン 相互作用
    ミラーワールド
    スマートシティ
    センシング
    AIによる干渉
    With
    ディープラーニング

    View full-size slide

  79. 現実世界
    現実世界
    センサー
    エフェクタ
    デジタル
    ツイン
    意思決定・
    シミュレーション
    ゲームエンジン
    都市のエージェントの
    エージェント・
    アーキテクチャ
    情報経路

    View full-size slide

  80. 現実世界
    現実世界
    センサー
    エフェクタ
    デジタル
    ツイン
    ×
    世界モデル
    (ディープ
    ラーニング)
    都市の
    世界モデルの獲得
    世界モデル
    シミュレーション
    意思決定
    都市の夢を見る
    シミュレーション
    エンジン
    都市メタAIの
    エージェント・
    アーキテクチャ
    情報経路

    View full-size slide

  81. ゲームエンジン

    View full-size slide

  82. 現実世界
    メタバース
    (ゲーム
    エンジン)
    物理法則
    化学法則
    経済法則
    社会法則
    生物法則
    知能の法則
    抽出 実装
    物理シミュレーション
    化学シミュレーション
    経済シミュレーション
    社会シミュレーション
    生物シミュレーション
    知能シミュレーション
    シミュレーション化
    サイエンス・エンジニアリング 情報処理
    物・運動 データ構造・プログラム

    View full-size slide

  83. 現実世界
    デジタル
    ツイン
    (ゲーム
    エンジン)
    相互作用
    ミラーワールド
    スマートシティ
    センシング
    AIによる干渉

    View full-size slide


  84. 頂点
    ポリゴン
    頂点
    移動計算
    移動計算
    メモリ
    CPU or
    GPU


    アーティスト
    エンジニア
    ロード
    (格納)
    実行

    View full-size slide

  85. ゲームエンジンの時代
    • ゲームエンジンは古くからある(80年代、ナムコのタスクシステム)
    • ゲームの規模が小さいうちは効果が大きくない
    • 90年代(ほとんどない。ソースコードレベル)
    • 00年代(黎明期)
    • ゲームエンジン群雄割拠時代(2010-2020)
    • 市販のエンジンに加えて、それぞれのゲーム会社でゲームエンジンが作られた
    • 現代では、ゲームエンジンなしで大型ゲームは作れない
    • ゲームエンジン=ゲームの質に直結、ゲーム開発の技術を集積する場所
    • Unreal Engine(Epic)とUnity3Dが生き残った
    • Unreal Engine アメリカ 巨漢大砲主義の思想
    • Unity 3D デンマーク(北欧)Do it yourself の思想

    View full-size slide

  86. ジョブ・コントローラー(ナムコ、ゼビウスなど)
    三宅 陽一郎 「タスクシステムの起源について」 2016年 年次大会 予稿集
    Digital Games Research Association JAPAN Proceedings of 2016 Annual Conference

    View full-size slide

  87. 大型ゲームエンジン一覧(他にもたくさん)
    タイトル ゲームエンジン名 会社
    Far Cry 3,4 DUNIA ENGINE 2 Ubisoft Montreal
    THE DIVISION snow drop engine Ubisoft (massive)
    Assassin’s creed: syndicate AnvilNext 2.0 game engine Ubisoft Montreal
    For Honor AnvilNext 2.0 game engine Ubisoft Montreal
    Rise of Tomb Raider Foundation engine Crystal Dynamics
    The Witcher 3 RED ENGINE CD PROJEKT
    Dragon Age : Inquisition frostbite engine EA DICE
    ゲームエンジン名 会社
    汎用型 Unity3D Unity Technologies (デンマーク)
    汎用型 UNREAL ENGINE 4 Epic Games (米)
    汎用型 CryEngine CryTech (独)
    汎用型 Lumberyard Amazon
    汎用型 Stingray Autodesk

    View full-size slide

  88. メタバース
    物・運動
    データ構造・プログラム
    現実世界
    ツールで
    アーティスト・
    デザイナーが
    作成
    エンジニアが
    プログラミング
    存在 法則

    View full-size slide

  89. 原子
    分子=原子+力
    物質=分子と力
    現象=物質と力
    データ
    オブジェクト
    =データ+プロ
    エンティティ
    =オブジェクト
    現象
    =エンティティ
    現実世界 メタバース

    View full-size slide

  90. データ処理
    オブジェクト
    =データ+プログラム
    エンティティ
    =オブジェクトとプログラム
    現象
    =エンティティ+プログラム
    メタバース
    情報処理基礎
    (プログラミング基礎)
    オブジェクト指向
    プログラミング
    大規模システム
    プログラミング
    シミュレーション
    プログラミング

    View full-size slide

  91. https://www.moguravr.com/virtual-shibuya-8/

    View full-size slide

  92. https://www.youtube.com/watch?v=1FOz5dMxn3s

    View full-size slide

  93. ビックデータ x ディープラーニング
    から
    シミュレーション x ディープラーニング

    View full-size slide

  94. ゲームの中、ゲームの外
    ゲーム周辺AI
    (外=開発、現実)
    ゲームAI
    (中=コンテンツ)
    メタAI
    キャラクター
    AI
    ナビゲーション
    AI
    開発支援
    AI
    QA-AI
    自動バランス
    AI
    インターフェース
    上のAI
    データ
    マイニング
    シミュレーショ
    ン技術
    ゲーム
    可視化
    ユーザーの
    生体信号
    プロシー
    ジャルAI

    View full-size slide

  95. レベル
    キャラクターAI
    レベルを認識し、
    自律的な判断を行い、
    身体を動かす.
    敵・味方
    キャラクタ-
    プレイヤー
    情報獲得
    スパーシャルAI
    空間全般に関する思考
    メタAI, キャラクターAIの為に
    空間認識のためのデータを準備
    ナビゲーション・データの管理
    パス検索 戦術位置解析 オブジェクト認識
    メタAI
    エージェントを動的に配置
    レベル状況を監視
    エージェントに指示
    ゲームの流れを作る
    Order
    Ask &
    Report
    ゲーム全体をコントロール
    Support
    query
    query
    頭脳として機能
    MCS-AI動的
    連携モデル

    View full-size slide

  96. 人工知能全域
    機械学習
    ディープ
    ラーニング
    統計
    学習
    コネクショニズム
    シンボリズム
    デジタルゲームAI
    ゲームAIはシンボリックAIから機械学習へ
    今後10年かけて徐々にシフトする
    現在、社内でも研究中。

    View full-size slide

  97. 人工知能全域
    機械学習
    ディープ
    ラーニング
    統計
    学習
    コネクショニズム
    シンボリズム
    デジタルゲームAI
    ゲームAIはシンボリックAIから機械学習へ
    今後10年かけて徐々にシフトする
    現在、社内でも研究中。

    View full-size slide

  98. 人工知能全域
    機械学習
    ディープ
    ラーニング
    統計
    学習
    コネクショニズム
    シンボリズム
    デジタルゲームAI
    機械学習の導入には土台となるシミュレーション
    (物理、仕組み)が必要
    シミュレーション技術

    View full-size slide

  99. クラシックゲームを用いた
    ディープラーニング環境構築
    - 強化学習の発展-

    View full-size slide

  100. はじめに

    View full-size slide

  101. ゲームとディープラーニング
    現状
    • この3年間で、ゲーム産業以外で、ゲームを用いたディープ
    ラーニングの研究が増加している。
    • 当のゲーム産業では、それ程多くない。
    理由
    • 強化学習(DQNなど)を研究するには、結局ルールを持つシ
    ミュレーション空間を使う必要がある。
    • データがないところでディープラーニングを活用したい
    • 現実空間で応用する前に箱庭で成長させたい
    • ほとんどすべて研究環境がオープンソースになっている。

    View full-size slide

  102. 年 企業 テーマ 開発環境公開
    2003 Microsoft 「Teo Feng」における強化学習
    2005 Microsoft 「Forzamotor Sports」における強化学習
    2013 DeepMind AtariのゲームをDQNで学習 〇
    2015 DeepMind 囲碁 AlphaGO
    2017 AnyLogic 倉庫・機械などモデルのシミュレーション
    Microsoft 「パックマン」多報酬学習
    Hybrid Reward Architecture for Reinforcement Learning

    2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
    DeepMind 「Capture the flag」によるディープラーニング学習 〇
    Microsoft 「AirSim」ドローンシミュレーター 〇
    Nvidia 「ドライビングシミュレーター」
    Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
    facebook 「CraftAssist」マインクラフト内で会話研究 〇
    CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
    facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
    OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
    DeepMind 「StarCraft2」AlphaStar 〇
    DeepMind 「Capture the Flag」QuakeIII エンジン 〇
    2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
    DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
    OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

    View full-size slide

  103. パックマンによる研究

    View full-size slide

  104. 年 企業 テーマ Open
    2003 Microsoft 「Teo Feng」における強化学習
    2005 Microsoft 「Forzamotor Sports」における強化学習
    2013 DeepMind A tariのゲームをDQNで学習
    2015 DeepMind 囲碁 AlphaGO
    2017 AnyLogic 倉庫・機械などモデルのシミュレーション
    Microsoft 「パックマン」多報酬学習 Hybrid Reward Architecture for Reinforcement Learning
    2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
    DeepMind 「Capture the flag」によるディープラーニング学習
    Microsoft 「AirSim」ドローンシミュレーター 〇
    Nvidia 「ドライビングシミュレーター」
    Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
    facebook 「CraftAssist」マインクラフト内で会話研究 〇
    CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
    facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
    OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
    DeepMind 「StarCraft2」AlphaStar 〇
    DeepMind 「Capture the Flag」QuakeIII エンジン 〇
    2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
    DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
    OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

    View full-size slide

  105. ディープラーニングによるパックマンの目コピー
    (Nvidia, 2020)
    Learning to Simulate Dynamic Environments with GameGAN
    https://nv-tlabs.github.io/gameGAN/

    View full-size slide

  106. Learning to Simulate Dynamic Environments with GameGAN
    https://nv-tlabs.github.io/gameGAN/
    ディープラーニングによるパックマンの目コピー
    (Nvidia, 2020)

    View full-size slide

  107. 面白い点
    • 外側からだけでゲームをコピーする
    問題点
    • 音などはどうするのか
    実用面
    • クオリティ的には厳しい
    ディープラーニングによるパックマンの目コピー
    (Nvidia, 2020)
    Harm van Seijen, Mehdi Fatemi, Joshua Romoff, Romain
    Laroche, Tavian Barnes, Jeffrey Tsang
    “Hybrid Reward Architecture for Reinforcement Learning”
    https://arxiv.org/abs/1706.04208

    View full-size slide

  108. Hybrid Reward Architecture for
    Reinforcement Learning (Microsoft, 2017)
    • 複数の報酬系を一つのニューラ
    ルネットワークに盛り込む。
    Harm van Seijen, Mehdi Fatemi, Joshua Romoff, Romain
    Laroche, Tavian Barnes, Jeffrey Tsang
    “Hybrid Reward Architecture for Reinforcement Learning”
    https://arxiv.org/abs/1706.04208

    View full-size slide

  109. 強化学習

    View full-size slide

  110. 強化学習ふりかえり

    View full-size slide

  111. 年 企業 テーマ Open
    2003 Microsoft 「Teo Feng」における強化学習
    2005 Microsoft 「Forzamotor Sports」における強化学習
    2013 DeepMind AtariのゲームをDQNで学習
    2015 DeepMind 囲碁 AlphaGO
    2017 AnyLogic 倉庫・機械などモデルのシミュレーション
    Microsoft 「パックマン」多報酬学習
    Hybrid Reward Architecture for Reinforcement Learning
    2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
    DeepMind 「Capture the flag」によるディープラーニング学習
    Microsoft 「AirSim」ドローンシミュレーター 〇
    Nvidia 「ドライビングシミュレーター」
    Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
    facebook 「CraftAssist」マインクラフト内で会話研究 〇
    CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
    facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
    OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
    DeepMind 「StarCraft2」AlphaStar 〇
    DeepMind 「Capture the Flag」QuakeIII エンジン 〇
    2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
    DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
    OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

    View full-size slide

  112. 2000年に発行(昔はこの本しかなかった。
    今はたくさんある)
    • Sutton先生の、森北出版「強化学習」
    https://www.morikita.co.jp/books/book/1990
    • は、2000年の翻訳のままで、
    • 2018年に新版
    • https://www.andrew.cmu.edu/course/10-
    703/textbook/BartoSutton.pdf

    View full-size slide

  113. 強化学習とは
    • とりあえず行動してみる(ランダムでもいい)
    • 行動から得られるリターンによって行動の方針を変えること
    自分で例を考えてみましょう。
    • 初めてのコミュニティーに入る時
    • 研究とか
    • 初めてさわるゲーム
    • サッカーわかんないけどとりあえず蹴ってみる
    • 部屋の片付け

    View full-size slide

  114. 強化学習とは?
    行動選択
    =ポリシー
    (π)
    環境(Env)
    行動(a)
    状態(S)
    報酬(R)
    報酬
    関数
    環境のモデルはよくわからない。
    でも、行動をして、それに対する結果(=報酬)が環境から返って来る。
    その報酬から、現在の状態と行動の評価を見直して、
    行動選択の方針を変えて行くことを強化学習という。

    View full-size slide

  115. 強化学習とは
    • とりあえず行動してみる(ランダムでもいい)
    • 行動から得られるリターンによって行動の方針を変えること
    • とりあえず行動してみる(ランダムでもいい)
    • 行動から報酬が得られる(低かろうと高かろうと)
    • そこから行動に対して期待される報酬の指標を設定できる
    A
    Q
    R

    View full-size slide

  116. Q-Learning とは
    • π:Q = 各アクションで期待される報酬の指標
    (意思決定:Qが一番大きいアクションを選択する)
    • S = State
    • A = Action
    • R = Reward
    • Q (s,a) という関数を決める方法

    View full-size slide

  117. Q
    キャラクターにおける学習の原理
    意思決定
    A
    行動の表現
    実際は、たくさんの学習アルゴリズムがある。
    S
    R
    結果の表現
    現状態の表現

    View full-size slide

  118. 世界
    五感
    身体
    言語
    知識表
    現型
    知識
    生成
    Knowledge
    Making
    意思決定
    Decision
    Making
    身体
    運動
    生成
    Motion
    Making
    インフォメーション・フロー(情報回廊)
    記憶
    状態Sのとき関数Qで行動Aを評価
    行動の表現
    結果の表現 意思決定
    S
    R
    Q
    A1
    A2
    A3
    行動とその結果から、意思決定を変化させる = 学習

    View full-size slide

  119. 強化学習
    (例)格闘ゲーム
    http://piposozai.blog76.fc2.com/
    http://dear-croa.d.dooo.jp/download/illust.html
    現状態の表現
    S = 距離、速度、姿勢など

    View full-size slide

  120. 強化学習
    (例)格闘ゲーム
    キック
    パン

    波動
    R : 報酬=ダメージ
    http://piposozai.blog76.fc2.com/
    http://dear-croa.d.dooo.jp/download/illust.html
    A : アクション
    ℚ値=0.4
    ℚ値=0.5
    ℚ値=0.1
    ℚ : 期待される報酬

    View full-size slide

  121. S(状態),A(アクション)の空間
    離れている ほどほど 近い
    パンチ
    Q(離れている、パンチ) Q(ほどほど、パンチ) Q(近い、パンチ)
    キック
    Q(離れている、キック) Q(ほどほど、キック) Q(近い、キック)
    波動拳
    Q(離れている、波動拳) Q(ほどほど、波動拳) Q(近い、波動拳)
    A S

    View full-size slide

  122. S(状態),A(アクション)の空間
    離れている ほどほど 近い
    パンチ
    0.7 0.6 0.9
    キック
    0.2 2.7 1.9
    波動拳
    0.1 3.5 1.1
    A S

    View full-size slide

  123. S,Aの空間が大きくなると学習を用いる
    学習=Q(S,A)が自動的に入力される仕組み
    たとえば、こんな式を使う

    View full-size slide

  124. 新しいQ(s,a) 古いQ(s,a) 見直すべき指標となる量
    Q(s,a)を変化させる度合い=学習の速さを制御する
    (大きいと早い。早ければいいというわけではない。
    不安定になることもある.
    小さい値なら、ゆっくりで安定する。ただし遅い。)
    学習率と言われる。

    View full-size slide

  125. 状態sで行動aを取った
    ときの報酬
    古いQ(s,a)
    γはそれをどれぐらい考慮に入れるか。
    0なら将来のことは加味しない。1ならかなり考える。実際は0~1の間。割引率と呼ばれる。
    状態sで行動aを取ることで、状態s’になったけど、s’に
    なることで、将来どれぐらい良い方向になったか。

    View full-size slide

  126. https://club.informatix.co.jp/?p=2009
    離散版

    View full-size slide

  127. 移った先の状態の良さ・悪さを反映する
    見込み(Q)と実際の報酬(r)の差
    見込み(Q)と実際の報酬(r)の差だが、
    行動a_t で移った先の状態が良いか悪いかを追加して反映。

    View full-size slide

  128. S(状態),A(アクション)の空間
    離れている ほどほど 近い
    パンチ
    Q(離れている、パンチ) Q(ほどほど、パンチ) Q(近い、パンチ)
    キック
    Q(離れている、キック) Q(ほどほど、キック) Q(近い、キック)
    波動拳
    Q(離れている、波動拳) Q(ほどほど、波動拳) Q(近い、波動拳)
    A S

    View full-size slide

  129. S(状態),A(アクション)の空間
    離れている ほどほど 近い
    パンチ
    Q(離れている、パンチ) Q(ほどほど、パンチ) Q(近い、パンチ)
    キック
    Q(離れている、キック) Q(ほどほど、キック) Q(近い、キック)
    波動拳
    Q(離れている、波動拳) Q(ほどほど、波動拳) Q(近い、波動拳)
    A S
    状態sで行動aを取ることで、状態s’になったけど、s’に
    なることで、将来どれぐらい良い方向になったか。
    = この「ほどほど」の中でのQ値の最大値

    View full-size slide

  130. S(状態),A(アクション)の空間
    離れている ほどほど 近い
    パンチ
    Q(離れている、パンチ) Q(ほどほど、パンチ) Q(近い、パンチ)
    キック
    Q(離れている、キック) Q(ほどほど、キック) Q(近い、キック)
    波動拳
    Q(離れている、波動拳) Q(ほどほど、波動拳) Q(近い、波動拳)
    A S

    View full-size slide

  131. LEARNING TO FIGHT T. Graepel, R. Herbrich, Julian Gold Published 2004 Computer Science
    https://www.microsoft.com/en-us/research/wp-content/uploads/2004/01/graehergol04.pdf

    View full-size slide

  132. 3 ft
    Q-Table THROW KICK STAND
    1ft / GROUND
    2ft / GROUND
    3ft / GROUND
    4ft / GROUND
    5ft / GROUND
    6ft / GROUND
    1ft / KNOCKED
    2ft / KNOCKED
    3ft / KNOCKED
    4ft / KNOCKED
    5ft / KNOCKED
    6ft / KNOCKED
    actions
    game states
    13.2 10.2 -1.3
    3.2 6.0 4.0
    +10.0
    Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
    "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
    http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx

    View full-size slide

  133. 3 ft
    Q-Table THROW KICK STAND
    1ft / GROUND
    2ft / GROUND
    3ft / GROUND
    4ft / GROUND
    5ft / GROUND
    6ft / GROUND
    1ft / KNOCKED
    2ft / KNOCKED
    3ft / KNOCKED
    4ft / KNOCKED
    5ft / KNOCKED
    6ft / KNOCKED
    actions
    game states
    13.2 10.2 -1.3
    3.2 6.0 4.0
    +10.0
    Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
    "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
    http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx

    View full-size slide

  134. Early in the learning process … … after 15 minutes of learning
    Reward for decrease in Wulong Goth’s health
    Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
    "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
    http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx

    View full-size slide

  135. Early in the learning process … … after 15 minutes of learning
    Punishment for decrease in either player’s health
    Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
    "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
    http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx

    View full-size slide

  136. Hopper Training Hopper Trained

    View full-size slide

  137. Ralf Herbrich, Thore Graepel
    Applied Games Group
    Microsoft Research Cambridge
    Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games
    Group,Microsoft Research Cambridge
    "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
    https://www.slideserve.com/liam/forza-halo-xbox-live-the-magic-of-
    research-in-microsoft-products

    View full-size slide

  138.  Real time racing simulation.
     Goal: as fast lap times as possible.

    View full-size slide

  139. Laser Range Finder
    Measurements as Features
    Progress along Track as
    Reward

    View full-size slide

  140. 機械学習
    (例)FORZA MOTORSPORT におけるドライビング学習
    Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
    "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
    http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx

    View full-size slide

  141. 機械学習
    (例)FORZA MOTORSPORT におけるドライビング学習
    Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
    "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
    http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx

    View full-size slide

  142. 機械学習
    (例)FORZA MOTORSPORT におけるドライビング学習
    • 揺らぎ
    • ライン – コーナーやそのコンビネーションに対し
    て、どれぐらいスムーズに車をガイドするか。
    • コーナーへの突入スピードとブレーキを踏むタイ
    ミングと。保守的か過激か。
    • コーナーの頂点にどれぐらい近づくか、どれぐら
    いの速度でそこを抜けるか?
    • コーナーを抜ける時のスピードとコーナーを回る
    時のスピード。
    Drivatar がプレイヤーのコントロールから学習するもの
    Microsoft Research
    Drivatar™ in Forza Motorsport
    http://research.microsoft.com/en-us/projects/drivatar/forza.aspx

    View full-size slide

  143. 機械学習
    (例)FORZA MOTORSPORT におけるドライビング学習
    Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
    "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
    http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx
    プレイヤーの特性を解析する
    特徴となる数値をドライブモデルに渡す

    View full-size slide

  144. 機械学習
    (例)FORZA MOTORSPORT におけるドライビング学習
    Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
    "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
    http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx
    レーシングラインを事前に構築する。生成というよりテーブルから組み合わせる。

    View full-size slide

  145. 機械学習
    (例)FORZA MOTORSPORT におけるドライビング学習
    Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
    "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
    http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx
    レーシングラインを事前に構築する。生成というよりテーブルから組み合わせる。

    View full-size slide

  146. 機械学習
    (例)FORZA MOTORSPORT におけるドライビング学習
    Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
    "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
    http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx
    レーシングラインに沿わせるのではなく、理想とする位置とスピードから
    コントローラーの制御を計算して、物理制御によって車を運転する。

    View full-size slide

  147. Forza motorsports (EA)
    Jeffrey Schlimmer, "Drivatar and Machine Learning Racing Skills in the Forza Series"
    http://archives.nucl.ai/recording/drivatar-and-machine-learning-racing-skills-in-the-forza-series/

    View full-size slide

  148. DQNを有名にした
    「AlphaGO」

    View full-size slide

  149. 年 企業 テーマ 開発環境公開
    2003 Microsoft 「Teo Feng」における強化学習
    2005 Microsoft 「Forzamotor Sports」における強化学習
    2013 DeepMind AtariのゲームをDQNで学習 〇
    2015 DeepMind 囲碁 AlphaGO
    2017 AnyLogic 倉庫・機械などモデルのシミュレーション
    Microsoft 「パックマン」多報酬学習
    Hybrid Reward Architecture for Reinforcement Learning

    2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
    DeepMind 「Capture the flag」によるディープラーニング学習 〇
    Microsoft 「AirSim」ドローンシミュレーター 〇
    Nvidia 「ドライビングシミュレーター」
    Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
    facebook 「CraftAssist」マインクラフト内で会話研究 〇
    CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
    facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
    OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
    DeepMind 「StarCraft2」AlphaStar 〇
    DeepMind 「Capture the Flag」QuakeIII エンジン 〇
    2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
    DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
    OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

    View full-size slide

  150. DQN (Deep Q network)とは

    View full-size slide

  151. Deep Q Learning (深層強化学習)
    Q-Learning
    ×
    Deep Learning

    View full-size slide

  152. Q-Learning とは
    • Q = 期待される報酬 (意思決定関数)
    • S = State (座標、速度、現在の姿勢)
    • A = Action (キック、パンチ、波動拳)
    • R = 報酬
    • Q (s,a ) という関数を決める方法

    View full-size slide

  153. 世界
    五感
    身体
    言語
    知識表
    現型
    知識
    生成
    Knowledge
    Making
    意思決定
    Decision
    Making
    身体
    運動
    生成
    Motion
    Making
    インフォメーション・フロー(情報回廊)
    記憶
    キャラクターにおける学習の原理
    行動の表現
    結果の表現 意思決定
    Q(s,a)
    関数

    View full-size slide

  154. Deep Q Network (DQN)とは
    • Q = 予想される報酬 (意思決定関数)
    • S = State (座標、速度、現在の姿勢)
    • A = Action (キック、パンチ、波動拳)
    • R = 報酬
    • Q (s,a ) という関数を決める方法
    深層ニューラルネットワーク
    Deep Q Network

    View full-size slide

  155. 世界
    五感
    身体
    言語
    知識表
    現型
    知識
    生成
    Knowledge
    Making
    意思決定
    Decision
    Making
    身体
    運動
    生成
    Motion
    Making
    インフォメーション・フロー(情報回廊)
    記憶
    キャラクターにおける学習の原理
    行動の表現
    状態・結果の表現 意思決定
    ニューラル
    ネットワーク
    (DQN)

    View full-size slide

  156. 年 企業 テーマ Open
    2003 Microsoft 「Teo Feng」における強化学習
    2005 Microsoft 「Forzamotor Sports」における強化学習
    2013 DeepMind AtariのゲームをDQNで学習 〇
    2015 DeepMind 囲碁 AlphaGO
    2017 AnyLogic 倉庫・機械などモデルのシミュレーション
    Microsoft 「パックマン」多報酬学習
    Hybrid Reward Architecture for Reinforcement Learning

    2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
    DeepMind 「Capture the flag」によるディープラーニング学習 〇
    Microsoft 「AirSim」ドローンシミュレーター 〇
    Nvidia 「ドライビングシミュレーター」
    Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
    facebook 「CraftAssist」マインクラフト内で会話研究 〇
    CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
    facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
    OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
    DeepMind 「StarCraft2」AlphaStar 〇
    DeepMind 「Capture the Flag」QuakeIII エンジン 〇
    2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
    DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
    OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

    View full-size slide

  157. Deep Q-Learning (2013)
    Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves,
    Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller (DeepMind Technologies)
    Playing Atari with Deep Reinforcement Learning
    http://www.cs.toronto.edu/~vmnih/docs/dqn.pdf
    画面を入力
    操作はあらかじめ教える
    スコアによる強化学習

    View full-size slide

  158. 学習過程解析
    Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves,
    Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller (DeepMind Technologies)
    Playing Atari with Deep Reinforcement Learning
    http://www.cs.toronto.edu/~vmnih/docs/dqn.pdf

    View full-size slide

  159. AlphaGO
    膨大な棋譜のデータ
    (人間では多過ぎて
    読めない)
    この棋譜を
    そっくり打てる
    ように学習する
    自己対戦して
    棋譜を貯める
    この棋譜を
    そっくり打てる
    ように学習する
    AlphaGO

    View full-size slide

  160. • Pπ ロールアウトポリシー(ロールアウトで討つ手を決める。
    Pπ(a|s) sという状態でaを討つ確率)
    • Pσ Supervised Learning Network プロの討つ手からその
    手を討つ確率を決める。Pσ(a|s)sという状態でaを討つ確
    率。
    • Pρ 強化学習ネットワーク。Pρ(学習済み)に初期化。
    • Vθ(s’) 局面の状態 S’ を見たときに、勝敗の確率を予測
    する関数。つまり、勝つか、負けるかを返します。
    Mastering the game of Go with deep neural networks and tree search
    http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html
    https://deepmind.com/research/alphago/

    View full-size slide

  161. 囲碁AI:
    位置評価関数から位置評価ニューラルネットワークへ
    Mastering the game of Go with deep neural networks and tree search
    http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html
    https://deepmind.com/research/alphago/
    S
    Q

    View full-size slide

  162. モンテカルロ木探索とは
    (MCTS)

    View full-size slide

  163. 現在の盤面の状態

    勝率 : 4/5 勝率 : 2/5 勝率 : 3/5
    基本、
    乱数による
    プレイアウト

    候補となる手

    View full-size slide

  164. W_1(=80) W_2(=70) W_3(=120)
    試行回数
    報酬合計
    3回 2回 4回 全試行回数 9回
    20ドル/回
    マシン1 マシン2 マシン3
    120
    80
    +
    2 ∗ 9
    80
    70
    40
    +
    2 ∗ 9
    40
    80
    60
    +
    2 ∗ 9
    60
    UCB1
    掛け金総額 60ドル 40ドル 80ドル
    プレイヤー

    View full-size slide

  165. 現在のゲーム状態
    次の一手のゲーム状態
    次の次の一手のゲーム状態
    末端
    次の一手の中で一番
    リグレットの値が一番高いノード
    一回シミュレーションを加えたら、それまでのノードに結果を反映してリグレット値を更新
    次の次の一手の中で一番
    リグレットの値が一番高い
    ノード
    次の次の次の一手の中で一番
    リグレットの値が一番高いノード
    Value

    View full-size slide

  166. 敵チーム AIチーム
    AIチーム
    ゲート

    View full-size slide

  167. アクション・バケット
    末端のノード
    選択された
    アクション・バケット
    現在のゲーム状態
    Combat := if prev( wait ) then
    Artillery
    AttackOrder
    SpecialOrder
    UseGate
    Openings := if root then
    WaitUntilContact
    WaitUntilAmbush
    PuckStealth

    View full-size slide

  168. 囲碁AI:
    位置評価関数から位置評価ニューラルネットワークへ
    Mastering the game of Go with deep neural networks and tree search
    http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html
    https://deepmind.com/research/alphago/
    S
    Q R

    View full-size slide

  169. 年 企業 テーマ Open
    2003 Microsoft 「Teo Feng」における強化学習
    2005 Microsoft 「Forzamotor Sports」における強化学習
    2013 DeepMind AtariのゲームをDQNで学習 〇
    2015 DeepMind 囲碁 AlphaGO
    2017 AnyLogic 倉庫・機械などモデルのシミュレーション
    Microsoft 「パックマン」多報酬学習
    Hybrid Reward Architecture for Reinforcement Learning

    2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
    DeepMind 「Capture the flag」によるディープラーニング学習 〇
    Microsoft 「AirSim」ドローンシミュレーター 〇
    Nvidia 「ドライビングシミュレーター」
    Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
    facebook 「CraftAssist」マインクラフト内で会話研究 〇
    CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
    facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
    OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
    DeepMind 「StarCraft2」AlphaStar 〇
    DeepMind 「Capture the Flag」QuakeIII エンジン 〇
    2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
    DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
    OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

    View full-size slide

  170. Deep Mind社 「Agent 57」
    • Atariの古典的なゲーム57個を人間よりうまくプレイできるよう
    になった Deep Mind社のAI
    • https://deepmind.com/blog/article/Agent57-Outperforming-
    the-human-Atari-benchmark

    View full-size slide

  171. DQNのさらなる発展
    • 最後までスコアに苦しんだゲーム
    • Montezuma’s Revenge
    • Pitfall
    • Solaris
    • Skiing
    Agent57: Outperforming the human Atari benchmark (DeepMind)
    https://deepmind.com/blog/article/Agent57-Outperforming-the-human-Atari-benchmark

    View full-size slide

  172. Microsoft Researchにおける
    ゲーム会話研究
    テキストアドベンチャーゲームを利用した対話学習 (2019)

    View full-size slide

  173. 年 企業 テーマ Open
    2003 Microsoft 「Teo Feng」における強化学習
    2005 Microsoft 「Forzamotor Sports」における強化学習
    2013 DeepMind AtariのゲームをDQNで学習 〇
    2015 DeepMind 囲碁 AlphaGO
    2017 AnyLogic 倉庫・機械などモデルのシミュレーション
    Microsoft 「パックマン」多報酬学習
    Hybrid Reward Architecture for Reinforcement Learning

    2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
    DeepMind 「Capture the flag」によるディープラーニング学習 〇
    Microsoft 「AirSim」ドローンシミュレーター 〇
    Nvidia 「ドライビングシミュレーター」
    Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
    facebook 「CraftAssist」マインクラフト内で会話研究 〇
    CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
    facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
    OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
    DeepMind 「StarCraft2」AlphaStar 〇
    DeepMind 「Capture the Flag」QuakeIII エンジン 〇
    2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
    DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
    OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

    View full-size slide

  174. TextWorld
    • マイクロソフトが構築したテキストアドベンチャーの学習環境
    • 50ほどのテキストアドベンチャーを内包している
    • TextWorld: A Learning Environment for Text-based Games
    • https://arxiv.org/abs/1806.11532

    • TextWorld: A learning environment for training reinforcement learning agents,
    inspired by text-based games
    • https://www.microsoft.com/en-us/research/blog/textworld-a-learning-
    environment-for-training-reinforcement-learning-agents-inspired-by-text-
    based-games/

    • Getting Started with TextWorld
    • https://www.youtube.com/watch?v=WVIIigrPUJs
    https://www.microsoft.com/en-us/research/project/textworld/

    View full-size slide

  175. https://www.youtube.com/watch?v=WVIIigrPUJs

    View full-size slide

  176. Microsoft: TextWorld
    TextWorld: A Learning Environment for Text-based Games
    https://arxiv.org/abs/1806.11532

    View full-size slide

  177. TextWorld: A Learning Environment for Text-based Games
    https://arxiv.org/abs/1806.11532

    View full-size slide

  178. Facebook AIにおける
    ゲーム会話研究 I
    マインクラフトを用いた対話学習(2019)

    View full-size slide

  179. 年 企業 テーマ Open
    2003 Microsoft 「Teo Feng」における強化学習
    2005 Microsoft 「Forzamotor Sports」における強化学習
    2013 DeepMind AtariのゲームをDQNで学習 〇
    2015 DeepMind 囲碁 AlphaGO
    2017 AnyLogic 倉庫・機械などモデルのシミュレーション
    Microsoft 「パックマン」多報酬学習
    Hybrid Reward Architecture for Reinforcement Learning

    2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
    DeepMind 「Capture the flag」によるディープラーニング学習 〇
    Microsoft 「AirSim」ドローンシミュレーター 〇
    Nvidia 「ドライビングシミュレーター」
    Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
    facebook 「CraftAssist」マインクラフト内で会話研究 〇
    CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
    facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
    OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
    DeepMind 「StarCraft2」AlphaStar 〇
    DeepMind 「Capture the Flag」QuakeIII エンジン 〇
    2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
    DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
    OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

    View full-size slide

  180. Microsoft:Malmo
    • エージェントを学習させる環境を提供
    • https://www.microsoft.com/en-us/research/project/project-malmo/
    • https://blogs.microsoft.com/ai/project-malmo-using-minecraft-build-
    intelligent-technology/
    • チュートリアル
    • https://techcommunity.microsoft.com/t5/azure-ai/introducing-
    reinforcement-learning-on-azure-machine-learning/ba-p/1403028

    View full-size slide

  181. facebook:「CraftAssist」(2019)
    • マインクラフトでプレイヤーと共同作
    業可能なAIを実装するためのオープン
    ソースプラットフォーム
    https://gigazine.net/news/20190719-craftassist-
    collaborative-ai-minecraft/
    • テキスト会話によって、エージェント
    (キャラクター)に意味を解釈させる。
    「青い家を建てろ」など。
    CraftAssist: A Framework for Dialogue-enabled Interactive Agents - Facebook Research
    https://research.fb.com/publications/craftassist-a-framework-for-dialogue-enabled-interactive-agents/
    Open-sourcing CraftAssist, a platform for studying collaborative AI bots in Minecraft
    https://ai.facebook.com/blog/craftassist-platform-for-collaborative-minecraft-bots/

    View full-size slide

  182. カーネギーメロン大学「MineRL」
    • カーネギーメロン大学が NeurIPSで主催するマインクラフトを題材にした
    強化学習コンテストのフレームワーク
    • https://ai-scholar.tech/articles/treatise/minerl-ai-353
    • https://minerl.io/competition/
    • https://www.aicrowd.com/challenges/neurips-2020-minerl-competition
    論文
    • https://arxiv.org/pdf/1907.13440.pdf
    • https://arxiv.org/abs/1904.10079
    • https://www.microsoft.com/en-us/research/project/project-malmo/
    • https://minerl.io/docs/
    • https://slideslive.at/38922880/the-minerl-competition?ref=search

    View full-size slide

  183. MineRL: A Large-Scale Dataset of Minecraft Demonstrations
    https://arxiv.org/pdf/1907.13440.pdf

    View full-size slide

  184. Facebook AIにおける
    ゲーム会話研究 II
    テーブルトークRPGを用いた対話学習(2019)

    View full-size slide

  185. 年 企業 テーマ Open
    2003 Microsoft 「Teo Feng」における強化学習
    2005 Microsoft 「Forzamotor Sports」における強化学習
    2013 DeepMind AtariのゲームをDQNで学習 〇
    2015 DeepMind 囲碁 AlphaGO
    2017 AnyLogic 倉庫・機械などモデルのシミュレーション
    Microsoft 「パックマン」多報酬学習
    Hybrid Reward Architecture for Reinforcement Learning

    2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
    DeepMind 「Capture the flag」によるディープラーニング学習 〇
    Microsoft 「AirSim」ドローンシミュレーター 〇
    Nvidia 「ドライビングシミュレーター」
    Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
    facebook 「CraftAssist」マインクラフト内で会話研究 〇
    CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
    facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
    OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
    DeepMind 「StarCraft2」AlphaStar 〇
    DeepMind 「Capture the Flag」QuakeIII エンジン 〇
    2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
    DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
    OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

    View full-size slide

  186. LIGHT(facebook.ai, 2019)
    (テキストアドベンチャーフレームワーク)
    • クラウドワーカーを用
    いてゲーム設計を募集
    • クラウドワーカーに役
    を割り当てて会話
    チャットでデータ収集
    • この上で自然言語会話
    を研究
    https://parl.ai/projects/light/
    https://ai.facebook.com/blog/introducing-light-a-multiplayer-text-adventure-game-for-dialogue-research/

    View full-size slide

  187. (faceboo ai)
    Prithviraj Ammanabrolu, Jack Urbanek, Margaret Li, Arthur Szlam, Tim Rocktäschel, Jason Weston
    How to Motivate Your Dragon: Teaching Goal-Driven Agents to Speak and Act in Fantasy Worlds
    https://arxiv.org/abs/2010.00685

    View full-size slide

  188. https://parl.ai/projects/light/

    View full-size slide

  189. https://parl.ai/projects/light/

    View full-size slide

  190. (faceboo ai)
    Prithviraj Ammanabrolu, Jack Urbanek, Margaret Li, Arthur Szlam, Tim Rocktäschel, Jason Weston
    How to Motivate Your Dragon: Teaching Goal-Driven Agents to Speak and Act in Fantasy Worlds
    https://arxiv.org/abs/2010.00685

    View full-size slide

  191. (faceboo ai)
    Prithviraj Ammanabrolu, Jack Urbanek, Margaret Li, Arthur Szlam, Tim Rocktäschel, Jason Weston
    How to Motivate Your Dragon: Teaching Goal-Driven Agents to Speak and Act in Fantasy Worlds
    https://arxiv.org/abs/2010.00685

    View full-size slide

  192. (faceboo ai)
    Prithviraj Ammanabrolu, Jack Urbanek, Margaret Li, Arthur Szlam, Tim Rocktäschel, Jason Weston
    How to Motivate Your Dragon: Teaching Goal-Driven Agents to Speak and Act in Fantasy Worlds
    https://arxiv.org/abs/2010.00685

    View full-size slide

  193. Dota2における人工知能
    (OpenAI, 2019)
    テーブルトークRPGを用いた対話学習

    View full-size slide

  194. 年 企業 テーマ Open
    2003 Microsoft 「Teo Feng」における強化学習
    2005 Microsoft 「Forzamotor Sports」における強化学習
    2013 DeepMind AtariのゲームをDQNで学習
    2015 DeepMind 囲碁 AlphaGO
    2017 AnyLogic 倉庫・機械などモデルのシミュレーション
    Microsoft 「パックマン」多報酬学習
    Hybrid Reward Architecture for Reinforcement Learning
    2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
    DeepMind 「Capture the flag」によるディープラーニング学習
    Microsoft 「AirSim」ドローンシミュレーター 〇
    Nvidia 「ドライビングシミュレーター」
    Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
    facebook 「CraftAssist」マインクラフト内で会話研究 〇
    CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
    facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
    OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
    DeepMind 「StarCraft2」AlphaStar 〇
    DeepMind 「Capture the Flag」QuakeIII エンジン 〇
    2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
    DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
    OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

    View full-size slide

  195. 日本におけるゲームセンターの対戦文化の流れ(1980年代~)
    アメリカを中心とするFPS対戦の流れ(2000年前後~)
    韓国におけるeスポーツ文化の流れ(1997年~)
    世界的なMOBAスタイルの
    チーム対戦の流れ(2010年~)
    1985 1990 1995 2007
    ⅬAN
    ゲームセンターの
    対戦台 インターネット 高速インターネット・動画配信
    実際の現場でギャラリー観戦 テレビなどで観戦 インターネットで観戦
    ゲーム聴衆
    の誕生

    View full-size slide

  196. Dota2 eSportsで大人気
    OpenAI Five: Dota Gameplay https://www.youtube.com/watch?v=UZHTNBMAfAA
    解説:『Dota 2』における人間側のチャンピオンチームとAIチームの戦い https://alienwarezone.jp/post/2316

    View full-size slide

  197. OpenAI Five https://openai.com/projects/five/
    Christopher Berner, et al.,“Dota 2 with Large Scale Deep
    Reinforcement Learning” https://arxiv.org/abs/1912.06680

    View full-size slide

  198. HERO
    ベクター
    認識過程
    認識情報
    ベクター
    HERO
    ベクター
    HERO
    ベクター
    HERO
    ベクター
    各HERO
    埋め込み
    バリュー・
    ファンクション
    LSTM
    アクション
    Tied Weight
    OpenAI Five https://openai.com/projects/five/
    Christopher Berner, et al.,“Dota 2 with Large Scale Deep
    Reinforcement Learning” https://arxiv.org/abs/1912.06680

    View full-size slide

  199. ゲーム(Dota2)
    コントローラー
    Forward Pass GPU
    (512GPUs)
    新しいパラメータを
    配布
    ロールアウトワーカー
    57600ワーカー
    51200CPUs (Python)
    アクション
    各ワーカーから0.25秒
    おきに監視
    Exp. Buffer
    各ワーカーから1分おきに
    256サンプルを送信
    GPU
    1分(オプティマイザーで言えば32ステップ)
    ごとに新しいパラメータを渡す
    2秒ごとに
    1920サンプル
    オプティマイザー(512GPUs)
    2秒おきに
    NCCL(Nvidia)のAllreduceの
    ライブラリによる全GPUの
    Gradientの平均化

    View full-size slide

  200. 時系列
    空間
    ストラテジーゲームの時空間
    自発的なプラン
    状況的に展開せざる得ないプラン
    状況的に展開せざる得ないプラン
    ある
    ゲーム
    状況
    ある
    ゲーム
    状況
    時間

    View full-size slide

  201. StarCraft~StarCraft2における
    人工知能
    (DeepMind, 2019)

    View full-size slide

  202. 年 企業 テーマ Open
    2003 Microsoft 「Teo Feng」における強化学習
    2005 Microsoft 「Forzamotor Sports」における強化学習
    2013 DeepMind AtariのゲームをDQNで学習 〇
    2015 DeepMind 囲碁 AlphaGO
    2017 AnyLogic 倉庫・機械などモデルのシミュレーション
    Microsoft 「パックマン」多報酬学習
    Hybrid Reward Architecture for Reinforcement Learning

    2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
    DeepMind 「Capture the flag」によるディープラーニング学習 〇
    Microsoft 「AirSim」ドローンシミュレーター 〇
    Nvidia 「ドライビングシミュレーター」
    Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
    facebook 「CraftAssist」マインクラフト内で会話研究 〇
    CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
    facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
    OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
    DeepMind 「StarCraft2」AlphaStar 〇
    DeepMind 「Capture the Flag」QuakeIII エンジン 〇
    2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
    DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
    OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

    View full-size slide

  203. StarCraftのAI
    • Santiago Ontañon, Gabriel Synnaeve, Alberto Uriarte, Florian
    Richoux, David Churchill, et al..
    • “A Survey of Real-Time Strategy Game AI Research and
    Competition in StarCraft”. IEEE Transactions on
    Computational Intelligence and AI in games, IEEE
    Computational Intelligence Society, 2013, 5(4), pp.1-19. hal-
    00871001
    • https://hal.archives-ouvertes.fr/hal-00871001

    View full-size slide

  204. StarCraftの7つのアーキテクチャ (2010-2020)

    View full-size slide

  205. 戦略思考
    ハイレベル、抽象的
    3分~
    知識収集と
    学習
    敵のモデル化
    戦略決定
    部隊形成
    命令プランの構築
    戦術思考
    中間レベル
    30秒~1分
    スカウティング
    戦闘タイミングと
    位置
    ユニットと建築物
    の配置
    反射コントロール
    低レベル、物理的
    ~1秒
    小ユニット
    マルチエージェン
    パス検索
    StarCraft 一般的なアーキテクチャ

    View full-size slide

  206. 戦闘
    ゴール
    マネージャー
    ユニットグループ
    ベイジアン・ネット
    BroodWarBotQ
    仲介モジュール
    知能
    マップ
    マネージャー
    技術推定
    ユニット
    フィルター
    資源管理
    ワーカー
    マネージャー
    基地
    マネージャー
    生産
    マネージャー
    建築
    マネージャー
    StarCraft BroodWarQ Bot アーキテクチャ

    View full-size slide

  207. 知能
    建築命令マネージャー
    スカウト
    マネージャー
    資源
    マネージャー
    マクロ
    マネージャー
    拡張
    マネージャー
    供給
    マネージャー
    部隊
    マネージャー
    封鎖経路
    マネージャー
    戦略
    戦術
    タスクマネージャー
    建築設置
    モジュール
    タスク n
    StarCraft SkyNet Bot アーキテクチャ

    View full-size slide

  208. 資源管理
    戦闘
    部隊マネージャー
    防御マネージャー
    戦闘マネージャー
    AIUR
    ムード
    マネージャー
    知能
    仲介モジュール
    スカウト
    マネー
    ジャー
    情報マネージャー
    ワーカー
    マネージャー
    基地
    マネージャー
    生産
    マネージャー
    建築
    マネージャー
    スパイ
    マネー
    ジャー
    消費
    マネージャー
    StarCraft AIUR Bot アーキテクチャ

    View full-size slide

  209. StarCraft~StarCraft2における
    人工知能
    (DeepMind, 2019)
    Oriol Vinyals, et al., “StarCraft II: A New Challenge for Reinforcement Learning”,
    https://arxiv.org/abs/1708.04782
    PySC2 - StarCraft II Learning Environment
    https://github.com/deepmind/pysc2

    View full-size slide

  210. StarCraft II API
    StarCraft II バイナリー
    PySC2
    エージェント
    アクション select_rect(p1, p2) or build_supply(p3) or …
    観察
    資源
    可能なアクション
    建築命令
    スクリーン
    (ゲーム情報)
    ミニマップ
    (特定の情報)
    報酬
    -1/0/+1
    SC2LE

    View full-size slide

  211. 評価値
    Value
    Network
    Baseline features
    アクション・タイプ ディレイ ユニット選択
    命令発行 ターゲット選択
    Residual MLP MLP MLP Pointer
    Network
    Attention D
    分散表現
    MLP
    分散表現
    MLP
    分散表現
    MLP
    Embedding
    MLP
    コア
    Deep LSTM
    スカラー
    エンコーダー
    MLP
    エンティティ
    エンコーダー
    トランス
    フォーマー
    空間
    エンコーダー
    ResNet
    ゲーム
    パラメーター群
    エンティティ ミニマップ

    View full-size slide

  212. Oriol Vinyals, et al., “StarCraft II: A New Challenge for Reinforcement Learning”,
    https://arxiv.org/abs/1708.04782
    PySC2 - StarCraft II Learning Environment
    https://github.com/deepmind/pysc2

    View full-size slide

  213. Oriol Vinyals, et al., “StarCraft II: A New Challenge for Reinforcement Learning”,
    https://arxiv.org/abs/1708.04782
    PySC2 - StarCraft II Learning Environment
    https://github.com/deepmind/pysc2

    View full-size slide

  214. DeepMind社「Capture the flag」
    によるディープラーニング学習
    (2019年)

    View full-size slide

  215. 年 企業 テーマ Open
    2003 Microsoft 「Teo Feng」における強化学習
    2005 Microsoft 「Forzamotor Sports」における強化学習
    2013 DeepMind AtariのゲームをDQNで学習 〇
    2015 DeepMind 囲碁 AlphaGO
    2017 AnyLogic 倉庫・機械などモデルのシミュレーション
    Microsoft 「パックマン」多報酬学習
    Hybrid Reward Architecture for Reinforcement Learning

    2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
    DeepMind 「Capture the flag」によるディープラーニング学習 〇
    Microsoft 「AirSim」ドローンシミュレーター 〇
    Nvidia 「ドライビングシミュレーター」
    Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
    facebook 「CraftAssist」マインクラフト内で会話研究 〇
    CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
    facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
    OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
    DeepMind 「StarCraft2」AlphaStar 〇
    DeepMind 「Capture the Flag」QuakeIII エンジン 〇
    2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
    DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
    OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

    View full-size slide

  216. シミュレーション
    現実
    機械学習
    (ディープ
    ラーニン
    グ)
    https://deepmind.com/blog/article/capture-the-flag-science
    Human-level performance in 3D multiplayer games with population-based reinforcement learning
    Max Jaderberg et al.
    Science 31 May 2019: Vol. 364, Issue 6443, pp. 859-865
    DOI: 10.1126/science.aau6249

    View full-size slide

  217. Human-level performance in 3D multiplayer games with population-based reinforcement learning
    Max Jaderberg et al.
    Science 31 May 2019: Vol. 364, Issue 6443, pp. 859-865
    DOI: 10.1126/science.aau6249

    View full-size slide

  218. π
    ゲーム画像 ゲーム画像 ゲーム画像 ゲーム画像 ゲーム画像
    サンプルされた
    潜在変数
    アクション
    内部報酬

    勝敗判定
    方針
    ゲーム
    ポイント
    ゆっくりとしたRNN
    高速なRNN
    Xt
    𝑄𝑄𝑡𝑡
    𝑄𝑄𝑡𝑡+1
    Human-level performance in 3D multiplayer games with population-based reinforcement learning
    Max Jaderberg et al.
    Science 31 May 2019: Vol. 364, Issue 6443, pp. 859-865
    DOI: 10.1126/science.aau6249

    View full-size slide

  219. 赤チーム陣地
    青チーム陣地 赤フラグを青チーム陣地に
    持ち帰る青エージェント
    赤フラグが赤チーム陣地に
    再び自動返却されるタイミング
    を待つ青エージェント
    赤エージェント
    Human-level performance in 3D multiplayer games with population-based
    reinforcement learning Max Jaderberg et al.
    Science 31 May 2019: Vol. 364, Issue 6443, pp. 859-865 DOI: 10.1126/science.aau6249

    View full-size slide

  220. OpenAI「HIDE AND SEEK」 による学習
    (2019年)

    View full-size slide

  221. 年 企業 テーマ Open
    2003 Microsoft 「Teo Feng」における強化学習
    2005 Microsoft 「Forzamotor Sports」における強化学習
    2013 DeepMind AtariのゲームをDQNで学習
    2015 DeepMind 囲碁 AlphaGO
    2017 AnyLogic 倉庫・機械などモデルのシミュレーション
    Microsoft 「パックマン」多報酬学習
    Hybrid Reward Architecture for Reinforcement Learning
    2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
    DeepMind 「Capture the flag」によるディープラーニング学習
    Microsoft 「AirSim」ドローンシミュレーター 〇
    Nvidia 「ドライビングシミュレーター」
    Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
    facebook 「CraftAssist」マインクラフト内で会話研究 〇
    CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
    facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
    OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
    DeepMind 「StarCraft2」AlphaStar 〇
    DeepMind 「Capture the Flag」QuakeIII エンジン 〇
    2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
    DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
    OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

    View full-size slide

  222. 「かくれんぼ」によってマルチエージェ
    ントを学習させる
    • オブジェクトがあって、動かしたり固
    定したりできる。
    • オブジェクトは直方体、傾斜台、長い
    板がある。
    • 一度固定したオブジェトは動かせない
    • エージェントは次第にオブジェクトを
    利用してかくれんぼをするようになる
    • 6種類の戦術を順番に発見・学習して
    いく
    https://openai.com/blog/emergent-tool-use/
    Emergent Tool Use From Multi-Agent Autocurricula (2019)
    Bowen Baker, Ingmar Kanitscheider, Todor Markov, Yi Wu, Glenn Powell, Bob McGrew, Igor Mordatch
    https://arxiv.org/abs/1909.07528

    View full-size slide

  223. https://www.youtube.com/watch?v=kopoLzvh5jY

    View full-size slide

  224. Emergent Tool Use From Multi-Agent Autocurricula (2019)
    Bowen Baker, Ingmar Kanitscheider, Todor Markov, Yi Wu, Glenn Powell, Bob McGrew, Igor Mordatch
    https://arxiv.org/abs/1909.07528

    View full-size slide

  225. 自分の座標
    周囲の状況
    (LIDARによる)
    他のエージェ
    ントの座標
    ボックスの
    座標、速度
    傾斜台の
    座標、速度
    全結合
    全結合
    全結合
    自分
    コンボリューション
    円方位ID 全結合
    エージェント
    埋め込みベクトル
    ボックス
    ボックス
    マスクされた平均プーリング
    エンティティ間のアテンション
    マスクされた要素
    (壁などで見えない)
    LSTM
    移動
    アクション
    つかむ
    アクション
    ロック
    アクション
    自分
    エージェント ボックス
    傾斜台
    メモリーステート

    View full-size slide

  226. Project PAIDIA
    • マイクロソフトは、「ゲームインテリジェンスグループ」
    • https://www.microsoft.com/en-us/research/theme/game-intelligence/
    • を設置して30人程の研究者でゲームAIの研究をしています。
    • https://www.microsoft.com/en-us/research/project/project-paidia/#!people
    • これまでは、チェスや囲碁、そして最近ではマインクラフトを題材にしてエージェン
    トの知能を作る「Project Malmo」などを推進してきましたが、
    • GDC2020で「プロジェクト PAIDIA」を発表しました。
    • https://innovation.microsoft.com/en-us/exploring-project-paidia
    • これは、Ninja Theory 社と一緒にアクションゲームでプレイヤーと強調するキャラ
    クターの知能を作るプロジェクトです。

    View full-size slide

  227. • 3つの研究を柱として(かなり専門的ですが)推進しています。
    • https://www.microsoft.com/en-us/research/blog/three-new-reinforcement-
    learning-methods-aim-to-improve-ai-in-gaming-and-beyond/
    不確定な状況下での意思決定
    • https://www.microsoft.com/en-us/research/publication/conservative-
    uncertainty-estimation-by-fitting-prior-networks/
    リアルタイムで蓄積される記憶の整備
    • https://www.microsoft.com/en-us/research/publication/amrl-aggregated-
    memory-for-reinforcement-learning/
    不確定な状況下での強化学習
    • https://www.microsoft.com/en-us/research/publication/varibad-a-very-
    good-method-for-bayes-adaptive-deep-rl-via-meta-learning/
    Project PAIDIA

    View full-size slide

  228. 年 企業 テーマ 開発環境公開
    2003 Microsoft 「Teo Feng」における強化学習
    2005 Microsoft 「Forzamotor Sports」における強化学習
    2013 DeepMind AtariのゲームをDQNで学習 〇
    2015 DeepMind 囲碁 AlphaGO
    2017 AnyLogic 倉庫・機械などモデルのシミュレーション
    Microsoft 「パックマン」多報酬学習
    Hybrid Reward Architecture for Reinforcement Learning

    2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
    DeepMind 「Capture the flag」によるディープラーニング学習 〇
    Microsoft 「AirSim」ドローンシミュレーター 〇
    Nvidia 「ドライビングシミュレーター」
    Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
    facebook 「CraftAssist」マインクラフト内で会話研究 〇
    CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
    facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
    OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
    DeepMind 「StarCraft2」AlphaStar 〇
    DeepMind 「Capture the Flag」QuakeIII エンジン 〇
    2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
    DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
    OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

    View full-size slide

  229. 第I部:デジタルゲームAI
    第II部:メタバースとスマートシティ

    View full-size slide

  230. 情報処理学会 7月号(電子) 人工知能学会誌 7月号

    View full-size slide

  231. 参考文献
    • 三宅陽一郎
    「デジタルゲームAI技術を応用したスマートシティの設計」
    人工知能学会誌、37巻4号(2022年) 10ページ
    • 三宅陽一郎
    • 「メタバースの成立と未来 ―新しい時間と空間の獲得へ向けて―」,
    情報処理, Vol.63 No.7 (2022年) 34ページ
    https://ipsj.ixsq.nii.ac.jp/ej/?action=pages_view_main&active_action=repository_view_main_item_detail&item_id=218538&item_no=1&page_id=13&block_id=8
    https://www.jstage.jst.go.jp/article/jjsai/37/4/37_436/_article/-char/ja/

    View full-size slide

  232. スマートシティ

    View full-size slide

  233. データ収集
    (DataSF, CityVerve)
    サービス
    https://www.softbank.jp/biz/blog/business/articles/202003/overseas-smart-city/

    View full-size slide

  234. スマートシティの全体設計

    View full-size slide

  235. レベル
    キャラクターAI
    レベルを認識し、
    自律的な判断を行い、
    身体を動かす.
    敵・味方
    キャラクタ-
    プレイヤー
    情報獲得
    スパーシャルAI
    空間全般に関する思考
    メタAI, キャラクターAIの為に
    空間認識のためのデータを準備
    ナビゲーション・データの管理
    パス検索 戦術位置解析 オブジェクト認識
    メタAI
    エージェントを動的に配置
    レベル状況を監視
    エージェントに指示
    ゲームの流れを作る
    Order
    Ask &
    Report
    ゲーム全体をコントロール
    Support
    query
    query
    頭脳として機能
    MCS-AI動的
    連携モデル(三宅,2020)

    View full-size slide

  236. 都市全体の知能(意識)
    交通全般を制御するAI
    各エリアを
    監視・制御するAI
    各ビルを監視・
    制御するAI
    道路を
    監視・制御
    するAI
    各広場を
    監視・制御
    するAI
    人の流れを
    監視・制御
    するAI
    抑止・委任 報告
    抑止・委任 報告
    監視
    制御
    人 ドローン ロボット
    デジタル
    アバター
    報告
    命令

    監視
    制御
    監視
    制御
    協調
    協調
    協調・
    命令
    監視
    制御




















    キャラクターAI






    AI
    メタAI






    協調
    協調

    View full-size slide

  237. 都市
    環境アクターネットワーク
    人工知能
    (メタAI, キャラクターAI, スパーシャルAI)
    都市の人工知能システム
    都市の実体(物質、仕組み、ネットワーク構造)

    View full-size slide

  238. 都市のアクター
    ネットワーク
    物理的な都市
    都市の
    人工知能
    都市の
    意識
    (都市の無意識)
    (都市の身体)

    View full-size slide

  239. 都市を囲う環境世界
    命令の
    構成
    世界モデル
    世界シミュレーション
    都市のセンサー群
    都市のアクター群
    スパー
    シャルAI
    認識の
    形成
    意思の
    決定
    都市のエージェント群
    メタAI
    (都市の人工知能)
    キャラクターAI

    View full-size slide

  240. 空間型AIの作成

    View full-size slide

  241. スマート環境アクター
    スマートオブジェクト
    エージェント
    スマートポイント
    スマートスペース
    エージェント
    エージェント
    制御 制御 制御
    ドア
    ドアノブ
    スペース
    オブジェクト(物) ポイント(座標)

    View full-size slide

  242. エージェント
    主体 客体
    エージェント
    主体
    客体
    転換
    環境アクター
    スマート
    環境アクター
    主客転換制御

    View full-size slide

  243. メタAI
    エージェント
    エージェント自律制御
    スマート環境アクター制御 スマート環境アクター制御
    スマートスペース
    スマートオブジェクト
    スマートポイント
    コミュニケーション
    コミュニケーション

    View full-size slide

  244. メタAI
    エージェント
    エージェント自律制御
    スマート環境アクター制御 スマート環境アクター制御
    スマートスペース
    スマートオブジェクト
    スマートポイント
    コミュニケーション
    コミュニケーション
    コモングラウンド

    View full-size slide

  245. (メッシュ)
    コスト : 0.5
    見通し: 1.0
    地表: 床
    推奨高度:5m
    (メッシュ)
    コスト : 0.5
    見通し: 1.0
    地表: 床
    推奨高度:10m
    (メッシュ)
    コスト : 2.5
    見通し: 1.0
    地表: 土
    推奨高度:10m
    壁面:ガラス
    壁との衝突は
    必ず回避してください
    エージェント
    ナビゲーション・メッシュ
    (メッシュ)
    コスト : 0.5
    見通し: 1.0
    地表: 床
    推奨高度:7m
    エレベーターの入り口:
    使用する場合は、
    メッセージ001を送ってください
    空間記述表現

    View full-size slide

  246. 物理的都市空間
    スマートスペース
    メタバース

    View full-size slide

  247. 空間型AIの制御に入る車
    メタAI
    エージェント
    エージェント自律制御
    スマート環境アクター制御 スマート環境アクター制御
    スマートスペース
    スマートオブジェクト
    スマートポイント
    コミュニケーション
    コミュニケーション

    View full-size slide

  248. 現実空間のためのキャラクターAI,
    メタAIの検証

    View full-size slide

  249. オンラインゲーム メタバース 物理空間
    世界観 強固、かつ詳細 なるべく緩い設定 現実のまま
    物語 大きな物語を準備
    物語に沿って
    イベントが展開
    特になし
    ユーザーが作り出す
    現実の経済、人間関係
    (ソーシャル)、社会、
    など無限の要素
    キャラクター
    (人)の役割
    世界、物語の中で
    最初から定義
    特になし ユーザー
    の関係の中で発生
    不明(実存)
    オンラインゲーム 物理空間
    純粋なメタバース
    (空っぽの空間)

    View full-size slide

  250. 現実世界 デジタル
    ツイン
    ミラーワールド
    スマートシティ
    メタAI
    都市
    メタバース
    (世界モデルと
    して機能する)
    同期
    現実を認識する
    現実を予測する

    View full-size slide

  251. 垂直構造(現実との関連性)
    水平構造(世界のスケールの広がり)
    メタバース
    現実世界
    デジタル世界
    スマート
    シティ
    ミラーリングによる同期

    View full-size slide

  252. 現実世界
    (1) お金の動き
    (2) 物の動き
    (3) 人・動物の動き
    (4) 自然の動き
    デジタル
    ツイン
    (現実世界
    そっくりの
    メタバース)
    同期
    引き写し
    ミラーワールド
    スマートシティ
    センシングと情報取り込
    みによる(1)-(4)の同期
    ロボット・AI・情報提示に
    よるサービス・干渉

    View full-size slide

  253. 広場

    都市
    大学
    道路
    同期
    同期
    同期
    同期
    同期
    現実と同期するメタバース

    View full-size slide

  254. 奈良の鹿ミラーワールド
    同期
    (ミラー)
    現実
    メタバース
    本物の鹿 デジタルツイン鹿
    現実とメタバースをつなぐ

    View full-size slide

  255. 物理空間
    シミュレーション空間
    物理=シミュレーション
    混合空間

    View full-size slide

  256. 現実世界
    現実世界
    センサー
    エフェクタ
    デジタル
    ツイン
    意思決定・
    シミュレーション
    ゲームエンジン
    都市のエージェントの
    エージェント・
    アーキテクチャ
    情報経路

    View full-size slide

  257. 現実世界
    現実世界
    センサー
    エフェクタ
    デジタル
    ツイン
    ×
    世界モデル
    (ディープ
    ラーニング)
    都市の
    世界モデルの獲得
    世界モデル
    シミュレーション
    意思決定
    都市の夢を見る
    シミュレーション
    エンジン
    都市メタAIの
    エージェント・
    アーキテクチャ
    情報経路

    View full-size slide

  258. 物理世界へ
    の作用
    (指令・行為)
    知能
    物理世界
    情報収集
    (知覚)
    メタバース
    (集合知性)

    View full-size slide

  259. メタバース
    情報の
    蓄積
    シミュレー
    ション
    による予測
    人間の叡知
    一つの集合知性として機能する
    物理空間
    への作用
    センサー
    意思決定
    エフェクター
    物理空間
    からの情報
    物理空間へ
    の作用
    集合知性の
    エージェント・アーキテクチャ

    View full-size slide

  260. 物理世界
    物理世界 デジタル世界
    物理世界
    集合知性
    メタバース
    物理世界
    機械
    Level I
    Level 0
    Level III
    Level II
    意識の変容 人とデジタル空間の融合
    物理世界

    View full-size slide

  261. 活動神経網
    知覚神経網
    作用
    (行為)
    内的世界
    知能
    物理世界
    物理世界のリアリティ
    反作用
    (知覚)

    View full-size slide

  262. 活動神経網
    知覚神経網
    反作用
    (知覚)
    作用
    (行為)
    内的世界
    知能
    シミュレーション世界
    シミュレーション世界のリアリティ

    View full-size slide

  263. 物理世界へ
    の作用
    (指令・行為)
    知能
    物理世界
    情報収集
    (知覚)
    メタバース
    (集合知性)

    View full-size slide

  264. シミュレーション

    View full-size slide

  265. ゲームエンジンのUnityにPLATEAUのモデルを入れた画面。
    モデルは、品川駅周辺のモデル
    ~都市全体の外観~ ~道路~
    PLATEAUは建物のモデル
    のみなので、市民が実際
    に歩くことになる道路は
    自作。
    Pythonでの数値シミュ
    レーション同様、この道
    路1つ1つにサービスの水
    準を設定し、市民が通る
    と効用が得られるような
    画面を作る。
    今後の展望:実際の都市の3Dモデルによるシミュレーション
    石政龍矢 三宅陽一郎「メタAI型スマートシティ形成の提唱-」
    第64回土木計画学研究発表大会、2021年12月

    View full-size slide

  266. 仮想空間シミュレーションの動画
    シミュレーションを行っている状況を動画で紹介する。
    動画内で赤く動いているのが市民である。
    市民は品川駅を目指して動き、その過程で効用が計算されるように実装している。
    石政龍矢 三宅陽一郎「メタAI型スマートシティ形成の提唱-」
    第64回土木計画学研究発表大会、2021年12月

    View full-size slide

  267. メタAI型スマートシティの有効性の検証
    (Pythonによる数値シミュレーション)
    メタAIの有効性を検証するために、まずはPythonによる数値シミュレーションを行う。
    実験で想定すること
    市民は、目的地に着くまでに何本かの道路を歩く。市民は、バリアフリーが充実している道路等、その道
    路のもともとの公共サービスの充実度(サービスの水準)に応じて、効用を得る。さらに、各道路には一体
    ずつAIエージェントが配置され、AIエージェントは市民から一人を選んで公共サービスを行う。選ばれた市
    民は、その道路から得られる効用が、さらに増加する。メタAIは、AIエージェントが重複して同じ市民を選
    ばないように命令し、公共サービスを広く全体に行き渡らせる。
    道路1 道路2
    メタAI
    左の市民は前の道路で選ばれ
    たので、候補から外しなさい
    石政龍矢 三宅陽一郎「メタAI型スマートシティ形成の提唱-」
    第64回土木計画学研究発表大会、2021年12月

    View full-size slide

  268. メタAIのスマートシティへの活用
    石政龍矢 三宅陽一郎「メタAI型スマートシティ形成の提唱
    -PLATEAUデータを用いたマルチエージェントシミュレーションの観点から-」
    第64回土木計画学研究発表大会、2021年12月

    View full-size slide

  269. メタAI型スマートシティの有効性の検証
    横軸はシミュレーションの回数、縦軸は社会全体の効用について、
    メタAIがある場合の効用から、ない場合の効用を引いたもの
    全ての状況において、
    メタAIを導入した方が
    社会全体の効用が高く
    なる
    メタAIがある場合とない場合の差
    各パターン
    効用の差
    ~留意点~
    検証の目的はメタAIが
    上手く機能することの
    確認であるため、効用
    の差の大きさにはあま
    り意味はない
    石政龍矢 三宅陽一郎「メタAI型スマートシティ形成の提唱-」
    第64回土木計画学研究発表大会、2021年12月

    View full-size slide

  270. メタバース

    View full-size slide

  271. メタバースの定義

    View full-size slide

  272. メタバース
    オンライン
    ゲーム 現実

    View full-size slide

  273. オンラインゲーム メタバース 物理空間
    世界観 強固、かつ詳細 なるべく緩い設定 現実のまま
    物語 大きな物語を準備
    物語に沿って
    イベントが展開
    特になし
    ユーザーが作り出す
    現実の経済、人間関係
    (ソーシャル)、社会、
    など無限の要素
    キャラクター
    (人)の役割
    世界、物語の中で
    最初から定義
    特になし ユーザー
    の関係の中で発生
    不明(実存)
    オンラインゲーム 物理空間
    純粋なメタバース
    (空っぽの空間)
    オンラインゲームとメタバースの違い

    View full-size slide

  274. 検索エンジン SNS メタバース
    検索サーバー
    ユーザー ユーザー
    タイム
    ライン
    デジタル空間
    インタラク
    ション
    デファクト・メジャーの遷移

    View full-size slide

  275. メタバース
    SNS
    検索エンジン
    現実の人間関係
    現実の情報
    現実の情報
    現実の人間関係
    現実の世界の状態
    現実の情報
    現実の深度
    仮想空間のリアリティ

    View full-size slide

  276. デジタル世界
    現実世界
    垂直構造(現実との関連性)
    水平構造(世界のスケールの広がり)
    オンライン
    ゲーム
    メタバース
    デジタル空間の水平構造と垂直構造

    View full-size slide

  277. 時代 メタバース世界の多様化
    2006 セカンドライフ
    2008 meet-me 2018
    2006 Roblox
    2009 Internet Adventure
    2012 The Sandbox
    2008 PlayStation Home
    2011
    2021
    Horizon Worlds
    2008 ai sp@ce
    メタバース
    創成記
    メタバースと
    ゲーム空間の
    融合
    セカンド
    ライフの影響
    メタバースと
    現実空間・
    経済との融合
    2017 フォートナイト
    2022
    仮想通貨SAND導入(2017年-)
    2003 EVE ONLINE
    2015
    2000 Phantasy Star Online / Phantasy Star Online 2
    UGCを軸とした
    オンラインゲーム
    アイテム課金モデル 仮想通貨の隆盛

    View full-size slide

  278. メタバースとソーシャル

    View full-size slide

  279. ソー
    シャル
    空間
    ゲーム
    空間
    ソーシャル
    空間
    メタバース
    ソーシャル
    空間
    1990 2010
    2000 2020
    オンラインゲームにおいて
    徐々にソーシャル的要素が
    入れられていった。SNSに
    対抗する必要があった。
    1990年代において
    ゲームはソロプレイか
    その場の数人でする
    ものであった。
    ゲーム的要素の少ないソーシャル
    空間をメインとするメタバースが
    台頭する。しかし、ゲームとは
    つながっている。
    ゲーム的要素がまったくない、
    独立したソーシャル空間が成立
    する。SNSの延長としての
    ソーシャル空間。
    SN
    S
    SNS
    SNS
    ソーシャル
    空間
    SNSの台頭と拡大
    ゲーム
    空間
    ゲーム
    空間
    SNS+ゲーム空間=メタバース

    View full-size slide

  280. ゲーム空間とソーシャル空間
    の関係
    関係図 特徴
    ゲーム空間をメインとしつつ、
    その周辺のソーシャル空間を
    配置する
    ゲーム空間を補完する形、或いは
    ゲーム空間で満たされない部分を
    ソーシャル空間においてみたすよ
    うに設計する。たとえば、ゲーム
    空間が戦闘であれば、ソーシャル
    空間は音楽・演劇など。
    ソーシャル空間をメインとし
    つつ、その中にゲーム空間が
    埋め込まれる。
    ソーシャル空間がメインであり、
    そこにそれぞれ独立したゲーム空
    間が埋め込まれる。多くの場合、
    ユーザーが作成したミニゲームが
    点在する形となる。
    ゲーム空間-ソーシャル空間
    一体型
    ゲーム空間とソーシャル空間の区
    別ではない。あらゆる場所がゲー
    ム空間であり、ユーザーが望めば、
    あらゆる空間で交流が可能である。
    ゲーム空間
    ソーシャル
    空間
    ゲーム
    空間
    ゲーム
    空間
    ゲーム
    空間
    ゲーム
    空間
    ソーシャ

    空間
    Roblox
    Sandbox
    フォートナイト
    あつ森など
    ソーシャル
    空間

    View full-size slide

  281. メタバース=ゲーム空間の解放
    オンラインゲーム

    View full-size slide



  282. テキスト
    テキスト


    画像/声
    画像/声


    擬似身体・声
    擬似身体・声
    空間
    メタバース
    オンライン会議
    SNS・チャットなど
    拡張するコミュニケーション

    View full-size slide


  283. エー
    ジェ
    ント
    エー
    ジェ
    ント
    エー
    ジェ
    ント
    エー
    ジェ
    ント エー
    ジェ
    ント
    エー
    ジェ
    ント

    エー
    ジェ
    ント
    エー
    ジェ
    ント
    エー
    ジェ
    ント
    エー
    ジェ
    ント エー
    ジェ
    ント
    エー
    ジェ
    ント

    エー
    ジェ
    ント
    エー
    ジェ
    ント
    エー
    ジェ
    ント
    エー
    ジェ
    ント
    エー
    ジェ
    ント
    エー
    ジェ
    ント
    エー
    ジェ
    ント
    人-エージェント-エージェント-人関係
    人-人関係
    から
    人-AI-AI-人
    関係へ

    View full-size slide

  284. 文化
    社会
    文化は社会を変える
    AI文化はAIを変える
    集積された文化を編纂し促進するAI
    =科学者・芸術家
    AI文化はAIが集積する
    エー
    ジェン

    エー
    ジェ
    ント
    エー
    ジェ
    ント
    エー
    ジェ
    ント
    エー
    ジェ
    ント
    エー
    ジェ
    ント
    エー
    ジェ
    ント
    エー
    ジェ
    ント
    エー
    ジェ
    ント

    View full-size slide

  285. ゲーム世界
    プレイヤー
    (主人公)
    プレイする
    バーチャル
    アイドル
    プロデューサー
    応援する・
    プロデュース
    する
    ゲーム世界
    (eSports)
    観戦者
    観戦する
    メタバース
    一参加者
    参加する
    デジタル世界への参加の仕方の変化
    デジタル空間への参加の仕方の変化

    View full-size slide

  286. メタバース
    (コモングラウンド)

    View full-size slide

  287. スマートシティとメタバースの融合、
    人間の行動変容

    View full-size slide

  288. レベル
    キャラクターAI
    レベルを認識し、
    自律的な判断を行い、
    身体を動かす.
    敵・味方
    キャラクタ-
    プレイヤー
    情報獲得
    スパーシャルAI
    空間全般に関する思考
    メタAI, キャラクターAIの為に
    空間認識のためのデータを準備
    ナビゲーション・データの管理
    パス検索 戦術位置解析 オブジェクト認識
    メタAI
    エージェントを動的に配置
    レベル状況を監視
    エージェントに指示
    ゲームの流れを作る
    Order
    Ask &
    Report
    ゲーム全体をコントロール
    Support
    query
    query
    頭脳として機能

    View full-size slide

  289. 現実世界
    デジタル
    ツイン
    (現実世界
    そっくりの
    メタバース)
    相互作用
    ミラーワールド
    スマートシティ
    センシング
    AIによる干渉

    View full-size slide

  290. 現実世界 デジタル
    ツイン
    ミラーワールド
    スマートシティ
    メタAI
    都市
    メタバース
    (世界モデルとし
    て機能する)
    同期
    引き写し
    現実を認識する
    現実を予測する

    View full-size slide

  291. 活動神経網
    知覚神経網
    作用
    (行為)
    内的世界
    知能
    物理世界
    物理世界のリアリティ
    反作用
    (知覚)

    View full-size slide

  292. 活動神経網
    知覚神経網
    反作用
    (知覚)
    作用
    (行為)
    内的世界
    知能
    シミュレーション世界
    シミュレーション世界のリアリティ

    View full-size slide

  293. 人の知的レベル=環境との相互作用による知的行動
    人 環境(世界)
    知的行動
    知的行動の拡大

    View full-size slide

  294. 環境(世界)
    知的行動
    知的行動の拡大
    人 他者(自律的存在)
    信頼感情の生成
    人の知性の拡大

    View full-size slide

  295. スマートシティ
    エージェント
    知的行動
    知的行動の拡大
    人 メタAI
    スマートシティによる知的行動の拡大

    View full-size slide

  296. 新しい現実
    スマートシティ
    エージェント
    知的行動 知的行動の拡大
    メタバース
    人 メタAI
    人の知性の拡大

    View full-size slide

  297. デジタルゲームから現実=仮想融合世界へ
    これまでの研究: デジタルゲームの人工知能の
    汎用的フレームの構築
    これからの研究:都市のための人工知能の
    汎用的フレームの構築

    View full-size slide

  298. これまでの研究: デジタルゲームの人工知能の
    汎用的フレームの構築
    これからの研究:都市のための人工知能の
    汎用的フレームの構築
    人工知能が人間
    を理解すること
    人工知能が社会
    を理解すること
    デジタルゲームから現実=仮想融合世界へ

    View full-size slide