Slide 1

Slide 1 text

ゲームAI、メタバース、 スマートシティ 三宅 陽一郎 @miyayou [email protected] 2023.5.16 東京大学 ICTと産業2023

Slide 2

Slide 2 text

参考文献(以下に情報を集約してます) • 三宅陽一郎 • 私のブックマーク「ディジタルゲームの人工知能の歴史的変遷 ─ルールベースからディープラーニングまで」 • https://www.ai-gakkai.or.jp/resource/my-bookmark/my- bookmark_vol37-no6/ • 私のブックマーク「ディジタルゲームの人工知能(Artificial Intelligence in Digital Game)」 • https://www.ai-gakkai.or.jp/resource/my-bookmark/my- bookmark_vol32-no4/

Slide 3

Slide 3 text

第I部:デジタルゲームAI 第II部:メタバースとスマートシティ

Slide 4

Slide 4 text

自己紹介

Slide 5

Slide 5 text

My Works (2004-2022) AI for Game Titles Books

Slide 6

Slide 6 text

近著

Slide 7

Slide 7 text

No content

Slide 8

Slide 8 text

No content

Slide 9

Slide 9 text

戦略ゲームAI • 戦略ゲームにおける人工知能の技術を、 起源から集めた著作 • 2021年10月15日 • 300ページぐらい

Slide 10

Slide 10 text

リアルタイム ノンリアルタイム 身体を持つ 身体を持たない 身体を持ち リアルタイムに 空間を運動する 身体を持たず 空間を運動しない ゲーム・ロボット ビックデータ解析

Slide 11

Slide 11 text

ゲームAIの特徴 リアルタイム インタラクティブ 身体を持つ ゲーム VR/AR ロボット・ 自動運転 デジタルサイネージ ドローン エージェント・サービス

Slide 12

Slide 12 text

AIの分化(1994-2000) ゲームシステム メタAI キャラクターAI ナビゲーションAI 3つのAIシステムは序々に分化して独立して行った。 では、今度はナビゲーションAIについてさらに詳しく見てみよう。

Slide 13

Slide 13 text

レベルスクリプト ナビゲーションAI キャラクターAI メタAI 1995 2000 2005 2010 1994 (ゲームの3D化) 1999 (スクリプティッドAIによる 大型ゲームのキャラクター制御の限界。 自律型AI技術のアカデミックからの流入) 2005 (ウィル・ライトによる“メタAI”定義) 2008 (“LEFT 4 DEAD”に におけるAI Director) 2010頃~ (オープンワールド型 ゲームの隆盛) スパーシャルAI 1980 PlayStation (1994) Xbox360 (2005) PlayStation3 (2006) スクリプティッドAI 三宅陽一郎、水野勇太、里井大輝、 「メタAI」と「AI Director」の歴史的発展、日本デジタルゲーム学会(2020年、Vol.13, No.2) LS-Modelモデル LCN-AI連携モデル MCS-AI動的連携モデル MCN-AI連携モデル

Slide 14

Slide 14 text

レベル キャラクターAI レベルを認識し、 自律的な判断を行い、 身体を動かす. 敵・味方 キャラクタ- プレイヤー 情報獲得 スパーシャルAI 空間全般に関する思考 メタAI, キャラクターAIの為に 空間認識のためのデータを準備 ナビゲーション・データの管理 パス検索 戦術位置解析 オブジェクト認識 メタAI エージェントを動的に配置 レベル状況を監視 エージェントに指示 ゲームの流れを作る Order Ask & Report ゲーム全体をコントロール Support query query 頭脳として機能 MCS-AI動的 連携モデル(三宅,2020)

Slide 15

Slide 15 text

デジタルゲームAI入門① (キャラクターAI)

Slide 16

Slide 16 text

レベル キャラクターAI レベルを認識し、 自律的な判断を行い、 身体を動かす. 敵・味方 キャラクタ- プレイヤー 情報獲得 スパーシャルAI 空間全般に関する思考 メタAI, キャラクターAIの為に 空間認識のためのデータを準備 ナビゲーション・データの管理 パス検索 戦術位置解析 オブジェクト認識 メタAI エージェントを動的に配置 レベル状況を監視 エージェントに指示 ゲームの流れを作る Order Ask & Report ゲーム全体をコントロール Support query query 頭脳として機能 MCS-AI動的 連携モデル

Slide 17

Slide 17 text

レベル キャラクターAI レベルを認識し、 自律的な判断を行い、 身体を動かす. 敵・味方 キャラクタ- プレイヤー 情報獲得 スパーシャルAI 空間全般に関する思考 メタAI, キャラクターAIの為に 空間認識のためのデータを準備 ナビゲーション・データの管理 パス検索 戦術位置解析 オブジェクト認識 メタAI エージェントを動的に配置 レベル状況を監視 エージェントに指示 ゲームの流れを作る Order Ask & Report ゲーム全体をコントロール Support query query 頭脳として機能 MCS-AI動的 連携モデル

Slide 18

Slide 18 text

知能の世界 環境世界 認識の 形成 記憶 意思の 決定 身体 制御 エフェクター・ 身体 運動の 構成 センサー・ 身体 意思決定 モジュール 意思決定 モジュール 意思決定 モジュール 記憶体 情報処理過程 運動創出過程 身体部分 情報 統合 運動 統合

Slide 19

Slide 19 text

FC SFC SS, PS PS2,GC,Xbox Xbox360, PS3, Wii DC (次世代) Hardware 時間軸 2005 1999 ゲームの進化と人工知能 複雑な世界の 複雑なAI ゲームも世界も、AIの身体と内面もますます複雑になる。 単純な世界の シンプルなAI (スペースインベーダー、タイトー、1978年) (アサシンクリード、ゲームロフト、2007年)

Slide 20

Slide 20 text

(例) スペースインベーダー(1978) プレイヤーの動きに関係なく、決められた動きをする (スペースインベーダー、タイトー、1978年)

Slide 21

Slide 21 text

(例)プリンス・オブ・ペルシャ 「プリンス・オブ・ペルシャ」など、 スプライトアニメーションを用意する必要がある場合、 必然的にこういった制御となる。 (プリンスオブペルシャ、1989年)

Slide 22

Slide 22 text

3Dゲームの中のAI Halo (HALO、バンジー、2001年) デバッグ画面 The Illusion of Intelligence - Bungie.net Downloads http://downloads.bungie.net/presentations/gdc02_jaime_griesemer.ppt

Slide 23

Slide 23 text

強化学習(例) 強化学習 (例)格闘ゲーム キック パン チ 波動 R_0 : 報酬=ダメージ http://piposozai.blog76.fc2.com/ http://dear-croa.d.dooo.jp/download/illust.html

Slide 24

Slide 24 text

強化学習 (例)格闘ゲームTaoFeng におけるキャラクター学習 Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products" http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx Microsoft Research Playing Machines: Machine Learning Applications in Computer Games http://research.microsoft.com/en-us/projects/mlgames2008/ Video Games and Artificial Intelligence http://research.microsoft.com/en-us/projects/ijcaiigames/

Slide 25

Slide 25 text

No content

Slide 26

Slide 26 text

No content

Slide 27

Slide 27 text

サブサンプション・アーキテクチャ(ロドニー・ブルックス) INPUT OUTPUT 時間 情報抽象度 反射的に行動 少し場合ごとに対応 抽象的に思考 理論的に考える 言語化のプロセス = 自意識の構築化 Subsumpution Architecture 運動の実現のプロセス = 身体運動の生成

Slide 28

Slide 28 text

機能環 効果器 受容器(刺激→興奮(記号)) 客体 活動神経網 知覚神経網 前野佳彦訳・ユクスキュル「動物の環境と内的世界」 (みすず書房) 知覚世界 活動世界 知覚微表担体 対象化された機構 活動担体 内的世界 興奮(記号) 興奮 興奮 運動形態 =特定の筋肉を動かす 中枢神経網

Slide 29

Slide 29 text

Physical Informat ion Abstract Informat ion More Abstract Informat ion Abstraction Time Decision-Making Decision-Making Decision-Making Multi-Layered Blackboard Abstraction Abstraction Reduction Reduction Reduction World World Dynamics Artificial Intelligence Object Object image on the lowest layer (Umwelt) Object image on the second layer Object image on the third layer Decision-Making Object image on the top layer

Slide 30

Slide 30 text

デジタルゲームAI入門② (スパーシャルAI)

Slide 31

Slide 31 text

レベル キャラクターAI レベルを認識し、 自律的な判断を行い、 身体を動かす. 敵・味方 キャラクタ- プレイヤー 情報獲得 スパーシャルAI 空間全般に関する思考 メタAI, キャラクターAIの為に 空間認識のためのデータを準備 ナビゲーション・データの管理 パス検索 戦術位置解析 オブジェクト認識 メタAI エージェントを動的に配置 レベル状況を監視 エージェントに指示 ゲームの流れを作る Order Ask & Report ゲーム全体をコントロール Support query query 頭脳として機能 MCS-AI動的 連携モデル

Slide 32

Slide 32 text

ネットワーク上のグラフ検索法 A*法 M F L B A S O P D C G S V H Q X K N J R T W E I U Z Y G 5 4 6 3 7 2 3 B C 3 3 2 2 4 3 5 5 出発点(S)を中心に、そのノードまでの 最も短い経路を形成して行く。Gにたどり着いたら終了。 ゴール地点がわかっている場合、現在のノードとゴールとの推定距離(ヒューリスティック距離) を想定して、トータル距離を取り、それが最少のノードを探索して行く。 各ノードの評価距離=出発点からの経路+ヒューリスティック距離 ヒューリスティック距離 (普通ユークリッド距離を取る) 3+14.2 3+13.8 G H 3 5+10.5 6+8.4

Slide 33

Slide 33 text

パス検索(デモと実例)

Slide 34

Slide 34 text

(メッシュ) コスト : 0.5 見通し: 1.0 地表: 土 (メッシュ) コスト : 0.8 見通し: 0.7 地表: 沼 (オブジェクト) 動かせる : (1.0,0.8)向き 持ち上げる: false 上に乗れる: false 硬さ: 0.9 重たさ: 0.4 (オブジェクト) アクション:レバー倒す 効果: 扉が開く (オブジェクト)扉 メッシュ同士の リンク情報

Slide 35

Slide 35 text

スパーシャルAI 空間解析 状況解析 位置検索技術 パス検索 スマートオブジェクト など多数 影響マップ など多数

Slide 36

Slide 36 text

プレイヤー予測経路(ゴールデンパス) M. Jack , M. Vehkala, “Spaces in the Sandbox: Tactical Awareness in Open World Games,” GDC 2013, https://www.gdcvault.com/play/1018136/Spaces-in-the-Sandbox-Tactical

Slide 37

Slide 37 text

ゴールデンパスに沿った位置検索技術 プレイヤーの 予想目標地点 プレイヤーの現在位置 ゴールデンパス ゴールデンパス上で、20m以上プレイヤーから離れて、 40m以内にある場所で、ゴールデンパスから幅10mの領域でポイントを見つける

Slide 38

Slide 38 text

M. Jack , M. Vehkala, “Spaces in the Sandbox: Tactical Awareness in Open World Games,” GDC 2013, https://www.gdcvault.com/play/1018136/Spaces-in-the-Sandbox-Tactical

Slide 39

Slide 39 text

Tom Mathews Making "Big Data" Work for 'Halo': A Case Study http://ai-wiki/wiki/images/d/d8/AI_Seminar_177th.pdf

Slide 40

Slide 40 text

位置検索システム

Slide 41

Slide 41 text

位置検索システム - キャラクターの性能に応じて - 地形毎に - リアルタイムで 最も適したポイントを見つけるシステム

Slide 42

Slide 42 text

Enemy Friend NPC Rock Rock Sea Hole

Slide 43

Slide 43 text

No content

Slide 44

Slide 44 text

No content

Slide 45

Slide 45 text

No content

Slide 46

Slide 46 text

No content

Slide 47

Slide 47 text

No content

Slide 48

Slide 48 text

No content

Slide 49

Slide 49 text

No content

Slide 50

Slide 50 text

No content

Slide 51

Slide 51 text

オリジナル

Slide 52

Slide 52 text

オリジナル

Slide 53

Slide 53 text

M. Jack , M. Vehkala, “Spaces in the Sandbox: Tactical Awareness in Open World Games,” GDC 2013, https://www.gdcvault.com/play/1018136/Spaces-in-the-Sandbox-Tactical

Slide 54

Slide 54 text

M. Jack , M. Vehkala, “Spaces in the Sandbox: Tactical Awareness in Open World Games,” GDC 2013, https://www.gdcvault.com/play/1018136/Spaces-in-the-Sandbox-Tactical

Slide 55

Slide 55 text

M. Jack , M. Vehkala, “Spaces in the Sandbox: Tactical Awareness in Open World Games,” GDC 2013, https://www.gdcvault.com/play/1018136/Spaces-in-the-Sandbox-Tactical

Slide 56

Slide 56 text

M. Jack , M. Vehkala, “Spaces in the Sandbox: Tactical Awareness in Open World Games,” GDC 2013, https://www.gdcvault.com/play/1018136/Spaces-in-the-Sandbox-Tactical

Slide 57

Slide 57 text

M. Jack , M. Vehkala, “Spaces in the Sandbox: Tactical Awareness in Open World Games,” GDC 2013, https://www.gdcvault.com/play/1018136/Spaces-in-the-Sandbox-Tactical

Slide 58

Slide 58 text

車に空間感覚を与える • 車自体がセンサーだけではなく、空間認識能力を持つ • ドライビング以外にも、さまざまな空間的感覚を手に入れる。

Slide 59

Slide 59 text

スパーシャルAI 空間解析 状況解析 位置検索技術 パス検索 スマートオブジェクト など多数 影響マップ など多数

Slide 60

Slide 60 text

スマートオブジェクト、スマートロケーション 物の方に人工知能を持たせて、物からキャラクターを操る仕組み

Slide 61

Slide 61 text

物理的都市空間 スマートスペース メタバース

Slide 62

Slide 62 text

デジタルゲームAI入門③ (メタAI)

Slide 63

Slide 63 text

レベル キャラクターAI レベルを認識し、 自律的な判断を行い、 身体を動かす. 敵・味方 キャラクタ- プレイヤー 情報獲得 スパーシャルAI 空間全般に関する思考 メタAI, キャラクターAIの為に 空間認識のためのデータを準備 ナビゲーション・データの管理 パス検索 戦術位置解析 オブジェクト認識 メタAI エージェントを動的に配置 レベル状況を監視 エージェントに指示 ゲームの流れを作る Order Ask & Report ゲーム全体をコントロール Support query query 頭脳として機能 MCS-AI動的 連携モデル

Slide 64

Slide 64 text

メタAIの歴史 1980 1990 2000 古典的メタAI 現代のメタAI キャラクターAI技術の発展 その歴史は古く、1980年代にまでさかのぼる。 その時代と現代のメタAIは、異なる点も多いので、 古典的メタAI、現代のメタAIと名づけて区別することにしよう。

Slide 65

Slide 65 text

(例)「ゼビウス」(ナムコ、1983) 敵出現テーブル巻き戻し 敵0 敵1 敵2 敵3 敵4 敵5 『あと面白い機能なんですけれど、 ゼビウスには非常に簡単なAIが組み込まれています。 「プレイヤーがどれくらいの腕か」というのを判断して、 出てくる敵が強くなるんです。 強いと思った相手には強い敵が出てきて、 弱いと思った相手には弱い敵が出てきます。 そういっ たプログラムが組み込まれています。 ゲームの難易度というのは「初心者には難しくて、上級者 には簡単だ」ということが、 ひとつの難易度で(調整を)やっていくと起きてしまうので、 その辺を何 とか改善したいな、ということでそういったことを始めてみたのですけれど、 お陰で割合にあまり上 手くない人でも比較的長くプレイできる、 うまい人でも最後のほうに行くまで結構ドラマチックに楽 しめる、 そういった感じになっています。』 - 遠藤雅伸(出演)、1987、「糸井重里の電視遊戯大展覧会」『遠藤雅伸ゼビウスセミナー』フジテレビ -

Slide 66

Slide 66 text

メタAIの歴史 1980 1990 2000 古典的メタAI 現代のメタAI キャラクターAI技術の発展 その歴史は古く、1980年代にまでさかのぼる。 その時代と現代のメタAIは、異なる点も多いので、 古典的メタAI、現代のメタAIと名づけて区別することにしよう。

Slide 67

Slide 67 text

メタAI(=AI Director)によるユーザーのリラックス度に応じた敵出現度 ユーザーの緊張度 実際の敵出現数 計算によって 求められた 理想的な敵出現数 Build Up …プレイヤーの緊張度が目標値を超えるまで 敵を出現させ続ける。 Sustain Peak … 緊張度のピークを3-5秒維持するために、 敵の数を維持する。 Peak Fade … 敵の数を最小限へ減少していく。 Relax … プレイヤーたちが安全な領域へ行くまで、30-45秒間、 敵の出現を最小限に維持する。 Michael Booth, "The AI Systems of Left 4 Dead," Artificial Intelligence and Interactive Digital Entertainment Conference at Stanford. http://www.valvesoftware.com/publications.html より具体的なアルゴリズム

Slide 68

Slide 68 text

安全な領域までの道のり(Flow Distance) メタAIはプレイヤー群の経路を トレースし予測する。 - どこへ来るか - どこが背面になるか - どこに向かうか Michael Booth, "The AI Systems of Left 4 Dead," Artificial Intelligence and Interactive Digital Entertainment Conference at Stanford. http://www.valvesoftware.com/publications.html

Slide 69

Slide 69 text

プレイヤーからの可視領域 可視領域(プレイヤーから見えている 部屋)では、敵のスパウニング(発生) はできない。 Michael Booth, "The AI Systems of Left 4 Dead," Artificial Intelligence and Interactive Digital Entertainment Conference at Stanford. http://www.valvesoftware.com/publications.html

Slide 70

Slide 70 text

敵出現領域 背後 前方 Michael Booth, "The AI Systems of Left 4 Dead," Artificial Intelligence and Interactive Digital Entertainment Conference at Stanford. http://www.valvesoftware.com/publications.html 前方と背後のプレイヤー群から見えてない部屋に、 モンスターを発生させる。

Slide 71

Slide 71 text

Procedural Generation in WarFrame • Warframe ではダンジョンが自動生成される。 Daniel Brewer, AI Postmortems: Assassin's Creed III, XCOM: Enemy Unknown, and Warframe (GDC2015) http://www.gdcvault.com/play/1018223/AI-Postmortems-Assassin-s-Creed

Slide 72

Slide 72 text

Black Combination in WarFrame • ブロックを組み合わる • 完全に零からの生成 ではない。 このような生成のことを Semi-procedural と言う。 Daniel Brewer, AI Postmortems: Assassin's Creed III, XCOM: Enemy Unknown, and Warframe (GDC2015) http://www.gdcvault.com/play/1018223/AI-Postmortems-Assassin-s-Creed

Slide 73

Slide 73 text

WarFrame における自動生成マップの 自動解析による自動骨格抽出 • 自動生成するだけでなく、自動生成したダンジョンを、自動解 析します。ここでは、トポロジー(形状)検出を行います。

Slide 74

Slide 74 text

WarFrame における自動生成マップの 自動解析によるナビゲーションデータ作成 抽出した骨格に沿って 自動的にナビゲーション・データを作成します。 Daniel Brewer, AI Postmortems: Assassin's Creed III, XCOM: Enemy Unknown, and Warframe (GDC2015) http://www.gdcvault.com/play/1018223/AI-Postmortems-Assassin-s-Creed

Slide 75

Slide 75 text

スタートポイント、出口、目的地の 自動生成 Daniel Brewer, AI Postmortems: Assassin's Creed III, XCOM: Enemy Unknown, and Warframe (GDC2015) http://www.gdcvault.com/play/1018223/AI-Postmortems-Assassin-s-Creed

Slide 76

Slide 76 text

ヒートマップ(影響マップ)を用いて ゲーム中にプレイヤーの周囲を自動解析 Daniel Brewer, AI Postmortems: Assassin's Creed III, XCOM: Enemy Unknown, and Warframe (GDC2015) http://www.gdcvault.com/play/1018223/AI-Postmortems-Assassin-s-Creed ヒートマップ(影響マップ)とは、対象(ここではプレイヤー)を中心に、位置に温度(影響度)を 与える方法です。距離に応じて減衰します。また時間が経つと、周囲に熱が拡散します。

Slide 77

Slide 77 text

Tactical Map の例 (影響マップ) (例)敵と自分の勢力をリアルタイムに計算する。 4 6 8 8 8 8 6 4 2 0 -1 -2 -4 -4 -4 -2 4 6 8 8 8 8 4 2 1 0 -2 -4 -4 -2 4 6 8 8 8 6 3 1 0 -2 -4 -4 -4 -2 4 6 8 8 8 6 6 4 1 0 -2 -4 -4 -2 2 4 6 8 6 6 4 4 0 -1 -2 -4 -4 -4 -2 1 2 4 6 6 4 2 2 -4 -5 -3 -3 -4 -4 -2 -1 3 3 3 3 4 2 2 0 -4 -5 -5 -8 -8 -6 -4 -2 3 3 2 2 2 0 -2 -4 -8 -10 -10 -8 -4 -2 3 3 3 2 2 1 0 -4 -8 -10 -10 -8 -8 -4 -2 2 2 2 2 1 1 0 -3 -8 -10 -10 -8 -8 -4 -2 1 1 1 1 0 0 -2 -4 -8 -8 -8 -8 -8 -8 -8 -8 0 0 0 0 0 -1 -1 -2 -5 -6 -6 -6 -8 -8 -8 0 0 0 0 -1 -2 -2 -2 -4 -4 -4 -6 -8 -8 -8 -8 0 0 0 0 -1 -2 -2 -2 -2 -2 -2 -2 -2 -2 -2 0 0 0 0 -1 -2 -2 -2 -2 -2 -2 -2 -2 -2 -2 -2 0 0 0 0 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1

Slide 78

Slide 78 text

ヒートマップ(影響マップ)を用いて ゲーム中にプレイヤーの周囲を自動解析 「ヒートが増加する=プレイヤーが近づく点」 「ヒートが減少する=プレイヤーが遠ざかる点」 Daniel Brewer, AI Postmortems: Assassin's Creed III, XCOM: Enemy Unknown, and Warframe (GDC2015) http://www.gdcvault.com/play/1018223/AI-Postmortems-Assassin-s-Creed

Slide 79

Slide 79 text

アクティブ・エリアセット(Active Are Set) Daniel Brewer, AI Postmortems: Assassin's Creed III, XCOM: Enemy Unknown, and Warframe (GDC2015) http://www.gdcvault.com/play/1018223/AI-Postmortems-Assassin-s-Creed アクティブ・エリアセットは、プレイヤーの周囲の領域で、 リアルタイムにメタAIがゲームを調整する領域

Slide 80

Slide 80 text

メタAIがアクティブ・エリアセット内で ゲームを調整する 「ヒートが増加する=プレイヤーが近づく点」なので、モンスターを生成する。 「ヒートが減少する=プレイヤーが遠ざかる点」なので、モンスターを停止する。 Daniel Brewer, AI Postmortems: Assassin's Creed III, XCOM: Enemy Unknown, and Warframe (GDC2015) http://www.gdcvault.com/play/1018223/AI-Postmortems-Assassin-s-Creed

Slide 81

Slide 81 text

技術の変わり目 ビックデータ x ディープラーニング シミュレーション x ディープラーニング データが貯まるところでディープラーニングを行い特徴抽出を行う シミュレーションでデータを貯めてディープラーニングを行う

Slide 82

Slide 82 text

Google 「サッカーシミュレーター」による 強化学習の研究 https://automaton-media.com/articles/newsjp/20190613-95002/ シミュレーション 現実 機械学習 (ディープ ラーニン グ) https://ai.googleblog.com/2019/06/introducing-google-research-football.html

Slide 83

Slide 83 text

シミュレーション 現実 機械学習 (ディープ ラーニン グ) DeepMind社「Capture the flag」による ディープラーニング学習 https://deepmind.com/blog/article/capture-the-flag-science

Slide 84

Slide 84 text

AnyLogic「シミュレーションx機械学習」 サービス シミュレーション 現実 機械学習 (ディープ ラーニン グ) https://www.anylogic.com/warehouse-operations/

Slide 85

Slide 85 text

Microsoft 「AirSim」による強化学習の研究 シミュレーション 現実 機械学習 (ディープ ラーニン グ) https://microsoft.github.io/AirSim/

Slide 86

Slide 86 text

Nvidia「ドライビングシミュレーター」によ る強化学習の研究 シミュレーション 現実 機械学習 (ディープ ラーニン グ) https://www.nvidia.com/en-us/self-driving-cars/drive-constellation

Slide 87

Slide 87 text

シミュレー ション これからの人工知能のフレームワーク 現実 機械学習 (ディープ ラーニン グ) この2つの技術の結びつきが、現実においても、仮想 空間においても、これからの協力な技術コアとなる。

Slide 88

Slide 88 text

現実世界 デジタル ツイン 相互作用 ミラーワールド スマートシティ センシング AIによる干渉 With ディープラーニング

Slide 89

Slide 89 text

現実世界 デジタル ツイン 相互作用 ミラーワールド スマートシティ センシング AIによる干渉 With ディープラーニング コモングラウンド

Slide 90

Slide 90 text

シム空間とリアル空間を行き来する車 • リアルな存在であると同時に、デジタル空間の存在でもある。 • 二重性を持つ。 • 夢を見る車=昼間は知ったコースを反芻してイメージする

Slide 91

Slide 91 text

現実世界 デジタル ツイン 相互作用 ミラーワールド スマートシティ センシング AIによる干渉 With ディープラーニング

Slide 92

Slide 92 text

現実世界 現実世界 センサー エフェクタ デジタル ツイン 意思決定・ シミュレーション ゲームエンジン 都市のエージェントの エージェント・ アーキテクチャ 情報経路

Slide 93

Slide 93 text

現実世界 現実世界 センサー エフェクタ デジタル ツイン × 世界モデル (ディープ ラーニング) 都市の 世界モデルの獲得 世界モデル シミュレーション 意思決定 都市の夢を見る シミュレーション エンジン 都市メタAIの エージェント・ アーキテクチャ 情報経路

Slide 94

Slide 94 text

ゲームエンジン

Slide 95

Slide 95 text

現実世界 メタバース (ゲーム エンジン) 物理法則 化学法則 経済法則 社会法則 生物法則 知能の法則 抽出 実装 物理シミュレーション 化学シミュレーション 経済シミュレーション 社会シミュレーション 生物シミュレーション 知能シミュレーション シミュレーション化 サイエンス・エンジニアリング 情報処理 物・運動 データ構造・プログラム

Slide 96

Slide 96 text

現実世界 デジタル ツイン (ゲーム エンジン) 相互作用 ミラーワールド スマートシティ センシング AIによる干渉

Slide 97

Slide 97 text

風 頂点 ポリゴン 頂点 移動計算 移動計算 メモリ CPU or GPU 変 更 アーティスト エンジニア ロード (格納) 実行

Slide 98

Slide 98 text

ゲームエンジンの時代 • ゲームエンジンは古くからある(80年代、ナムコのタスクシステム) • ゲームの規模が小さいうちは効果が大きくない • 90年代(ほとんどない。ソースコードレベル) • 00年代(黎明期) • ゲームエンジン群雄割拠時代(2010-2020) • 市販のエンジンに加えて、それぞれのゲーム会社でゲームエンジンが作られた • 現代では、ゲームエンジンなしで大型ゲームは作れない • ゲームエンジン=ゲームの質に直結、ゲーム開発の技術を集積する場所 • Unreal Engine(Epic)とUnity3Dが生き残った • Unreal Engine アメリカ 巨漢大砲主義の思想 • Unity 3D デンマーク(北欧)Do it yourself の思想

Slide 99

Slide 99 text

ジョブ・コントローラー(ナムコ、ゼビウスなど) 三宅 陽一郎 「タスクシステムの起源について」 2016年 年次大会 予稿集 Digital Games Research Association JAPAN Proceedings of 2016 Annual Conference

Slide 100

Slide 100 text

大型ゲームエンジン一覧(他にもたくさん) タイトル ゲームエンジン名 会社 Far Cry 3,4 DUNIA ENGINE 2 Ubisoft Montreal THE DIVISION snow drop engine Ubisoft (massive) Assassin’s creed: syndicate AnvilNext 2.0 game engine Ubisoft Montreal For Honor AnvilNext 2.0 game engine Ubisoft Montreal Rise of Tomb Raider Foundation engine Crystal Dynamics The Witcher 3 RED ENGINE CD PROJEKT Dragon Age : Inquisition frostbite engine EA DICE ゲームエンジン名 会社 汎用型 Unity3D Unity Technologies (デンマーク) 汎用型 UNREAL ENGINE 4 Epic Games (米) 汎用型 CryEngine CryTech (独) 汎用型 Lumberyard Amazon 汎用型 Stingray Autodesk

Slide 101

Slide 101 text

メタバース 物・運動 データ構造・プログラム 現実世界 ツールで アーティスト・ デザイナーが 作成 エンジニアが プログラミング 存在 法則

Slide 102

Slide 102 text

原子 分子=原子+力 物質=分子と力 現象=物質と力 データ オブジェクト =データ+プロ エンティティ =オブジェクト 現象 =エンティティ 現実世界 メタバース

Slide 103

Slide 103 text

データ処理 オブジェクト =データ+プログラム エンティティ =オブジェクトとプログラム 現象 =エンティティ+プログラム メタバース 情報処理基礎 (プログラミング基礎) オブジェクト指向 プログラミング 大規模システム プログラミング シミュレーション プログラミング

Slide 104

Slide 104 text

https://www.moguravr.com/virtual-shibuya-8/

Slide 105

Slide 105 text

https://www.youtube.com/watch?v=1FOz5dMxn3s

Slide 106

Slide 106 text

ビックデータ x ディープラーニング から シミュレーション x ディープラーニング へ

Slide 107

Slide 107 text

ゲームの中、ゲームの外 ゲーム周辺AI (外=開発、現実) ゲームAI (中=コンテンツ) メタAI キャラクター AI ナビゲーション AI 開発支援 AI QA-AI 自動バランス AI インターフェース 上のAI データ マイニング シミュレーショ ン技術 ゲーム 可視化 ユーザーの 生体信号 プロシー ジャルAI

Slide 108

Slide 108 text

レベル キャラクターAI レベルを認識し、 自律的な判断を行い、 身体を動かす. 敵・味方 キャラクタ- プレイヤー 情報獲得 スパーシャルAI 空間全般に関する思考 メタAI, キャラクターAIの為に 空間認識のためのデータを準備 ナビゲーション・データの管理 パス検索 戦術位置解析 オブジェクト認識 メタAI エージェントを動的に配置 レベル状況を監視 エージェントに指示 ゲームの流れを作る Order Ask & Report ゲーム全体をコントロール Support query query 頭脳として機能 MCS-AI動的 連携モデル

Slide 109

Slide 109 text

人工知能全域 機械学習 ディープ ラーニング 統計 学習 コネクショニズム シンボリズム デジタルゲームAI ゲームAIはシンボリックAIから機械学習へ 今後10年かけて徐々にシフトする 現在、社内でも研究中。

Slide 110

Slide 110 text

人工知能全域 機械学習 ディープ ラーニング 統計 学習 コネクショニズム シンボリズム デジタルゲームAI ゲームAIはシンボリックAIから機械学習へ 今後10年かけて徐々にシフトする 現在、社内でも研究中。

Slide 111

Slide 111 text

人工知能全域 機械学習 ディープ ラーニング 統計 学習 コネクショニズム シンボリズム デジタルゲームAI 機械学習の導入には土台となるシミュレーション (物理、仕組み)が必要 シミュレーション技術

Slide 112

Slide 112 text

クラシックゲームを用いた ディープラーニング環境構築 - 強化学習の発展-

Slide 113

Slide 113 text

はじめに

Slide 114

Slide 114 text

ゲームとディープラーニング 現状 • この3年間で、ゲーム産業以外で、ゲームを用いたディープ ラーニングの研究が増加している。 • 当のゲーム産業では、それ程多くない。 理由 • 強化学習(DQNなど)を研究するには、結局ルールを持つシ ミュレーション空間を使う必要がある。 • データがないところでディープラーニングを活用したい • 現実空間で応用する前に箱庭で成長させたい • ほとんどすべて研究環境がオープンソースになっている。

Slide 115

Slide 115 text

年 企業 テーマ 開発環境公開 2003 Microsoft 「Teo Feng」における強化学習 2005 Microsoft 「Forzamotor Sports」における強化学習 2013 DeepMind AtariのゲームをDQNで学習 〇 2015 DeepMind 囲碁 AlphaGO 2017 AnyLogic 倉庫・機械などモデルのシミュレーション Microsoft 「パックマン」多報酬学習 Hybrid Reward Architecture for Reinforcement Learning 〇 2019 Google 「サッカーシミュレーター」による強化学習の研究 〇 DeepMind 「Capture the flag」によるディープラーニング学習 〇 Microsoft 「AirSim」ドローンシミュレーター 〇 Nvidia 「ドライビングシミュレーター」 Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇 facebook 「CraftAssist」マインクラフト内で会話研究 〇 CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇 facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇 OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇 DeepMind 「StarCraft2」AlphaStar 〇 DeepMind 「Capture the Flag」QuakeIII エンジン 〇 2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇 DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇 OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

Slide 116

Slide 116 text

パックマンによる研究

Slide 117

Slide 117 text

年 企業 テーマ Open 2003 Microsoft 「Teo Feng」における強化学習 2005 Microsoft 「Forzamotor Sports」における強化学習 2013 DeepMind A tariのゲームをDQNで学習 2015 DeepMind 囲碁 AlphaGO 2017 AnyLogic 倉庫・機械などモデルのシミュレーション Microsoft 「パックマン」多報酬学習 Hybrid Reward Architecture for Reinforcement Learning 2019 Google 「サッカーシミュレーター」による強化学習の研究 〇 DeepMind 「Capture the flag」によるディープラーニング学習 Microsoft 「AirSim」ドローンシミュレーター 〇 Nvidia 「ドライビングシミュレーター」 Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇 facebook 「CraftAssist」マインクラフト内で会話研究 〇 CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇 facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇 OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇 DeepMind 「StarCraft2」AlphaStar 〇 DeepMind 「Capture the Flag」QuakeIII エンジン 〇 2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇 DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇 OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

Slide 118

Slide 118 text

ディープラーニングによるパックマンの目コピー (Nvidia, 2020) Learning to Simulate Dynamic Environments with GameGAN https://nv-tlabs.github.io/gameGAN/

Slide 119

Slide 119 text

Learning to Simulate Dynamic Environments with GameGAN https://nv-tlabs.github.io/gameGAN/ ディープラーニングによるパックマンの目コピー (Nvidia, 2020)

Slide 120

Slide 120 text

面白い点 • 外側からだけでゲームをコピーする 問題点 • 音などはどうするのか 実用面 • クオリティ的には厳しい ディープラーニングによるパックマンの目コピー (Nvidia, 2020) Harm van Seijen, Mehdi Fatemi, Joshua Romoff, Romain Laroche, Tavian Barnes, Jeffrey Tsang “Hybrid Reward Architecture for Reinforcement Learning” https://arxiv.org/abs/1706.04208

Slide 121

Slide 121 text

Hybrid Reward Architecture for Reinforcement Learning (Microsoft, 2017) • 複数の報酬系を一つのニューラ ルネットワークに盛り込む。 Harm van Seijen, Mehdi Fatemi, Joshua Romoff, Romain Laroche, Tavian Barnes, Jeffrey Tsang “Hybrid Reward Architecture for Reinforcement Learning” https://arxiv.org/abs/1706.04208

Slide 122

Slide 122 text

強化学習

Slide 123

Slide 123 text

強化学習ふりかえり

Slide 124

Slide 124 text

年 企業 テーマ Open 2003 Microsoft 「Teo Feng」における強化学習 2005 Microsoft 「Forzamotor Sports」における強化学習 2013 DeepMind AtariのゲームをDQNで学習 2015 DeepMind 囲碁 AlphaGO 2017 AnyLogic 倉庫・機械などモデルのシミュレーション Microsoft 「パックマン」多報酬学習 Hybrid Reward Architecture for Reinforcement Learning 2019 Google 「サッカーシミュレーター」による強化学習の研究 〇 DeepMind 「Capture the flag」によるディープラーニング学習 Microsoft 「AirSim」ドローンシミュレーター 〇 Nvidia 「ドライビングシミュレーター」 Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇 facebook 「CraftAssist」マインクラフト内で会話研究 〇 CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇 facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇 OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇 DeepMind 「StarCraft2」AlphaStar 〇 DeepMind 「Capture the Flag」QuakeIII エンジン 〇 2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇 DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇 OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

Slide 125

Slide 125 text

2000年に発行(昔はこの本しかなかった。 今はたくさんある) • Sutton先生の、森北出版「強化学習」 https://www.morikita.co.jp/books/book/1990 • は、2000年の翻訳のままで、 • 2018年に新版 • https://www.andrew.cmu.edu/course/10- 703/textbook/BartoSutton.pdf

Slide 126

Slide 126 text

強化学習とは • とりあえず行動してみる(ランダムでもいい) • 行動から得られるリターンによって行動の方針を変えること 自分で例を考えてみましょう。 • 初めてのコミュニティーに入る時 • 研究とか • 初めてさわるゲーム • サッカーわかんないけどとりあえず蹴ってみる • 部屋の片付け

Slide 127

Slide 127 text

強化学習とは? 行動選択 =ポリシー (π) 環境(Env) 行動(a) 状態(S) 報酬(R) 報酬 関数 環境のモデルはよくわからない。 でも、行動をして、それに対する結果(=報酬)が環境から返って来る。 その報酬から、現在の状態と行動の評価を見直して、 行動選択の方針を変えて行くことを強化学習という。

Slide 128

Slide 128 text

強化学習とは • とりあえず行動してみる(ランダムでもいい) • 行動から得られるリターンによって行動の方針を変えること • とりあえず行動してみる(ランダムでもいい) • 行動から報酬が得られる(低かろうと高かろうと) • そこから行動に対して期待される報酬の指標を設定できる A Q R

Slide 129

Slide 129 text

Q-Learning とは • π:Q = 各アクションで期待される報酬の指標 (意思決定:Qが一番大きいアクションを選択する) • S = State • A = Action • R = Reward • Q (s,a) という関数を決める方法

Slide 130

Slide 130 text

Q キャラクターにおける学習の原理 意思決定 A 行動の表現 実際は、たくさんの学習アルゴリズムがある。 S R 結果の表現 現状態の表現

Slide 131

Slide 131 text

世界 五感 身体 言語 知識表 現型 知識 生成 Knowledge Making 意思決定 Decision Making 身体 運動 生成 Motion Making インフォメーション・フロー(情報回廊) 記憶 状態Sのとき関数Qで行動Aを評価 行動の表現 結果の表現 意思決定 S R Q A1 A2 A3 行動とその結果から、意思決定を変化させる = 学習

Slide 132

Slide 132 text

強化学習 (例)格闘ゲーム http://piposozai.blog76.fc2.com/ http://dear-croa.d.dooo.jp/download/illust.html 現状態の表現 S = 距離、速度、姿勢など

Slide 133

Slide 133 text

強化学習 (例)格闘ゲーム キック パン チ 波動 R : 報酬=ダメージ http://piposozai.blog76.fc2.com/ http://dear-croa.d.dooo.jp/download/illust.html A : アクション ℚ値=0.4 ℚ値=0.5 ℚ値=0.1 ℚ : 期待される報酬

Slide 134

Slide 134 text

S(状態),A(アクション)の空間 離れている ほどほど 近い パンチ Q(離れている、パンチ) Q(ほどほど、パンチ) Q(近い、パンチ) キック Q(離れている、キック) Q(ほどほど、キック) Q(近い、キック) 波動拳 Q(離れている、波動拳) Q(ほどほど、波動拳) Q(近い、波動拳) A S

Slide 135

Slide 135 text

S(状態),A(アクション)の空間 離れている ほどほど 近い パンチ 0.7 0.6 0.9 キック 0.2 2.7 1.9 波動拳 0.1 3.5 1.1 A S

Slide 136

Slide 136 text

S,Aの空間が大きくなると学習を用いる 学習=Q(S,A)が自動的に入力される仕組み たとえば、こんな式を使う

Slide 137

Slide 137 text

新しいQ(s,a) 古いQ(s,a) 見直すべき指標となる量 Q(s,a)を変化させる度合い=学習の速さを制御する (大きいと早い。早ければいいというわけではない。 不安定になることもある. 小さい値なら、ゆっくりで安定する。ただし遅い。) 学習率と言われる。

Slide 138

Slide 138 text

状態sで行動aを取った ときの報酬 古いQ(s,a) γはそれをどれぐらい考慮に入れるか。 0なら将来のことは加味しない。1ならかなり考える。実際は0~1の間。割引率と呼ばれる。 状態sで行動aを取ることで、状態s’になったけど、s’に なることで、将来どれぐらい良い方向になったか。

Slide 139

Slide 139 text

https://club.informatix.co.jp/?p=2009 離散版

Slide 140

Slide 140 text

移った先の状態の良さ・悪さを反映する 見込み(Q)と実際の報酬(r)の差 見込み(Q)と実際の報酬(r)の差だが、 行動a_t で移った先の状態が良いか悪いかを追加して反映。

Slide 141

Slide 141 text

S(状態),A(アクション)の空間 離れている ほどほど 近い パンチ Q(離れている、パンチ) Q(ほどほど、パンチ) Q(近い、パンチ) キック Q(離れている、キック) Q(ほどほど、キック) Q(近い、キック) 波動拳 Q(離れている、波動拳) Q(ほどほど、波動拳) Q(近い、波動拳) A S

Slide 142

Slide 142 text

S(状態),A(アクション)の空間 離れている ほどほど 近い パンチ Q(離れている、パンチ) Q(ほどほど、パンチ) Q(近い、パンチ) キック Q(離れている、キック) Q(ほどほど、キック) Q(近い、キック) 波動拳 Q(離れている、波動拳) Q(ほどほど、波動拳) Q(近い、波動拳) A S 状態sで行動aを取ることで、状態s’になったけど、s’に なることで、将来どれぐらい良い方向になったか。 = この「ほどほど」の中でのQ値の最大値

Slide 143

Slide 143 text

S(状態),A(アクション)の空間 離れている ほどほど 近い パンチ Q(離れている、パンチ) Q(ほどほど、パンチ) Q(近い、パンチ) キック Q(離れている、キック) Q(ほどほど、キック) Q(近い、キック) 波動拳 Q(離れている、波動拳) Q(ほどほど、波動拳) Q(近い、波動拳) A S

Slide 144

Slide 144 text

LEARNING TO FIGHT T. Graepel, R. Herbrich, Julian Gold Published 2004 Computer Science https://www.microsoft.com/en-us/research/wp-content/uploads/2004/01/graehergol04.pdf

Slide 145

Slide 145 text

3 ft Q-Table THROW KICK STAND 1ft / GROUND 2ft / GROUND 3ft / GROUND 4ft / GROUND 5ft / GROUND 6ft / GROUND 1ft / KNOCKED 2ft / KNOCKED 3ft / KNOCKED 4ft / KNOCKED 5ft / KNOCKED 6ft / KNOCKED actions game states 13.2 10.2 -1.3 3.2 6.0 4.0 +10.0 Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products" http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx

Slide 146

Slide 146 text

3 ft Q-Table THROW KICK STAND 1ft / GROUND 2ft / GROUND 3ft / GROUND 4ft / GROUND 5ft / GROUND 6ft / GROUND 1ft / KNOCKED 2ft / KNOCKED 3ft / KNOCKED 4ft / KNOCKED 5ft / KNOCKED 6ft / KNOCKED actions game states 13.2 10.2 -1.3 3.2 6.0 4.0 +10.0 Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products" http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx

Slide 147

Slide 147 text

Early in the learning process … … after 15 minutes of learning Reward for decrease in Wulong Goth’s health Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products" http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx

Slide 148

Slide 148 text

Early in the learning process … … after 15 minutes of learning Punishment for decrease in either player’s health Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products" http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx

Slide 149

Slide 149 text

Hopper Training Hopper Trained

Slide 150

Slide 150 text

Ralf Herbrich, Thore Graepel Applied Games Group Microsoft Research Cambridge Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products" https://www.slideserve.com/liam/forza-halo-xbox-live-the-magic-of- research-in-microsoft-products

Slide 151

Slide 151 text

 Real time racing simulation.  Goal: as fast lap times as possible.

Slide 152

Slide 152 text

Laser Range Finder Measurements as Features Progress along Track as Reward

Slide 153

Slide 153 text

機械学習 (例)FORZA MOTORSPORT におけるドライビング学習 Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products" http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx

Slide 154

Slide 154 text

機械学習 (例)FORZA MOTORSPORT におけるドライビング学習 Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products" http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx

Slide 155

Slide 155 text

機械学習 (例)FORZA MOTORSPORT におけるドライビング学習 • 揺らぎ • ライン – コーナーやそのコンビネーションに対し て、どれぐらいスムーズに車をガイドするか。 • コーナーへの突入スピードとブレーキを踏むタイ ミングと。保守的か過激か。 • コーナーの頂点にどれぐらい近づくか、どれぐら いの速度でそこを抜けるか? • コーナーを抜ける時のスピードとコーナーを回る 時のスピード。 Drivatar がプレイヤーのコントロールから学習するもの Microsoft Research Drivatar™ in Forza Motorsport http://research.microsoft.com/en-us/projects/drivatar/forza.aspx

Slide 156

Slide 156 text

機械学習 (例)FORZA MOTORSPORT におけるドライビング学習 Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products" http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx プレイヤーの特性を解析する 特徴となる数値をドライブモデルに渡す

Slide 157

Slide 157 text

機械学習 (例)FORZA MOTORSPORT におけるドライビング学習 Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products" http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx レーシングラインを事前に構築する。生成というよりテーブルから組み合わせる。

Slide 158

Slide 158 text

機械学習 (例)FORZA MOTORSPORT におけるドライビング学習 Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products" http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx レーシングラインを事前に構築する。生成というよりテーブルから組み合わせる。

Slide 159

Slide 159 text

機械学習 (例)FORZA MOTORSPORT におけるドライビング学習 Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products" http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx レーシングラインに沿わせるのではなく、理想とする位置とスピードから コントローラーの制御を計算して、物理制御によって車を運転する。

Slide 160

Slide 160 text

Forza motorsports (EA) Jeffrey Schlimmer, "Drivatar and Machine Learning Racing Skills in the Forza Series" http://archives.nucl.ai/recording/drivatar-and-machine-learning-racing-skills-in-the-forza-series/

Slide 161

Slide 161 text

DQNを有名にした 「AlphaGO」

Slide 162

Slide 162 text

年 企業 テーマ 開発環境公開 2003 Microsoft 「Teo Feng」における強化学習 2005 Microsoft 「Forzamotor Sports」における強化学習 2013 DeepMind AtariのゲームをDQNで学習 〇 2015 DeepMind 囲碁 AlphaGO 2017 AnyLogic 倉庫・機械などモデルのシミュレーション Microsoft 「パックマン」多報酬学習 Hybrid Reward Architecture for Reinforcement Learning 〇 2019 Google 「サッカーシミュレーター」による強化学習の研究 〇 DeepMind 「Capture the flag」によるディープラーニング学習 〇 Microsoft 「AirSim」ドローンシミュレーター 〇 Nvidia 「ドライビングシミュレーター」 Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇 facebook 「CraftAssist」マインクラフト内で会話研究 〇 CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇 facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇 OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇 DeepMind 「StarCraft2」AlphaStar 〇 DeepMind 「Capture the Flag」QuakeIII エンジン 〇 2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇 DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇 OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

Slide 163

Slide 163 text

DQN (Deep Q network)とは

Slide 164

Slide 164 text

Deep Q Learning (深層強化学習) Q-Learning × Deep Learning

Slide 165

Slide 165 text

Q-Learning とは • Q = 期待される報酬 (意思決定関数) • S = State (座標、速度、現在の姿勢) • A = Action (キック、パンチ、波動拳) • R = 報酬 • Q (s,a ) という関数を決める方法

Slide 166

Slide 166 text

世界 五感 身体 言語 知識表 現型 知識 生成 Knowledge Making 意思決定 Decision Making 身体 運動 生成 Motion Making インフォメーション・フロー(情報回廊) 記憶 キャラクターにおける学習の原理 行動の表現 結果の表現 意思決定 Q(s,a) 関数

Slide 167

Slide 167 text

Deep Q Network (DQN)とは • Q = 予想される報酬 (意思決定関数) • S = State (座標、速度、現在の姿勢) • A = Action (キック、パンチ、波動拳) • R = 報酬 • Q (s,a ) という関数を決める方法 深層ニューラルネットワーク Deep Q Network

Slide 168

Slide 168 text

世界 五感 身体 言語 知識表 現型 知識 生成 Knowledge Making 意思決定 Decision Making 身体 運動 生成 Motion Making インフォメーション・フロー(情報回廊) 記憶 キャラクターにおける学習の原理 行動の表現 状態・結果の表現 意思決定 ニューラル ネットワーク (DQN)

Slide 169

Slide 169 text

年 企業 テーマ Open 2003 Microsoft 「Teo Feng」における強化学習 2005 Microsoft 「Forzamotor Sports」における強化学習 2013 DeepMind AtariのゲームをDQNで学習 〇 2015 DeepMind 囲碁 AlphaGO 2017 AnyLogic 倉庫・機械などモデルのシミュレーション Microsoft 「パックマン」多報酬学習 Hybrid Reward Architecture for Reinforcement Learning 〇 2019 Google 「サッカーシミュレーター」による強化学習の研究 〇 DeepMind 「Capture the flag」によるディープラーニング学習 〇 Microsoft 「AirSim」ドローンシミュレーター 〇 Nvidia 「ドライビングシミュレーター」 Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇 facebook 「CraftAssist」マインクラフト内で会話研究 〇 CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇 facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇 OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇 DeepMind 「StarCraft2」AlphaStar 〇 DeepMind 「Capture the Flag」QuakeIII エンジン 〇 2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇 DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇 OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

Slide 170

Slide 170 text

Deep Q-Learning (2013) Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller (DeepMind Technologies) Playing Atari with Deep Reinforcement Learning http://www.cs.toronto.edu/~vmnih/docs/dqn.pdf 画面を入力 操作はあらかじめ教える スコアによる強化学習

Slide 171

Slide 171 text

学習過程解析 Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller (DeepMind Technologies) Playing Atari with Deep Reinforcement Learning http://www.cs.toronto.edu/~vmnih/docs/dqn.pdf

Slide 172

Slide 172 text

AlphaGO 膨大な棋譜のデータ (人間では多過ぎて 読めない) この棋譜を そっくり打てる ように学習する 自己対戦して 棋譜を貯める この棋譜を そっくり打てる ように学習する AlphaGO

Slide 173

Slide 173 text

• Pπ ロールアウトポリシー(ロールアウトで討つ手を決める。 Pπ(a|s) sという状態でaを討つ確率) • Pσ Supervised Learning Network プロの討つ手からその 手を討つ確率を決める。Pσ(a|s)sという状態でaを討つ確 率。 • Pρ 強化学習ネットワーク。Pρ(学習済み)に初期化。 • Vθ(s’) 局面の状態 S’ を見たときに、勝敗の確率を予測 する関数。つまり、勝つか、負けるかを返します。 Mastering the game of Go with deep neural networks and tree search http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html https://deepmind.com/research/alphago/

Slide 174

Slide 174 text

囲碁AI: 位置評価関数から位置評価ニューラルネットワークへ Mastering the game of Go with deep neural networks and tree search http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html https://deepmind.com/research/alphago/ S Q

Slide 175

Slide 175 text

モンテカルロ木探索とは (MCTS)

Slide 176

Slide 176 text

現在の盤面の状態 負 勝率 : 4/5 勝率 : 2/5 勝率 : 3/5 基本、 乱数による プレイアウト 勝 候補となる手

Slide 177

Slide 177 text

W_1(=80) W_2(=70) W_3(=120) 試行回数 報酬合計 3回 2回 4回 全試行回数 9回 20ドル/回 マシン1 マシン2 マシン3 120 80 + 2 ∗ 9 80 70 40 + 2 ∗ 9 40 80 60 + 2 ∗ 9 60 UCB1 掛け金総額 60ドル 40ドル 80ドル プレイヤー

Slide 178

Slide 178 text

現在のゲーム状態 次の一手のゲーム状態 次の次の一手のゲーム状態 末端 次の一手の中で一番 リグレットの値が一番高いノード 一回シミュレーションを加えたら、それまでのノードに結果を反映してリグレット値を更新 次の次の一手の中で一番 リグレットの値が一番高い ノード 次の次の次の一手の中で一番 リグレットの値が一番高いノード Value

Slide 179

Slide 179 text

敵チーム AIチーム AIチーム ゲート

Slide 180

Slide 180 text

アクション・バケット 末端のノード 選択された アクション・バケット 現在のゲーム状態 Combat := if prev( wait ) then Artillery AttackOrder SpecialOrder UseGate Openings := if root then WaitUntilContact WaitUntilAmbush PuckStealth

Slide 181

Slide 181 text

囲碁AI: 位置評価関数から位置評価ニューラルネットワークへ Mastering the game of Go with deep neural networks and tree search http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html https://deepmind.com/research/alphago/ S Q R

Slide 182

Slide 182 text

年 企業 テーマ Open 2003 Microsoft 「Teo Feng」における強化学習 2005 Microsoft 「Forzamotor Sports」における強化学習 2013 DeepMind AtariのゲームをDQNで学習 〇 2015 DeepMind 囲碁 AlphaGO 2017 AnyLogic 倉庫・機械などモデルのシミュレーション Microsoft 「パックマン」多報酬学習 Hybrid Reward Architecture for Reinforcement Learning 〇 2019 Google 「サッカーシミュレーター」による強化学習の研究 〇 DeepMind 「Capture the flag」によるディープラーニング学習 〇 Microsoft 「AirSim」ドローンシミュレーター 〇 Nvidia 「ドライビングシミュレーター」 Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇 facebook 「CraftAssist」マインクラフト内で会話研究 〇 CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇 facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇 OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇 DeepMind 「StarCraft2」AlphaStar 〇 DeepMind 「Capture the Flag」QuakeIII エンジン 〇 2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇 DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇 OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

Slide 183

Slide 183 text

Deep Mind社 「Agent 57」 • Atariの古典的なゲーム57個を人間よりうまくプレイできるよう になった Deep Mind社のAI • https://deepmind.com/blog/article/Agent57-Outperforming- the-human-Atari-benchmark

Slide 184

Slide 184 text

DQNのさらなる発展 • 最後までスコアに苦しんだゲーム • Montezuma’s Revenge • Pitfall • Solaris • Skiing Agent57: Outperforming the human Atari benchmark (DeepMind) https://deepmind.com/blog/article/Agent57-Outperforming-the-human-Atari-benchmark

Slide 185

Slide 185 text

Microsoft Researchにおける ゲーム会話研究 テキストアドベンチャーゲームを利用した対話学習 (2019)

Slide 186

Slide 186 text

年 企業 テーマ Open 2003 Microsoft 「Teo Feng」における強化学習 2005 Microsoft 「Forzamotor Sports」における強化学習 2013 DeepMind AtariのゲームをDQNで学習 〇 2015 DeepMind 囲碁 AlphaGO 2017 AnyLogic 倉庫・機械などモデルのシミュレーション Microsoft 「パックマン」多報酬学習 Hybrid Reward Architecture for Reinforcement Learning 〇 2019 Google 「サッカーシミュレーター」による強化学習の研究 〇 DeepMind 「Capture the flag」によるディープラーニング学習 〇 Microsoft 「AirSim」ドローンシミュレーター 〇 Nvidia 「ドライビングシミュレーター」 Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇 facebook 「CraftAssist」マインクラフト内で会話研究 〇 CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇 facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇 OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇 DeepMind 「StarCraft2」AlphaStar 〇 DeepMind 「Capture the Flag」QuakeIII エンジン 〇 2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇 DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇 OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

Slide 187

Slide 187 text

TextWorld • マイクロソフトが構築したテキストアドベンチャーの学習環境 • 50ほどのテキストアドベンチャーを内包している • TextWorld: A Learning Environment for Text-based Games • https://arxiv.org/abs/1806.11532 • • TextWorld: A learning environment for training reinforcement learning agents, inspired by text-based games • https://www.microsoft.com/en-us/research/blog/textworld-a-learning- environment-for-training-reinforcement-learning-agents-inspired-by-text- based-games/ • • Getting Started with TextWorld • https://www.youtube.com/watch?v=WVIIigrPUJs https://www.microsoft.com/en-us/research/project/textworld/

Slide 188

Slide 188 text

https://www.youtube.com/watch?v=WVIIigrPUJs

Slide 189

Slide 189 text

Microsoft: TextWorld TextWorld: A Learning Environment for Text-based Games https://arxiv.org/abs/1806.11532

Slide 190

Slide 190 text

TextWorld: A Learning Environment for Text-based Games https://arxiv.org/abs/1806.11532

Slide 191

Slide 191 text

Facebook AIにおける ゲーム会話研究 I マインクラフトを用いた対話学習(2019)

Slide 192

Slide 192 text

年 企業 テーマ Open 2003 Microsoft 「Teo Feng」における強化学習 2005 Microsoft 「Forzamotor Sports」における強化学習 2013 DeepMind AtariのゲームをDQNで学習 〇 2015 DeepMind 囲碁 AlphaGO 2017 AnyLogic 倉庫・機械などモデルのシミュレーション Microsoft 「パックマン」多報酬学習 Hybrid Reward Architecture for Reinforcement Learning 〇 2019 Google 「サッカーシミュレーター」による強化学習の研究 〇 DeepMind 「Capture the flag」によるディープラーニング学習 〇 Microsoft 「AirSim」ドローンシミュレーター 〇 Nvidia 「ドライビングシミュレーター」 Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇 facebook 「CraftAssist」マインクラフト内で会話研究 〇 CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇 facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇 OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇 DeepMind 「StarCraft2」AlphaStar 〇 DeepMind 「Capture the Flag」QuakeIII エンジン 〇 2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇 DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇 OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

Slide 193

Slide 193 text

Microsoft:Malmo • エージェントを学習させる環境を提供 • https://www.microsoft.com/en-us/research/project/project-malmo/ • https://blogs.microsoft.com/ai/project-malmo-using-minecraft-build- intelligent-technology/ • チュートリアル • https://techcommunity.microsoft.com/t5/azure-ai/introducing- reinforcement-learning-on-azure-machine-learning/ba-p/1403028

Slide 194

Slide 194 text

facebook:「CraftAssist」(2019) • マインクラフトでプレイヤーと共同作 業可能なAIを実装するためのオープン ソースプラットフォーム https://gigazine.net/news/20190719-craftassist- collaborative-ai-minecraft/ • テキスト会話によって、エージェント (キャラクター)に意味を解釈させる。 「青い家を建てろ」など。 CraftAssist: A Framework for Dialogue-enabled Interactive Agents - Facebook Research https://research.fb.com/publications/craftassist-a-framework-for-dialogue-enabled-interactive-agents/ Open-sourcing CraftAssist, a platform for studying collaborative AI bots in Minecraft https://ai.facebook.com/blog/craftassist-platform-for-collaborative-minecraft-bots/

Slide 195

Slide 195 text

カーネギーメロン大学「MineRL」 • カーネギーメロン大学が NeurIPSで主催するマインクラフトを題材にした 強化学習コンテストのフレームワーク • https://ai-scholar.tech/articles/treatise/minerl-ai-353 • https://minerl.io/competition/ • https://www.aicrowd.com/challenges/neurips-2020-minerl-competition 論文 • https://arxiv.org/pdf/1907.13440.pdf • https://arxiv.org/abs/1904.10079 • https://www.microsoft.com/en-us/research/project/project-malmo/ • https://minerl.io/docs/ • https://slideslive.at/38922880/the-minerl-competition?ref=search

Slide 196

Slide 196 text

MineRL: A Large-Scale Dataset of Minecraft Demonstrations https://arxiv.org/pdf/1907.13440.pdf

Slide 197

Slide 197 text

Facebook AIにおける ゲーム会話研究 II テーブルトークRPGを用いた対話学習(2019)

Slide 198

Slide 198 text

年 企業 テーマ Open 2003 Microsoft 「Teo Feng」における強化学習 2005 Microsoft 「Forzamotor Sports」における強化学習 2013 DeepMind AtariのゲームをDQNで学習 〇 2015 DeepMind 囲碁 AlphaGO 2017 AnyLogic 倉庫・機械などモデルのシミュレーション Microsoft 「パックマン」多報酬学習 Hybrid Reward Architecture for Reinforcement Learning 〇 2019 Google 「サッカーシミュレーター」による強化学習の研究 〇 DeepMind 「Capture the flag」によるディープラーニング学習 〇 Microsoft 「AirSim」ドローンシミュレーター 〇 Nvidia 「ドライビングシミュレーター」 Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇 facebook 「CraftAssist」マインクラフト内で会話研究 〇 CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇 facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇 OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇 DeepMind 「StarCraft2」AlphaStar 〇 DeepMind 「Capture the Flag」QuakeIII エンジン 〇 2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇 DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇 OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

Slide 199

Slide 199 text

LIGHT(facebook.ai, 2019) (テキストアドベンチャーフレームワーク) • クラウドワーカーを用 いてゲーム設計を募集 • クラウドワーカーに役 を割り当てて会話 チャットでデータ収集 • この上で自然言語会話 を研究 https://parl.ai/projects/light/ https://ai.facebook.com/blog/introducing-light-a-multiplayer-text-adventure-game-for-dialogue-research/

Slide 200

Slide 200 text

(faceboo ai) Prithviraj Ammanabrolu, Jack Urbanek, Margaret Li, Arthur Szlam, Tim Rocktäschel, Jason Weston How to Motivate Your Dragon: Teaching Goal-Driven Agents to Speak and Act in Fantasy Worlds https://arxiv.org/abs/2010.00685

Slide 201

Slide 201 text

https://parl.ai/projects/light/

Slide 202

Slide 202 text

https://parl.ai/projects/light/

Slide 203

Slide 203 text

(faceboo ai) Prithviraj Ammanabrolu, Jack Urbanek, Margaret Li, Arthur Szlam, Tim Rocktäschel, Jason Weston How to Motivate Your Dragon: Teaching Goal-Driven Agents to Speak and Act in Fantasy Worlds https://arxiv.org/abs/2010.00685

Slide 204

Slide 204 text

(faceboo ai) Prithviraj Ammanabrolu, Jack Urbanek, Margaret Li, Arthur Szlam, Tim Rocktäschel, Jason Weston How to Motivate Your Dragon: Teaching Goal-Driven Agents to Speak and Act in Fantasy Worlds https://arxiv.org/abs/2010.00685

Slide 205

Slide 205 text

(faceboo ai) Prithviraj Ammanabrolu, Jack Urbanek, Margaret Li, Arthur Szlam, Tim Rocktäschel, Jason Weston How to Motivate Your Dragon: Teaching Goal-Driven Agents to Speak and Act in Fantasy Worlds https://arxiv.org/abs/2010.00685

Slide 206

Slide 206 text

Dota2における人工知能 (OpenAI, 2019) テーブルトークRPGを用いた対話学習

Slide 207

Slide 207 text

年 企業 テーマ Open 2003 Microsoft 「Teo Feng」における強化学習 2005 Microsoft 「Forzamotor Sports」における強化学習 2013 DeepMind AtariのゲームをDQNで学習 2015 DeepMind 囲碁 AlphaGO 2017 AnyLogic 倉庫・機械などモデルのシミュレーション Microsoft 「パックマン」多報酬学習 Hybrid Reward Architecture for Reinforcement Learning 2019 Google 「サッカーシミュレーター」による強化学習の研究 〇 DeepMind 「Capture the flag」によるディープラーニング学習 Microsoft 「AirSim」ドローンシミュレーター 〇 Nvidia 「ドライビングシミュレーター」 Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇 facebook 「CraftAssist」マインクラフト内で会話研究 〇 CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇 facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇 OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇 DeepMind 「StarCraft2」AlphaStar 〇 DeepMind 「Capture the Flag」QuakeIII エンジン 〇 2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇 DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇 OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

Slide 208

Slide 208 text

日本におけるゲームセンターの対戦文化の流れ(1980年代~) アメリカを中心とするFPS対戦の流れ(2000年前後~) 韓国におけるeスポーツ文化の流れ(1997年~) 世界的なMOBAスタイルの チーム対戦の流れ(2010年~) 1985 1990 1995 2007 ⅬAN ゲームセンターの 対戦台 インターネット 高速インターネット・動画配信 実際の現場でギャラリー観戦 テレビなどで観戦 インターネットで観戦 ゲーム聴衆 の誕生

Slide 209

Slide 209 text

Dota2 eSportsで大人気 OpenAI Five: Dota Gameplay https://www.youtube.com/watch?v=UZHTNBMAfAA 解説:『Dota 2』における人間側のチャンピオンチームとAIチームの戦い https://alienwarezone.jp/post/2316

Slide 210

Slide 210 text

OpenAI Five https://openai.com/projects/five/ Christopher Berner, et al.,“Dota 2 with Large Scale Deep Reinforcement Learning” https://arxiv.org/abs/1912.06680

Slide 211

Slide 211 text

HERO ベクター 認識過程 認識情報 ベクター HERO ベクター HERO ベクター HERO ベクター 各HERO 埋め込み バリュー・ ファンクション LSTM アクション Tied Weight OpenAI Five https://openai.com/projects/five/ Christopher Berner, et al.,“Dota 2 with Large Scale Deep Reinforcement Learning” https://arxiv.org/abs/1912.06680

Slide 212

Slide 212 text

ゲーム(Dota2) コントローラー Forward Pass GPU (512GPUs) 新しいパラメータを 配布 ロールアウトワーカー 57600ワーカー 51200CPUs (Python) アクション 各ワーカーから0.25秒 おきに監視 Exp. Buffer 各ワーカーから1分おきに 256サンプルを送信 GPU 1分(オプティマイザーで言えば32ステップ) ごとに新しいパラメータを渡す 2秒ごとに 1920サンプル オプティマイザー(512GPUs) 2秒おきに NCCL(Nvidia)のAllreduceの ライブラリによる全GPUの Gradientの平均化

Slide 213

Slide 213 text

時系列 空間 ストラテジーゲームの時空間 自発的なプラン 状況的に展開せざる得ないプラン 状況的に展開せざる得ないプラン ある ゲーム 状況 ある ゲーム 状況 時間

Slide 214

Slide 214 text

StarCraft~StarCraft2における 人工知能 (DeepMind, 2019)

Slide 215

Slide 215 text

年 企業 テーマ Open 2003 Microsoft 「Teo Feng」における強化学習 2005 Microsoft 「Forzamotor Sports」における強化学習 2013 DeepMind AtariのゲームをDQNで学習 〇 2015 DeepMind 囲碁 AlphaGO 2017 AnyLogic 倉庫・機械などモデルのシミュレーション Microsoft 「パックマン」多報酬学習 Hybrid Reward Architecture for Reinforcement Learning 〇 2019 Google 「サッカーシミュレーター」による強化学習の研究 〇 DeepMind 「Capture the flag」によるディープラーニング学習 〇 Microsoft 「AirSim」ドローンシミュレーター 〇 Nvidia 「ドライビングシミュレーター」 Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇 facebook 「CraftAssist」マインクラフト内で会話研究 〇 CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇 facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇 OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇 DeepMind 「StarCraft2」AlphaStar 〇 DeepMind 「Capture the Flag」QuakeIII エンジン 〇 2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇 DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇 OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

Slide 216

Slide 216 text

StarCraftのAI • Santiago Ontañon, Gabriel Synnaeve, Alberto Uriarte, Florian Richoux, David Churchill, et al.. • “A Survey of Real-Time Strategy Game AI Research and Competition in StarCraft”. IEEE Transactions on Computational Intelligence and AI in games, IEEE Computational Intelligence Society, 2013, 5(4), pp.1-19. hal- 00871001 • https://hal.archives-ouvertes.fr/hal-00871001

Slide 217

Slide 217 text

StarCraftの7つのアーキテクチャ (2010-2020)

Slide 218

Slide 218 text

戦略思考 ハイレベル、抽象的 3分~ 知識収集と 学習 敵のモデル化 戦略決定 部隊形成 命令プランの構築 戦術思考 中間レベル 30秒~1分 スカウティング 戦闘タイミングと 位置 ユニットと建築物 の配置 反射コントロール 低レベル、物理的 ~1秒 小ユニット マルチエージェン パス検索 StarCraft 一般的なアーキテクチャ

Slide 219

Slide 219 text

戦闘 ゴール マネージャー ユニットグループ ベイジアン・ネット BroodWarBotQ 仲介モジュール 知能 マップ マネージャー 技術推定 ユニット フィルター 資源管理 ワーカー マネージャー 基地 マネージャー 生産 マネージャー 建築 マネージャー StarCraft BroodWarQ Bot アーキテクチャ

Slide 220

Slide 220 text

知能 建築命令マネージャー スカウト マネージャー 資源 マネージャー マクロ マネージャー 拡張 マネージャー 供給 マネージャー 部隊 マネージャー 封鎖経路 マネージャー 戦略 戦術 タスクマネージャー 建築設置 モジュール タスク n StarCraft SkyNet Bot アーキテクチャ

Slide 221

Slide 221 text

資源管理 戦闘 部隊マネージャー 防御マネージャー 戦闘マネージャー AIUR ムード マネージャー 知能 仲介モジュール スカウト マネー ジャー 情報マネージャー ワーカー マネージャー 基地 マネージャー 生産 マネージャー 建築 マネージャー スパイ マネー ジャー 消費 マネージャー StarCraft AIUR Bot アーキテクチャ

Slide 222

Slide 222 text

StarCraft~StarCraft2における 人工知能 (DeepMind, 2019) Oriol Vinyals, et al., “StarCraft II: A New Challenge for Reinforcement Learning”, https://arxiv.org/abs/1708.04782 PySC2 - StarCraft II Learning Environment https://github.com/deepmind/pysc2

Slide 223

Slide 223 text

StarCraft II API StarCraft II バイナリー PySC2 エージェント アクション select_rect(p1, p2) or build_supply(p3) or … 観察 資源 可能なアクション 建築命令 スクリーン (ゲーム情報) ミニマップ (特定の情報) 報酬 -1/0/+1 SC2LE

Slide 224

Slide 224 text

評価値 Value Network Baseline features アクション・タイプ ディレイ ユニット選択 命令発行 ターゲット選択 Residual MLP MLP MLP Pointer Network Attention D 分散表現 MLP 分散表現 MLP 分散表現 MLP Embedding MLP コア Deep LSTM スカラー エンコーダー MLP エンティティ エンコーダー トランス フォーマー 空間 エンコーダー ResNet ゲーム パラメーター群 エンティティ ミニマップ

Slide 225

Slide 225 text

Oriol Vinyals, et al., “StarCraft II: A New Challenge for Reinforcement Learning”, https://arxiv.org/abs/1708.04782 PySC2 - StarCraft II Learning Environment https://github.com/deepmind/pysc2

Slide 226

Slide 226 text

Oriol Vinyals, et al., “StarCraft II: A New Challenge for Reinforcement Learning”, https://arxiv.org/abs/1708.04782 PySC2 - StarCraft II Learning Environment https://github.com/deepmind/pysc2

Slide 227

Slide 227 text

DeepMind社「Capture the flag」 によるディープラーニング学習 (2019年)

Slide 228

Slide 228 text

年 企業 テーマ Open 2003 Microsoft 「Teo Feng」における強化学習 2005 Microsoft 「Forzamotor Sports」における強化学習 2013 DeepMind AtariのゲームをDQNで学習 〇 2015 DeepMind 囲碁 AlphaGO 2017 AnyLogic 倉庫・機械などモデルのシミュレーション Microsoft 「パックマン」多報酬学習 Hybrid Reward Architecture for Reinforcement Learning 〇 2019 Google 「サッカーシミュレーター」による強化学習の研究 〇 DeepMind 「Capture the flag」によるディープラーニング学習 〇 Microsoft 「AirSim」ドローンシミュレーター 〇 Nvidia 「ドライビングシミュレーター」 Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇 facebook 「CraftAssist」マインクラフト内で会話研究 〇 CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇 facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇 OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇 DeepMind 「StarCraft2」AlphaStar 〇 DeepMind 「Capture the Flag」QuakeIII エンジン 〇 2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇 DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇 OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

Slide 229

Slide 229 text

シミュレーション 現実 機械学習 (ディープ ラーニン グ) https://deepmind.com/blog/article/capture-the-flag-science Human-level performance in 3D multiplayer games with population-based reinforcement learning Max Jaderberg et al. Science 31 May 2019: Vol. 364, Issue 6443, pp. 859-865 DOI: 10.1126/science.aau6249

Slide 230

Slide 230 text

Human-level performance in 3D multiplayer games with population-based reinforcement learning Max Jaderberg et al. Science 31 May 2019: Vol. 364, Issue 6443, pp. 859-865 DOI: 10.1126/science.aau6249

Slide 231

Slide 231 text

π ゲーム画像 ゲーム画像 ゲーム画像 ゲーム画像 ゲーム画像 サンプルされた 潜在変数 アクション 内部報酬 w 勝敗判定 方針 ゲーム ポイント ゆっくりとしたRNN 高速なRNN Xt 𝑄𝑄𝑡𝑡 𝑄𝑄𝑡𝑡+1 Human-level performance in 3D multiplayer games with population-based reinforcement learning Max Jaderberg et al. Science 31 May 2019: Vol. 364, Issue 6443, pp. 859-865 DOI: 10.1126/science.aau6249

Slide 232

Slide 232 text

赤チーム陣地 青チーム陣地 赤フラグを青チーム陣地に 持ち帰る青エージェント 赤フラグが赤チーム陣地に 再び自動返却されるタイミング を待つ青エージェント 赤エージェント Human-level performance in 3D multiplayer games with population-based reinforcement learning Max Jaderberg et al. Science 31 May 2019: Vol. 364, Issue 6443, pp. 859-865 DOI: 10.1126/science.aau6249

Slide 233

Slide 233 text

OpenAI「HIDE AND SEEK」 による学習 (2019年)

Slide 234

Slide 234 text

年 企業 テーマ Open 2003 Microsoft 「Teo Feng」における強化学習 2005 Microsoft 「Forzamotor Sports」における強化学習 2013 DeepMind AtariのゲームをDQNで学習 2015 DeepMind 囲碁 AlphaGO 2017 AnyLogic 倉庫・機械などモデルのシミュレーション Microsoft 「パックマン」多報酬学習 Hybrid Reward Architecture for Reinforcement Learning 2019 Google 「サッカーシミュレーター」による強化学習の研究 〇 DeepMind 「Capture the flag」によるディープラーニング学習 Microsoft 「AirSim」ドローンシミュレーター 〇 Nvidia 「ドライビングシミュレーター」 Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇 facebook 「CraftAssist」マインクラフト内で会話研究 〇 CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇 facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇 OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇 DeepMind 「StarCraft2」AlphaStar 〇 DeepMind 「Capture the Flag」QuakeIII エンジン 〇 2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇 DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇 OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

Slide 235

Slide 235 text

「かくれんぼ」によってマルチエージェ ントを学習させる • オブジェクトがあって、動かしたり固 定したりできる。 • オブジェクトは直方体、傾斜台、長い 板がある。 • 一度固定したオブジェトは動かせない • エージェントは次第にオブジェクトを 利用してかくれんぼをするようになる • 6種類の戦術を順番に発見・学習して いく https://openai.com/blog/emergent-tool-use/ Emergent Tool Use From Multi-Agent Autocurricula (2019) Bowen Baker, Ingmar Kanitscheider, Todor Markov, Yi Wu, Glenn Powell, Bob McGrew, Igor Mordatch https://arxiv.org/abs/1909.07528

Slide 236

Slide 236 text

https://www.youtube.com/watch?v=kopoLzvh5jY

Slide 237

Slide 237 text

Emergent Tool Use From Multi-Agent Autocurricula (2019) Bowen Baker, Ingmar Kanitscheider, Todor Markov, Yi Wu, Glenn Powell, Bob McGrew, Igor Mordatch https://arxiv.org/abs/1909.07528

Slide 238

Slide 238 text

自分の座標 周囲の状況 (LIDARによる) 他のエージェ ントの座標 ボックスの 座標、速度 傾斜台の 座標、速度 全結合 全結合 全結合 自分 コンボリューション 円方位ID 全結合 エージェント 埋め込みベクトル ボックス ボックス マスクされた平均プーリング エンティティ間のアテンション マスクされた要素 (壁などで見えない) LSTM 移動 アクション つかむ アクション ロック アクション 自分 エージェント ボックス 傾斜台 メモリーステート

Slide 239

Slide 239 text

Project PAIDIA • マイクロソフトは、「ゲームインテリジェンスグループ」 • https://www.microsoft.com/en-us/research/theme/game-intelligence/ • を設置して30人程の研究者でゲームAIの研究をしています。 • https://www.microsoft.com/en-us/research/project/project-paidia/#!people • これまでは、チェスや囲碁、そして最近ではマインクラフトを題材にしてエージェン トの知能を作る「Project Malmo」などを推進してきましたが、 • GDC2020で「プロジェクト PAIDIA」を発表しました。 • https://innovation.microsoft.com/en-us/exploring-project-paidia • これは、Ninja Theory 社と一緒にアクションゲームでプレイヤーと強調するキャラ クターの知能を作るプロジェクトです。

Slide 240

Slide 240 text

• 3つの研究を柱として(かなり専門的ですが)推進しています。 • https://www.microsoft.com/en-us/research/blog/three-new-reinforcement- learning-methods-aim-to-improve-ai-in-gaming-and-beyond/ 不確定な状況下での意思決定 • https://www.microsoft.com/en-us/research/publication/conservative- uncertainty-estimation-by-fitting-prior-networks/ リアルタイムで蓄積される記憶の整備 • https://www.microsoft.com/en-us/research/publication/amrl-aggregated- memory-for-reinforcement-learning/ 不確定な状況下での強化学習 • https://www.microsoft.com/en-us/research/publication/varibad-a-very- good-method-for-bayes-adaptive-deep-rl-via-meta-learning/ Project PAIDIA

Slide 241

Slide 241 text

年 企業 テーマ 開発環境公開 2003 Microsoft 「Teo Feng」における強化学習 2005 Microsoft 「Forzamotor Sports」における強化学習 2013 DeepMind AtariのゲームをDQNで学習 〇 2015 DeepMind 囲碁 AlphaGO 2017 AnyLogic 倉庫・機械などモデルのシミュレーション Microsoft 「パックマン」多報酬学習 Hybrid Reward Architecture for Reinforcement Learning 〇 2019 Google 「サッカーシミュレーター」による強化学習の研究 〇 DeepMind 「Capture the flag」によるディープラーニング学習 〇 Microsoft 「AirSim」ドローンシミュレーター 〇 Nvidia 「ドライビングシミュレーター」 Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇 facebook 「CraftAssist」マインクラフト内で会話研究 〇 CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇 facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇 OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇 DeepMind 「StarCraft2」AlphaStar 〇 DeepMind 「Capture the Flag」QuakeIII エンジン 〇 2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇 DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇 OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

Slide 242

Slide 242 text

第I部:デジタルゲームAI 第II部:メタバースとスマートシティ

Slide 243

Slide 243 text

情報処理学会 7月号(電子) 人工知能学会誌 7月号

Slide 244

Slide 244 text

参考文献 • 三宅陽一郎 「デジタルゲームAI技術を応用したスマートシティの設計」 人工知能学会誌、37巻4号(2022年) 10ページ • 三宅陽一郎 • 「メタバースの成立と未来 ―新しい時間と空間の獲得へ向けて―」, 情報処理, Vol.63 No.7 (2022年) 34ページ https://ipsj.ixsq.nii.ac.jp/ej/?action=pages_view_main&active_action=repository_view_main_item_detail&item_id=218538&item_no=1&page_id=13&block_id=8 https://www.jstage.jst.go.jp/article/jjsai/37/4/37_436/_article/-char/ja/

Slide 245

Slide 245 text

スマートシティ

Slide 246

Slide 246 text

データ収集 (DataSF, CityVerve) サービス https://www.softbank.jp/biz/blog/business/articles/202003/overseas-smart-city/

Slide 247

Slide 247 text

スマートシティの全体設計

Slide 248

Slide 248 text

レベル キャラクターAI レベルを認識し、 自律的な判断を行い、 身体を動かす. 敵・味方 キャラクタ- プレイヤー 情報獲得 スパーシャルAI 空間全般に関する思考 メタAI, キャラクターAIの為に 空間認識のためのデータを準備 ナビゲーション・データの管理 パス検索 戦術位置解析 オブジェクト認識 メタAI エージェントを動的に配置 レベル状況を監視 エージェントに指示 ゲームの流れを作る Order Ask & Report ゲーム全体をコントロール Support query query 頭脳として機能 MCS-AI動的 連携モデル(三宅,2020)

Slide 249

Slide 249 text

都市全体の知能(意識) 交通全般を制御するAI 各エリアを 監視・制御するAI 各ビルを監視・ 制御するAI 道路を 監視・制御 するAI 各広場を 監視・制御 するAI 人の流れを 監視・制御 するAI 抑止・委任 報告 抑止・委任 報告 監視 制御 人 ドローン ロボット デジタル アバター 報告 命令 人 監視 制御 監視 制御 協調 協調 協調・ 命令 監視 制御 デ ジ タ ル ツ イ ン / メ タ バ ス / 世 界 モ デ ル 都 市 キャラクターAI ス パ | シ ャ ル AI メタAI 空 間 記 述 表 現 協調 協調

Slide 250

Slide 250 text

都市 環境アクターネットワーク 人工知能 (メタAI, キャラクターAI, スパーシャルAI) 都市の人工知能システム 都市の実体(物質、仕組み、ネットワーク構造)

Slide 251

Slide 251 text

都市のアクター ネットワーク 物理的な都市 都市の 人工知能 都市の 意識 (都市の無意識) (都市の身体)

Slide 252

Slide 252 text

都市を囲う環境世界 命令の 構成 世界モデル 世界シミュレーション 都市のセンサー群 都市のアクター群 スパー シャルAI 認識の 形成 意思の 決定 都市のエージェント群 メタAI (都市の人工知能) キャラクターAI

Slide 253

Slide 253 text

空間型AIの作成

Slide 254

Slide 254 text

スマート環境アクター スマートオブジェクト エージェント スマートポイント スマートスペース エージェント エージェント 制御 制御 制御 ドア ドアノブ スペース オブジェクト(物) ポイント(座標)

Slide 255

Slide 255 text

エージェント 主体 客体 エージェント 主体 客体 転換 環境アクター スマート 環境アクター 主客転換制御

Slide 256

Slide 256 text

メタAI エージェント エージェント自律制御 スマート環境アクター制御 スマート環境アクター制御 スマートスペース スマートオブジェクト スマートポイント コミュニケーション コミュニケーション

Slide 257

Slide 257 text

メタAI エージェント エージェント自律制御 スマート環境アクター制御 スマート環境アクター制御 スマートスペース スマートオブジェクト スマートポイント コミュニケーション コミュニケーション コモングラウンド

Slide 258

Slide 258 text

(メッシュ) コスト : 0.5 見通し: 1.0 地表: 床 推奨高度:5m (メッシュ) コスト : 0.5 見通し: 1.0 地表: 床 推奨高度:10m (メッシュ) コスト : 2.5 見通し: 1.0 地表: 土 推奨高度:10m 壁面:ガラス 壁との衝突は 必ず回避してください エージェント ナビゲーション・メッシュ (メッシュ) コスト : 0.5 見通し: 1.0 地表: 床 推奨高度:7m エレベーターの入り口: 使用する場合は、 メッセージ001を送ってください 空間記述表現

Slide 259

Slide 259 text

物理的都市空間 スマートスペース メタバース

Slide 260

Slide 260 text

空間型AIの制御に入る車 メタAI エージェント エージェント自律制御 スマート環境アクター制御 スマート環境アクター制御 スマートスペース スマートオブジェクト スマートポイント コミュニケーション コミュニケーション

Slide 261

Slide 261 text

現実空間のためのキャラクターAI, メタAIの検証

Slide 262

Slide 262 text

オンラインゲーム メタバース 物理空間 世界観 強固、かつ詳細 なるべく緩い設定 現実のまま 物語 大きな物語を準備 物語に沿って イベントが展開 特になし ユーザーが作り出す 現実の経済、人間関係 (ソーシャル)、社会、 など無限の要素 キャラクター (人)の役割 世界、物語の中で 最初から定義 特になし ユーザー の関係の中で発生 不明(実存) オンラインゲーム 物理空間 純粋なメタバース (空っぽの空間)

Slide 263

Slide 263 text

現実世界 デジタル ツイン ミラーワールド スマートシティ メタAI 都市 メタバース (世界モデルと して機能する) 同期 現実を認識する 現実を予測する

Slide 264

Slide 264 text

垂直構造(現実との関連性) 水平構造(世界のスケールの広がり) メタバース 現実世界 デジタル世界 スマート シティ ミラーリングによる同期

Slide 265

Slide 265 text

現実世界 (1) お金の動き (2) 物の動き (3) 人・動物の動き (4) 自然の動き デジタル ツイン (現実世界 そっくりの メタバース) 同期 引き写し ミラーワールド スマートシティ センシングと情報取り込 みによる(1)-(4)の同期 ロボット・AI・情報提示に よるサービス・干渉

Slide 266

Slide 266 text

広場 森 都市 大学 道路 同期 同期 同期 同期 同期 現実と同期するメタバース

Slide 267

Slide 267 text

奈良の鹿ミラーワールド 同期 (ミラー) 現実 メタバース 本物の鹿 デジタルツイン鹿 現実とメタバースをつなぐ

Slide 268

Slide 268 text

物理空間 シミュレーション空間 物理=シミュレーション 混合空間

Slide 269

Slide 269 text

現実世界 現実世界 センサー エフェクタ デジタル ツイン 意思決定・ シミュレーション ゲームエンジン 都市のエージェントの エージェント・ アーキテクチャ 情報経路

Slide 270

Slide 270 text

現実世界 現実世界 センサー エフェクタ デジタル ツイン × 世界モデル (ディープ ラーニング) 都市の 世界モデルの獲得 世界モデル シミュレーション 意思決定 都市の夢を見る シミュレーション エンジン 都市メタAIの エージェント・ アーキテクチャ 情報経路

Slide 271

Slide 271 text

物理世界へ の作用 (指令・行為) 知能 物理世界 情報収集 (知覚) メタバース (集合知性)

Slide 272

Slide 272 text

メタバース 情報の 蓄積 シミュレー ション による予測 人間の叡知 一つの集合知性として機能する 物理空間 への作用 センサー 意思決定 エフェクター 物理空間 からの情報 物理空間へ の作用 集合知性の エージェント・アーキテクチャ

Slide 273

Slide 273 text

物理世界 物理世界 デジタル世界 物理世界 集合知性 メタバース 物理世界 機械 Level I Level 0 Level III Level II 意識の変容 人とデジタル空間の融合 物理世界

Slide 274

Slide 274 text

活動神経網 知覚神経網 作用 (行為) 内的世界 知能 物理世界 物理世界のリアリティ 反作用 (知覚)

Slide 275

Slide 275 text

活動神経網 知覚神経網 反作用 (知覚) 作用 (行為) 内的世界 知能 シミュレーション世界 シミュレーション世界のリアリティ

Slide 276

Slide 276 text

物理世界へ の作用 (指令・行為) 知能 物理世界 情報収集 (知覚) メタバース (集合知性)

Slide 277

Slide 277 text

シミュレーション

Slide 278

Slide 278 text

ゲームエンジンのUnityにPLATEAUのモデルを入れた画面。 モデルは、品川駅周辺のモデル ~都市全体の外観~ ~道路~ PLATEAUは建物のモデル のみなので、市民が実際 に歩くことになる道路は 自作。 Pythonでの数値シミュ レーション同様、この道 路1つ1つにサービスの水 準を設定し、市民が通る と効用が得られるような 画面を作る。 今後の展望:実際の都市の3Dモデルによるシミュレーション 石政龍矢 三宅陽一郎「メタAI型スマートシティ形成の提唱-」 第64回土木計画学研究発表大会、2021年12月

Slide 279

Slide 279 text

仮想空間シミュレーションの動画 シミュレーションを行っている状況を動画で紹介する。 動画内で赤く動いているのが市民である。 市民は品川駅を目指して動き、その過程で効用が計算されるように実装している。 石政龍矢 三宅陽一郎「メタAI型スマートシティ形成の提唱-」 第64回土木計画学研究発表大会、2021年12月

Slide 280

Slide 280 text

メタAI型スマートシティの有効性の検証 (Pythonによる数値シミュレーション) メタAIの有効性を検証するために、まずはPythonによる数値シミュレーションを行う。 実験で想定すること 市民は、目的地に着くまでに何本かの道路を歩く。市民は、バリアフリーが充実している道路等、その道 路のもともとの公共サービスの充実度(サービスの水準)に応じて、効用を得る。さらに、各道路には一体 ずつAIエージェントが配置され、AIエージェントは市民から一人を選んで公共サービスを行う。選ばれた市 民は、その道路から得られる効用が、さらに増加する。メタAIは、AIエージェントが重複して同じ市民を選 ばないように命令し、公共サービスを広く全体に行き渡らせる。 道路1 道路2 メタAI 左の市民は前の道路で選ばれ たので、候補から外しなさい 石政龍矢 三宅陽一郎「メタAI型スマートシティ形成の提唱-」 第64回土木計画学研究発表大会、2021年12月

Slide 281

Slide 281 text

メタAIのスマートシティへの活用 石政龍矢 三宅陽一郎「メタAI型スマートシティ形成の提唱 -PLATEAUデータを用いたマルチエージェントシミュレーションの観点から-」 第64回土木計画学研究発表大会、2021年12月

Slide 282

Slide 282 text

メタAI型スマートシティの有効性の検証 横軸はシミュレーションの回数、縦軸は社会全体の効用について、 メタAIがある場合の効用から、ない場合の効用を引いたもの 全ての状況において、 メタAIを導入した方が 社会全体の効用が高く なる メタAIがある場合とない場合の差 各パターン 効用の差 ~留意点~ 検証の目的はメタAIが 上手く機能することの 確認であるため、効用 の差の大きさにはあま り意味はない 石政龍矢 三宅陽一郎「メタAI型スマートシティ形成の提唱-」 第64回土木計画学研究発表大会、2021年12月

Slide 283

Slide 283 text

メタバース

Slide 284

Slide 284 text

メタバースの定義

Slide 285

Slide 285 text

メタバース オンライン ゲーム 現実

Slide 286

Slide 286 text

オンラインゲーム メタバース 物理空間 世界観 強固、かつ詳細 なるべく緩い設定 現実のまま 物語 大きな物語を準備 物語に沿って イベントが展開 特になし ユーザーが作り出す 現実の経済、人間関係 (ソーシャル)、社会、 など無限の要素 キャラクター (人)の役割 世界、物語の中で 最初から定義 特になし ユーザー の関係の中で発生 不明(実存) オンラインゲーム 物理空間 純粋なメタバース (空っぽの空間) オンラインゲームとメタバースの違い

Slide 287

Slide 287 text

検索エンジン SNS メタバース 検索サーバー ユーザー ユーザー タイム ライン デジタル空間 インタラク ション デファクト・メジャーの遷移

Slide 288

Slide 288 text

メタバース SNS 検索エンジン 現実の人間関係 現実の情報 現実の情報 現実の人間関係 現実の世界の状態 現実の情報 現実の深度 仮想空間のリアリティ

Slide 289

Slide 289 text

デジタル世界 現実世界 垂直構造(現実との関連性) 水平構造(世界のスケールの広がり) オンライン ゲーム メタバース デジタル空間の水平構造と垂直構造

Slide 290

Slide 290 text

時代 メタバース世界の多様化 2006 セカンドライフ 2008 meet-me 2018 2006 Roblox 2009 Internet Adventure 2012 The Sandbox 2008 PlayStation Home 2011 2021 Horizon Worlds 2008 ai sp@ce メタバース 創成記 メタバースと ゲーム空間の 融合 セカンド ライフの影響 メタバースと 現実空間・ 経済との融合 2017 フォートナイト 2022 仮想通貨SAND導入(2017年-) 2003 EVE ONLINE 2015 2000 Phantasy Star Online / Phantasy Star Online 2 UGCを軸とした オンラインゲーム アイテム課金モデル 仮想通貨の隆盛

Slide 291

Slide 291 text

メタバースとソーシャル

Slide 292

Slide 292 text

ソー シャル 空間 ゲーム 空間 ソーシャル 空間 メタバース ソーシャル 空間 1990 2010 2000 2020 オンラインゲームにおいて 徐々にソーシャル的要素が 入れられていった。SNSに 対抗する必要があった。 1990年代において ゲームはソロプレイか その場の数人でする ものであった。 ゲーム的要素の少ないソーシャル 空間をメインとするメタバースが 台頭する。しかし、ゲームとは つながっている。 ゲーム的要素がまったくない、 独立したソーシャル空間が成立 する。SNSの延長としての ソーシャル空間。 SN S SNS SNS ソーシャル 空間 SNSの台頭と拡大 ゲーム 空間 ゲーム 空間 SNS+ゲーム空間=メタバース

Slide 293

Slide 293 text

ゲーム空間とソーシャル空間 の関係 関係図 特徴 ゲーム空間をメインとしつつ、 その周辺のソーシャル空間を 配置する ゲーム空間を補完する形、或いは ゲーム空間で満たされない部分を ソーシャル空間においてみたすよ うに設計する。たとえば、ゲーム 空間が戦闘であれば、ソーシャル 空間は音楽・演劇など。 ソーシャル空間をメインとし つつ、その中にゲーム空間が 埋め込まれる。 ソーシャル空間がメインであり、 そこにそれぞれ独立したゲーム空 間が埋め込まれる。多くの場合、 ユーザーが作成したミニゲームが 点在する形となる。 ゲーム空間-ソーシャル空間 一体型 ゲーム空間とソーシャル空間の区 別ではない。あらゆる場所がゲー ム空間であり、ユーザーが望めば、 あらゆる空間で交流が可能である。 ゲーム空間 ソーシャル 空間 ゲーム 空間 ゲーム 空間 ゲーム 空間 ゲーム 空間 ソーシャ ル 空間 Roblox Sandbox フォートナイト あつ森など ソーシャル 空間

Slide 294

Slide 294 text

メタバース=ゲーム空間の解放 オンラインゲーム

Slide 295

Slide 295 text

人 人 テキスト テキスト 人 人 画像/声 画像/声 人 人 擬似身体・声 擬似身体・声 空間 メタバース オンライン会議 SNS・チャットなど 拡張するコミュニケーション

Slide 296

Slide 296 text

人 エー ジェ ント エー ジェ ント エー ジェ ント エー ジェ ント エー ジェ ント エー ジェ ント 人 エー ジェ ント エー ジェ ント エー ジェ ント エー ジェ ント エー ジェ ント エー ジェ ント 人 エー ジェ ント エー ジェ ント エー ジェ ント エー ジェ ント エー ジェ ント エー ジェ ント エー ジェ ント 人-エージェント-エージェント-人関係 人-人関係 から 人-AI-AI-人 関係へ

Slide 297

Slide 297 text

文化 社会 文化は社会を変える AI文化はAIを変える 集積された文化を編纂し促進するAI =科学者・芸術家 AI文化はAIが集積する エー ジェン ト エー ジェ ント エー ジェ ント エー ジェ ント エー ジェ ント エー ジェ ント エー ジェ ント エー ジェ ント エー ジェ ント

Slide 298

Slide 298 text

ゲーム世界 プレイヤー (主人公) プレイする バーチャル アイドル プロデューサー 応援する・ プロデュース する ゲーム世界 (eSports) 観戦者 観戦する メタバース 一参加者 参加する デジタル世界への参加の仕方の変化 デジタル空間への参加の仕方の変化

Slide 299

Slide 299 text

メタバース (コモングラウンド)

Slide 300

Slide 300 text

スマートシティとメタバースの融合、 人間の行動変容

Slide 301

Slide 301 text

レベル キャラクターAI レベルを認識し、 自律的な判断を行い、 身体を動かす. 敵・味方 キャラクタ- プレイヤー 情報獲得 スパーシャルAI 空間全般に関する思考 メタAI, キャラクターAIの為に 空間認識のためのデータを準備 ナビゲーション・データの管理 パス検索 戦術位置解析 オブジェクト認識 メタAI エージェントを動的に配置 レベル状況を監視 エージェントに指示 ゲームの流れを作る Order Ask & Report ゲーム全体をコントロール Support query query 頭脳として機能

Slide 302

Slide 302 text

現実世界 デジタル ツイン (現実世界 そっくりの メタバース) 相互作用 ミラーワールド スマートシティ センシング AIによる干渉

Slide 303

Slide 303 text

現実世界 デジタル ツイン ミラーワールド スマートシティ メタAI 都市 メタバース (世界モデルとし て機能する) 同期 引き写し 現実を認識する 現実を予測する

Slide 304

Slide 304 text

活動神経網 知覚神経網 作用 (行為) 内的世界 知能 物理世界 物理世界のリアリティ 反作用 (知覚)

Slide 305

Slide 305 text

活動神経網 知覚神経網 反作用 (知覚) 作用 (行為) 内的世界 知能 シミュレーション世界 シミュレーション世界のリアリティ

Slide 306

Slide 306 text

人の知的レベル=環境との相互作用による知的行動 人 環境(世界) 知的行動 知的行動の拡大

Slide 307

Slide 307 text

環境(世界) 知的行動 知的行動の拡大 人 他者(自律的存在) 信頼感情の生成 人の知性の拡大

Slide 308

Slide 308 text

スマートシティ エージェント 知的行動 知的行動の拡大 人 メタAI スマートシティによる知的行動の拡大

Slide 309

Slide 309 text

新しい現実 スマートシティ エージェント 知的行動 知的行動の拡大 メタバース 人 メタAI 人の知性の拡大

Slide 310

Slide 310 text

デジタルゲームから現実=仮想融合世界へ これまでの研究: デジタルゲームの人工知能の 汎用的フレームの構築 これからの研究:都市のための人工知能の 汎用的フレームの構築

Slide 311

Slide 311 text

これまでの研究: デジタルゲームの人工知能の 汎用的フレームの構築 これからの研究:都市のための人工知能の 汎用的フレームの構築 人工知能が人間 を理解すること 人工知能が社会 を理解すること デジタルゲームから現実=仮想融合世界へ