ゲームAI、メタバース、スマートシティ

ゲームAI、メタバース、スマートシティ三宅陽一郎 @miyayou [email protected] 2023.5.16 東京大学 ICTと産業2023

参考文献（以下に情報を集約してます） • 三宅陽一郎 • 私のブックマーク「ディジタルゲームの人工知能の歴史的変遷 ─ルールベースからディープラーニングまで」 • https://www.ai-gakkai.or.jp/resource/my-bookmark/my- bookmark_vol37-no6/ •
私のブックマーク「ディジタルゲームの人工知能（Artificial Intelligence in Digital Game）」 • https://www.ai-gakkai.or.jp/resource/my-bookmark/my- bookmark_vol32-no4/

第I部：デジタルゲームAI 第II部：メタバースとスマートシティ

自己紹介

My Works (2004-2022) AI for Game Titles Books

近著

戦略ゲームAI • 戦略ゲームにおける人工知能の技術を、起源から集めた著作 • 2021年10月15日 • 300ページぐらい

リアルタイムノンリアルタイム身体を持つ身体を持たない身体を持ちリアルタイムに空間を運動する身体を持たず空間を運動しないゲーム・ロボット
ビックデータ解析

ゲームＡＩの特徴リアルタイムインタラクティブ身体を持つゲーム VR/AR ロボット・自動運転デジタルサイネージドローン
エージェント・サービス

ＡＩの分化（1994-2000）ゲームシステムメタＡＩキャラクターＡＩナビゲーションＡＩ３つのＡＩシステムは序々に分化して独立して行った。では、今度はナビゲーションＡＩについてさらに詳しく見てみよう。

レベルスクリプトナビゲーションAI キャラクターAI メタAI 1995 2000 2005 2010 1994 (ゲームの3D化)
1999 (スクリプティッドAIによる大型ゲームのキャラクター制御の限界。自律型AI技術のアカデミックからの流入) 2005 (ウィル・ライトによる“メタAI”定義) 2008 (“LEFT 4 DEAD”ににおけるAI Director) 2010頃～（オープンワールド型ゲームの隆盛) スパーシャルAI 1980 PlayStation (1994) Xbox360 (2005) PlayStation3 (2006) スクリプティッドAI 三宅陽一郎、水野勇太、里井大輝、「メタAI」と「AI Director」の歴史的発展、日本デジタルゲーム学会（2020年、Vol.13, No.2） LS-Modelモデル LCN-AI連携モデル MCS-AI動的連携モデル MCN-AI連携モデル

レベルキャラクターAI レベルを認識し、自律的な判断を行い、身体を動かす．敵・味方キャラクタ－プレイヤー情報獲得スパーシャルAI
空間全般に関する思考メタAI, キャラクターAIの為に空間認識のためのデータを準備ナビゲーション・データの管理パス検索戦術位置解析オブジェクト認識メタAI エージェントを動的に配置レベル状況を監視エージェントに指示ゲームの流れを作る Order Ask & Report ゲーム全体をコントロール Support query query 頭脳として機能 MCS-AI動的連携モデル（三宅,2020）

デジタルゲームAI入門① （キャラクターAI）

空間全般に関する思考メタAI, キャラクターAIの為に空間認識のためのデータを準備ナビゲーション・データの管理パス検索戦術位置解析オブジェクト認識メタAI エージェントを動的に配置レベル状況を監視エージェントに指示ゲームの流れを作る Order Ask & Report ゲーム全体をコントロール Support query query 頭脳として機能 MCS-AI動的連携モデル

知能の世界環境世界認識の形成記憶意思の決定身体制御エフェクター・
身体運動の構成センサー・身体意思決定モジュール意思決定モジュール意思決定モジュール記憶体情報処理過程運動創出過程身体部分情報統合運動統合

FC SFC SS, PS PS2,GC,Xbox Xbox360, PS3, Wii DC （次世代）
Hardware 時間軸 2005 1999 ゲームの進化と人工知能複雑な世界の複雑なＡＩゲームも世界も、ＡＩの身体と内面もますます複雑になる。単純な世界のシンプルなＡＩ（スペースインベーダー、タイトー、1978年）（アサシンクリード、ゲームロフト、2007年）

(例) スペースインベーダー(1978) プレイヤーの動きに関係なく、決められた動きをする（スペースインベーダー、タイトー、1978年）

（例）プリンス・オブ・ペルシャ「プリンス・オブ・ペルシャ」など、スプライトアニメーションを用意する必要がある場合、必然的にこういった制御となる。（プリンスオブペルシャ、1989年）

３Ｄゲームの中のＡＩ Halo （ＨＡＬＯ、バンジー、2001年）デバッグ画面 The Illusion of Intelligence - Bungie.net
Downloads http://downloads.bungie.net/presentations/gdc02_jaime_griesemer.ppt

強化学習（例）強化学習（例）格闘ゲームキックパンチ波動 R_0 : 報酬＝ダメージ
http://piposozai.blog76.fc2.com/ http://dear-croa.d.dooo.jp/download/illust.html

強化学習（例）格闘ゲームTaoFeng におけるキャラクター学習 Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela
Applied Games Group,Microsoft Research Cambridge "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products" http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx Microsoft Research Playing Machines: Machine Learning Applications in Computer Games http://research.microsoft.com/en-us/projects/mlgames2008/ Video Games and Artificial Intelligence http://research.microsoft.com/en-us/projects/ijcaiigames/

サブサンプション・アーキテクチャ（ロドニー・ブルックス） INPUT OUTPUT 時間情報抽象度反射的に行動少し場合ごとに対応抽象的に思考理論的に考える言語化のプロセス
= 自意識の構築化 Subsumpution Architecture 運動の実現のプロセス = 身体運動の生成

機能環効果器受容器（刺激→興奮（記号））客体活動神経網知覚神経網前野佳彦訳・ユクスキュル「動物の環境と内的世界」（みすず書房）知覚世界活動世界
知覚微表担体対象化された機構活動担体内的世界興奮（記号）興奮興奮運動形態＝特定の筋肉を動かす中枢神経網

Physical Informat ion Abstract Informat ion More Abstract Informat ion
Abstraction Time Decision-Making Decision-Making Decision-Making Multi-Layered Blackboard Abstraction Abstraction Reduction Reduction Reduction World World Dynamics Artificial Intelligence Object Object image on the lowest layer (Umwelt) Object image on the second layer Object image on the third layer Decision-Making Object image on the top layer

デジタルゲームAI入門② （スパーシャルAI）

ネットワーク上のグラフ検索法 A*法 M F L B A Ｓ O P
D C G S V H Q X K N J R T W E I U Z Y Ｇ 5 4 6 3 7 2 3 B C 3 3 2 2 4 3 5 5 出発点（Ｓ）を中心に、そのノードまでの最も短い経路を形成して行く。Gにたどり着いたら終了。ゴール地点がわかっている場合、現在のノードとゴールとの推定距離（ヒューリスティック距離）を想定して、トータル距離を取り、それが最少のノードを探索して行く。各ノードの評価距離＝出発点からの経路＋ヒューリスティック距離ヒューリスティック距離 (普通ユークリッド距離を取る) 3+14.2 3+13.8 G H 3 5+10.5 6+8.4

パス検索（デモと実例）

（メッシュ）コスト : 0.5 見通し: 1.0 地表：土（メッシュ）コスト
: 0.8 見通し: 0.7 地表：沼（オブジェクト）動かせる : (1.0,0.8)向き持ち上げる: false 上に乗れる： false 硬さ： 0.9 重たさ： 0.4 （オブジェクト）アクション：レバー倒す効果：扉が開く（オブジェクト）扉メッシュ同士のリンク情報

スパーシャルAI 空間解析状況解析位置検索技術パス検索スマートオブジェクトなど多数影響マップなど多数

プレイヤー予測経路（ゴールデンパス） M. Jack , M. Vehkala, “Spaces in the Sandbox:
Tactical Awareness in Open World Games,” GDC 2013, https://www.gdcvault.com/play/1018136/Spaces-in-the-Sandbox-Tactical

ゴールデンパスに沿った位置検索技術プレイヤーの予想目標地点プレイヤーの現在位置ゴールデンパスゴールデンパス上で、20m以上プレイヤーから離れて、 40m以内にある場所で、ゴールデンパスから幅10mの領域でポイントを見つける

M. Jack , M. Vehkala, “Spaces in the Sandbox: Tactical
Awareness in Open World Games,” GDC 2013, https://www.gdcvault.com/play/1018136/Spaces-in-the-Sandbox-Tactical

Tom Mathews Making "Big Data" Work for 'Halo': A Case
Study http://ai-wiki/wiki/images/d/d8/AI_Seminar_177th.pdf

位置検索システム

位置検索システム - キャラクターの性能に応じて - 地形毎に - リアルタイムで最も適したポイントを見つけるシステム

Enemy Friend NPC Rock Rock Sea Hole

オリジナル

M. Jack , M. Vehkala, “Spaces in the Sandbox: Tactical
Awareness in Open World Games,” GDC 2013, https://www.gdcvault.com/play/1018136/Spaces-in-the-Sandbox-Tactical

車に空間感覚を与える • 車自体がセンサーだけではなく、空間認識能力を持つ • ドライビング以外にも、さまざまな空間的感覚を手に入れる。

スパーシャルAI 空間解析状況解析位置検索技術パス検索スマートオブジェクトなど多数影響マップなど多数

スマートオブジェクト、スマートロケーション物の方に人工知能を持たせて、物からキャラクターを操る仕組み

物理的都市空間スマートスペースメタバース

デジタルゲームAI入門③ （メタAI）

メタＡＩの歴史 1980 1990 2000 古典的メタAI 現代のメタＡＩキャラクターＡＩ技術の発展その歴史は古く、1980年代にまでさかのぼる。その時代と現代のメタＡＩは、異なる点も多いので、古典的メタＡＩ、現代のメタＡＩと名づけて区別することにしよう。

（例）「ゼビウス」（ナムコ、1983）敵出現テーブル巻き戻し敵0 敵１敵2 敵3 敵4 敵5 『あと面白い機能なんですけれど、ゼビウスには非常に簡単なAIが組み込まれています。
「プレイヤーがどれくらいの腕か」というのを判断して、出てくる敵が強くなるんです。強いと思った相手には強い敵が出てきて、弱いと思った相手には弱い敵が出てきます。そういったプログラムが組み込まれています。ゲームの難易度というのは「初心者には難しくて、上級者には簡単だ」ということが、ひとつの難易度で(調整を)やっていくと起きてしまうので、その辺を何とか改善したいな、ということでそういったことを始めてみたのですけれど、お陰で割合にあまり上手くない人でも比較的長くプレイできる、うまい人でも最後のほうに行くまで結構ドラマチックに楽しめる、そういった感じになっています。』－遠藤雅伸（出演）、1987、「糸井重里の電視遊戯大展覧会」『遠藤雅伸ゼビウスセミナー』フジテレビ－

メタＡＩの歴史 1980 1990 2000 古典的メタAI 現代のメタＡＩキャラクターＡＩ技術の発展その歴史は古く、1980年代にまでさかのぼる。その時代と現代のメタＡＩは、異なる点も多いので、古典的メタＡＩ、現代のメタＡＩと名づけて区別することにしよう。

メタAI(=AI Director)によるユーザーのリラックス度に応じた敵出現度ユーザーの緊張度実際の敵出現数計算によって求められた理想的な敵出現数 Build Up …プレイヤーの緊張度が目標値を超えるまで
敵を出現させ続ける。 Sustain Peak … 緊張度のピークを3-5秒維持するために、敵の数を維持する。 Peak Fade … 敵の数を最小限へ減少していく。 Relax … プレイヤーたちが安全な領域へ行くまで、30-45秒間、敵の出現を最小限に維持する。 Michael Booth, "The AI Systems of Left 4 Dead," Artificial Intelligence and Interactive Digital Entertainment Conference at Stanford. http://www.valvesoftware.com/publications.html より具体的なアルゴリズム

安全な領域までの道のり(Flow Distance) メタＡＩはプレイヤー群の経路をトレースし予測する。 - どこへ来るか - どこが背面になるか - どこに向かうか
Michael Booth, "The AI Systems of Left 4 Dead," Artificial Intelligence and Interactive Digital Entertainment Conference at Stanford. http://www.valvesoftware.com/publications.html

プレイヤーからの可視領域可視領域（プレイヤーから見えている部屋）では、敵のスパウニング（発生）はできない。 Michael Booth, "The AI Systems of
Left 4 Dead," Artificial Intelligence and Interactive Digital Entertainment Conference at Stanford. http://www.valvesoftware.com/publications.html

敵出現領域背後前方 Michael Booth, "The AI Systems of Left
4 Dead," Artificial Intelligence and Interactive Digital Entertainment Conference at Stanford. http://www.valvesoftware.com/publications.html 前方と背後のプレイヤー群から見えてない部屋に、モンスターを発生させる。

Procedural Generation in WarFrame • Warframe ではダンジョンが自動生成される。 Daniel Brewer, AI
Postmortems: Assassin's Creed III, XCOM: Enemy Unknown, and Warframe (GDC2015) http://www.gdcvault.com/play/1018223/AI-Postmortems-Assassin-s-Creed

Black Combination in WarFrame • ブロックを組み合わる • 完全に零からの生成ではない。このような生成のことを
Semi-procedural と言う。 Daniel Brewer, AI Postmortems: Assassin's Creed III, XCOM: Enemy Unknown, and Warframe (GDC2015) http://www.gdcvault.com/play/1018223/AI-Postmortems-Assassin-s-Creed

WarFrame における自動生成マップの自動解析による自動骨格抽出 • 自動生成するだけでなく、自動生成したダンジョンを、自動解析します。ここでは、トポロジー（形状）検出を行います。

WarFrame における自動生成マップの自動解析によるナビゲーションデータ作成抽出した骨格に沿って自動的にナビゲーション・データを作成します。 Daniel Brewer, AI Postmortems: Assassin's
Creed III, XCOM: Enemy Unknown, and Warframe (GDC2015) http://www.gdcvault.com/play/1018223/AI-Postmortems-Assassin-s-Creed

スタートポイント、出口、目的地の自動生成 Daniel Brewer, AI Postmortems: Assassin's Creed III, XCOM:
Enemy Unknown, and Warframe (GDC2015) http://www.gdcvault.com/play/1018223/AI-Postmortems-Assassin-s-Creed

ヒートマップ（影響マップ）を用いてゲーム中にプレイヤーの周囲を自動解析 Daniel Brewer, AI Postmortems: Assassin's Creed III, XCOM:
Enemy Unknown, and Warframe (GDC2015) http://www.gdcvault.com/play/1018223/AI-Postmortems-Assassin-s-Creed ヒートマップ（影響マップ）とは、対象（ここではプレイヤー）を中心に、位置に温度（影響度）を与える方法です。距離に応じて減衰します。また時間が経つと、周囲に熱が拡散します。

Tactical Map の例 (影響マップ) （例）敵と自分の勢力をリアルタイムに計算する。 4 6 8 8 8
8 6 4 2 0 -1 -2 -4 -4 -4 -2 4 6 8 8 8 8 4 2 1 0 -2 -4 -4 -2 4 6 8 8 8 6 3 1 0 -2 -4 -4 -4 -2 4 6 8 8 8 6 6 4 1 0 -2 -4 -4 -2 2 4 6 8 6 6 4 4 0 -1 -2 -4 -4 -4 -2 1 2 4 6 6 4 2 2 -4 -5 -3 -3 -4 -4 -2 -1 3 3 3 3 4 2 2 0 -4 -5 -5 -8 -8 -6 -4 -2 3 3 2 2 2 0 -2 -4 -8 -10 -10 -8 -4 -2 3 3 3 2 2 1 0 -4 -8 -10 -10 -8 -8 -4 -2 2 2 2 2 1 1 0 -3 -8 -10 -10 -8 -8 -4 -2 1 1 1 1 0 0 -2 -4 -8 -8 -8 -8 -8 -8 -8 -8 0 0 0 0 0 -1 -1 -2 -5 -6 -6 -6 -8 -8 -8 0 0 0 0 -1 -2 -2 -2 -4 -4 -4 -6 -8 -8 -8 -8 0 0 0 0 -1 -2 -2 -2 -2 -2 -2 -2 -2 -2 -2 0 0 0 0 -1 -2 -2 -2 -2 -2 -2 -2 -2 -2 -2 -2 0 0 0 0 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1

ヒートマップ（影響マップ）を用いてゲーム中にプレイヤーの周囲を自動解析「ヒートが増加する＝プレイヤーが近づく点」「ヒートが減少する＝プレイヤーが遠ざかる点」 Daniel Brewer, AI Postmortems: Assassin's Creed
III, XCOM: Enemy Unknown, and Warframe (GDC2015) http://www.gdcvault.com/play/1018223/AI-Postmortems-Assassin-s-Creed

アクティブ・エリアセット（Active Are Set） Daniel Brewer, AI Postmortems: Assassin's Creed III,
XCOM: Enemy Unknown, and Warframe (GDC2015) http://www.gdcvault.com/play/1018223/AI-Postmortems-Assassin-s-Creed アクティブ・エリアセットは、プレイヤーの周囲の領域で、リアルタイムにメタAIがゲームを調整する領域

メタAIがアクティブ・エリアセット内でゲームを調整する「ヒートが増加する＝プレイヤーが近づく点」なので、モンスターを生成する。「ヒートが減少する＝プレイヤーが遠ざかる点」なので、モンスターを停止する。 Daniel Brewer, AI Postmortems: Assassin's Creed
III, XCOM: Enemy Unknown, and Warframe (GDC2015) http://www.gdcvault.com/play/1018223/AI-Postmortems-Assassin-s-Creed

技術の変わり目ビックデータｘディープラーニングシミュレーションｘディープラーニングデータが貯まるところでディープラーニングを行い特徴抽出を行うシミュレーションでデータを貯めてディープラーニングを行う

Google 「サッカーシミュレーター」による強化学習の研究 https://automaton-media.com/articles/newsjp/20190613-95002/ シミュレーション現実機械学習（ディープラーニング）
https://ai.googleblog.com/2019/06/introducing-google-research-football.html

シミュレーション現実機械学習（ディープラーニング） DeepMind社「Capture the flag」によるディープラーニング学習
https://deepmind.com/blog/article/capture-the-flag-science

AnyLogic「シミュレーションｘ機械学習」サービスシミュレーション現実機械学習（ディープラーニング） https://www.anylogic.com/warehouse-operations/

Microsoft 「AirSim」による強化学習の研究シミュレーション現実機械学習（ディープラーニング） https://microsoft.github.io/AirSim/

Nvidia「ドライビングシミュレーター」による強化学習の研究シミュレーション現実機械学習（ディープラーニング） https://www.nvidia.com/en-us/self-driving-cars/drive-constellation

シミュレーションこれからの人工知能のフレームワーク現実機械学習（ディープラーニング）この２つの技術の結びつきが、現実においても、仮想空間においても、これからの協力な技術コアとなる。

現実世界デジタルツイン相互作用ミラーワールドスマートシティセンシング AIによる干渉 With ディープラーニング

コモングラウンド

シム空間とリアル空間を行き来する車 • リアルな存在であると同時に、デジタル空間の存在でもある。 • 二重性を持つ。 • 夢を見る車＝昼間は知ったコースを反芻してイメージする

現実世界現実世界センサーエフェクタデジタルツイン意思決定・シミュレーションゲームエンジン都市のエージェントの
エージェント・アーキテクチャ情報経路

現実世界現実世界センサーエフェクタデジタルツイン × 世界モデル (ディープラーニング)
都市の世界モデルの獲得世界モデルシミュレーション意思決定都市の夢を見るシミュレーションエンジン都市メタAIのエージェント・アーキテクチャ情報経路

ゲームエンジン

現実世界メタバース（ゲームエンジン) 物理法則化学法則経済法則社会法則生物法則知能の法則
抽出実装物理シミュレーション化学シミュレーション経済シミュレーション社会シミュレーション生物シミュレーション知能シミュレーションシミュレーション化サイエンス・エンジニアリング情報処理物・運動データ構造・プログラム

現実世界デジタルツイン (ゲームエンジン) 相互作用ミラーワールドスマートシティセンシング AIによる干渉

風頂点ポリゴン頂点移動計算移動計算メモリ CPU or GPU
変更アーティストエンジニアロード（格納) 実行

ゲームエンジンの時代 • ゲームエンジンは古くからある（80年代、ナムコのタスクシステム） • ゲームの規模が小さいうちは効果が大きくない • 90年代（ほとんどない。ソースコードレベル） • 00年代（黎明期） •
ゲームエンジン群雄割拠時代（2010-2020） • 市販のエンジンに加えて、それぞれのゲーム会社でゲームエンジンが作られた • 現代では、ゲームエンジンなしで大型ゲームは作れない • ゲームエンジン＝ゲームの質に直結、ゲーム開発の技術を集積する場所 • Unreal Engine（Epic)とUnity3Dが生き残った • Unreal Engine アメリカ巨漢大砲主義の思想 • Unity 3D デンマーク（北欧）Do it yourself の思想

ジョブ・コントローラー（ナムコ、ゼビウスなど）三宅陽一郎「タスクシステムの起源について」 2016年年次大会予稿集 Digital Games Research
Association JAPAN Proceedings of 2016 Annual Conference

大型ゲームエンジン一覧（他にもたくさん）タイトルゲームエンジン名会社 Far Cry 3,4 DUNIA ENGINE 2
Ubisoft Montreal THE DIVISION snow drop engine Ubisoft (massive) Assassin’s creed: syndicate AnvilNext 2.0 game engine Ubisoft Montreal For Honor AnvilNext 2.0 game engine Ubisoft Montreal Rise of Tomb Raider Foundation engine Crystal Dynamics The Witcher 3 RED ENGINE CD PROJEKT Dragon Age : Inquisition frostbite engine EA DICE ゲームエンジン名会社汎用型 Unity3D Unity Technologies （デンマーク）汎用型 UNREAL ENGINE 4 Epic Games （米）汎用型 CryEngine CryTech （独）汎用型 Lumberyard Amazon 汎用型 Stingray Autodesk

メタバース物・運動データ構造・プログラム現実世界ツールでアーティスト・デザイナーが作成エンジニアがプログラミング
存在法則

原子分子＝原子＋力物質＝分子と力現象＝物質と力データオブジェクト＝データ＋プロエンティティ＝オブジェクト現象
＝エンティティ現実世界メタバース

データ処理オブジェクト＝データ＋プログラムエンティティ＝オブジェクトとプログラム現象＝エンティティ＋プログラムメタバース情報処理基礎（プログラミング基礎）
オブジェクト指向プログラミング大規模システムプログラミングシミュレーションプログラミング

https://www.moguravr.com/virtual-shibuya-8/

https://www.youtube.com/watch?v=1FOz5dMxn3s

ビックデータｘディープラーニングからシミュレーションｘディープラーニングへ

ゲームの中、ゲームの外ゲーム周辺AI （外＝開発、現実）ゲームAI （中＝コンテンツ）メタAI キャラクター AI ナビゲーション AI
開発支援 AI QA-AI 自動バランス AI インターフェース上のAI データマイニングシミュレーション技術ゲーム可視化ユーザーの生体信号プロシージャルAI

人工知能全域機械学習ディープラーニング統計学習コネクショニズムシンボリズムデジタルゲームAI ゲームAIはシンボリックAIから機械学習へ
今後10年かけて徐々にシフトする現在、社内でも研究中。

人工知能全域機械学習ディープラーニング統計学習コネクショニズムシンボリズムデジタルゲームAI 機械学習の導入には土台となるシミュレーション
（物理、仕組み）が必要シミュレーション技術

クラシックゲームを用いたディープラーニング環境構築 - 強化学習の発展-

はじめに

ゲームとディープラーニング現状 • この3年間で、ゲーム産業以外で、ゲームを用いたディープラーニングの研究が増加している。 • 当のゲーム産業では、それ程多くない。理由 • 強化学習（DQNなど）を研究するには、結局ルールを持つシ
ミュレーション空間を使う必要がある。 • データがないところでディープラーニングを活用したい • 現実空間で応用する前に箱庭で成長させたい • ほとんどすべて研究環境がオープンソースになっている。

年企業テーマ開発環境公開 2003 Microsoft 「Teo Feng」における強化学習 2005 Microsoft
「Forzamotor Sports」における強化学習 2013 DeepMind AtariのゲームをDQNで学習〇 2015 DeepMind 囲碁 AlphaGO 2017 AnyLogic 倉庫・機械などモデルのシミュレーション Microsoft 「パックマン」多報酬学習 Hybrid Reward Architecture for Reinforcement Learning 〇 2019 Google 「サッカーシミュレーター」による強化学習の研究〇 DeepMind 「Capture the flag」によるディープラーニング学習〇 Microsoft 「AirSim」ドローンシミュレーター〇 Nvidia 「ドライビングシミュレーター」 Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習〇 facebook 「CraftAssist」マインクラフト内で会話研究〇 CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト〇 facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究〇 OpenAI 「Dota2」OpenAIによる「OpenAIFive」〇 DeepMind 「StarCraft2」AlphaStar 〇 DeepMind 「Capture the Flag」QuakeIII エンジン〇 2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」〇 DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習〇 OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習〇

パックマンによる研究

年企業テーマ Open 2003 Microsoft 「Teo Feng」における強化学習 2005 Microsoft
「Forzamotor Sports」における強化学習 2013 DeepMind A tariのゲームをDQNで学習 2015 DeepMind 囲碁 AlphaGO 2017 AnyLogic 倉庫・機械などモデルのシミュレーション Microsoft 「パックマン」多報酬学習 Hybrid Reward Architecture for Reinforcement Learning 2019 Google 「サッカーシミュレーター」による強化学習の研究〇 DeepMind 「Capture the flag」によるディープラーニング学習 Microsoft 「AirSim」ドローンシミュレーター〇 Nvidia 「ドライビングシミュレーター」 Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習〇 facebook 「CraftAssist」マインクラフト内で会話研究〇 CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト〇 facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究〇 OpenAI 「Dota2」OpenAIによる「OpenAIFive」〇 DeepMind 「StarCraft2」AlphaStar 〇 DeepMind 「Capture the Flag」QuakeIII エンジン〇 2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」〇 DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習〇 OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習〇

ディープラーニングによるパックマンの目コピー（Nvidia, 2020） Learning to Simulate Dynamic Environments with GameGAN
https://nv-tlabs.github.io/gameGAN/

Learning to Simulate Dynamic Environments with GameGAN https://nv-tlabs.github.io/gameGAN/ ディープラーニングによるパックマンの目コピー（Nvidia,
2020）

面白い点 • 外側からだけでゲームをコピーする問題点 • 音などはどうするのか実用面 • クオリティ的には厳しいディープラーニングによるパックマンの目コピー
（Nvidia, 2020） Harm van Seijen, Mehdi Fatemi, Joshua Romoff, Romain Laroche, Tavian Barnes, Jeffrey Tsang “Hybrid Reward Architecture for Reinforcement Learning” https://arxiv.org/abs/1706.04208

Hybrid Reward Architecture for Reinforcement Learning （Microsoft, 2017） • 複数の報酬系を一つのニューラ
ルネットワークに盛り込む。 Harm van Seijen, Mehdi Fatemi, Joshua Romoff, Romain Laroche, Tavian Barnes, Jeffrey Tsang “Hybrid Reward Architecture for Reinforcement Learning” https://arxiv.org/abs/1706.04208

強化学習

強化学習ふりかえり

「Forzamotor Sports」における強化学習 2013 DeepMind AtariのゲームをDQNで学習 2015 DeepMind 囲碁 AlphaGO 2017 AnyLogic 倉庫・機械などモデルのシミュレーション Microsoft 「パックマン」多報酬学習 Hybrid Reward Architecture for Reinforcement Learning 2019 Google 「サッカーシミュレーター」による強化学習の研究〇 DeepMind 「Capture the flag」によるディープラーニング学習 Microsoft 「AirSim」ドローンシミュレーター〇 Nvidia 「ドライビングシミュレーター」 Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習〇 facebook 「CraftAssist」マインクラフト内で会話研究〇 CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト〇 facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究〇 OpenAI 「Dota2」OpenAIによる「OpenAIFive」〇 DeepMind 「StarCraft2」AlphaStar 〇 DeepMind 「Capture the Flag」QuakeIII エンジン〇 2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」〇 DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習〇 OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習〇

2000年に発行（昔はこの本しかなかった。今はたくさんある） • Sutton先生の、森北出版「強化学習」 https://www.morikita.co.jp/books/book/1990 • は、2000年の翻訳のままで、 • 2018年に新版 •
https://www.andrew.cmu.edu/course/10- 703/textbook/BartoSutton.pdf

強化学習とは • とりあえず行動してみる（ランダムでもいい） • 行動から得られるリターンによって行動の方針を変えること自分で例を考えてみましょう。 • 初めてのコミュニティーに入る時 • 研究とか
• 初めてさわるゲーム • サッカーわかんないけどとりあえず蹴ってみる • 部屋の片付け

強化学習とは？行動選択＝ポリシー（π）環境(Env) 行動（a）状態（Ｓ）報酬（R）報酬関数
環境のモデルはよくわからない。でも、行動をして、それに対する結果（＝報酬）が環境から返って来る。その報酬から、現在の状態と行動の評価を見直して、行動選択の方針を変えて行くことを強化学習という。

強化学習とは • とりあえず行動してみる（ランダムでもいい） • 行動から得られるリターンによって行動の方針を変えること • とりあえず行動してみる（ランダムでもいい） • 行動から報酬が得られる（低かろうと高かろうと） •
そこから行動に対して期待される報酬の指標を設定できる A Q R

Q-Learning とは • π：Q = 各アクションで期待される報酬の指標（意思決定：Qが一番大きいアクションを選択する） • S =
State • A = Action • R = Reward • Q (s,a) という関数を決める方法

Q キャラクターにおける学習の原理意思決定 A 行動の表現実際は、たくさんの学習アルゴリズムがある。 S R 結果の表現現状態の表現

世界五感身体言語知識表現型知識生成 Knowledge Making
意思決定 Decision Making 身体運動生成 Motion Making インフォメーション・フロー（情報回廊）記憶状態Sのとき関数Qで行動Aを評価行動の表現結果の表現意思決定 S R Q A1 A2 A3 行動とその結果から、意思決定を変化させる＝学習

強化学習（例）格闘ゲーム http://piposozai.blog76.fc2.com/ http://dear-croa.d.dooo.jp/download/illust.html 現状態の表現 S = 距離、速度、姿勢など

強化学習（例）格闘ゲームキックパンチ波動 R : 報酬＝ダメージ http://piposozai.blog76.fc2.com/
http://dear-croa.d.dooo.jp/download/illust.html A : アクション ℚ値＝0.4 ℚ値＝0.5 ℚ値＝0.1 ℚ : 期待される報酬

S（状態）,A（アクション）の空間離れているほどほど近いパンチ Q（離れている、パンチ） Q（ほどほど、パンチ） Q（近い、パンチ）キック Q（離れている、キック）
Q（ほどほど、キック） Q（近い、キック）波動拳 Q（離れている、波動拳） Q（ほどほど、波動拳） Q（近い、波動拳） A S

S（状態）,A（アクション）の空間離れているほどほど近いパンチ 0.7 0.6 0.9 キック 0.2
2.7 1.9 波動拳 0.1 3.5 1.1 A S

S,Aの空間が大きくなると学習を用いる学習＝Q(S,A)が自動的に入力される仕組みたとえば、こんな式を使う

新しいQ(s,a) 古いQ(s,a) 見直すべき指標となる量 Q(s,a)を変化させる度合い＝学習の速さを制御する（大きいと早い。早ければいいというわけではない。不安定になることもある. 小さい値なら、ゆっくりで安定する。ただし遅い。）学習率と言われる。

状態sで行動aを取ったときの報酬古いQ(s,a) γはそれをどれぐらい考慮に入れるか。 0なら将来のことは加味しない。１ならかなり考える。実際は0～1の間。割引率と呼ばれる。状態sで行動aを取ることで、状態s’になったけど、s’になることで、将来どれぐらい良い方向になったか。

https://club.informatix.co.jp/?p=2009 離散版

移った先の状態の良さ・悪さを反映する見込み（Q）と実際の報酬（ｒ）の差見込み（Q）と実際の報酬（ｒ）の差だが、行動a_t で移った先の状態が良いか悪いかを追加して反映。

Q（ほどほど、キック） Q（近い、キック）波動拳 Q（離れている、波動拳） Q（ほどほど、波動拳） Q（近い、波動拳） A S 状態sで行動aを取ることで、状態s’になったけど、s’になることで、将来どれぐらい良い方向になったか。 = この「ほどほど」の中でのQ値の最大値

LEARNING TO FIGHT T. Graepel, R. Herbrich, Julian Gold Published
2004 Computer Science https://www.microsoft.com/en-us/research/wp-content/uploads/2004/01/graehergol04.pdf

3 ft Q-Table THROW KICK STAND 1ft / GROUND 2ft
/ GROUND 3ft / GROUND 4ft / GROUND 5ft / GROUND 6ft / GROUND 1ft / KNOCKED 2ft / KNOCKED 3ft / KNOCKED 4ft / KNOCKED 5ft / KNOCKED 6ft / KNOCKED actions game states 13.2 10.2 -1.3 3.2 6.0 4.0 +10.0 Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products" http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx

Early in the learning process … … after 15 minutes
of learning Reward for decrease in Wulong Goth’s health Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products" http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx

Early in the learning process … … after 15 minutes
of learning Punishment for decrease in either player’s health Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products" http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx

Hopper Training Hopper Trained

Ralf Herbrich, Thore Graepel Applied Games Group Microsoft Research Cambridge
Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products" https://www.slideserve.com/liam/forza-halo-xbox-live-the-magic-of- research-in-microsoft-products

 Real time racing simulation.  Goal: as fast lap
times as possible.

Laser Range Finder Measurements as Features Progress along Track as
Reward

機械学習（例）FORZA MOTORSPORT におけるドライビング学習 Ralf Herbrich, Thore Graepel, Joaquin Quiñonero
Candela Applied Games Group,Microsoft Research Cambridge "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products" http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx

機械学習（例）FORZA MOTORSPORT におけるドライビング学習 • 揺らぎ • ライン – コーナーやそのコンビネーションに対し
て、どれぐらいスムーズに車をガイドするか。 • コーナーへの突入スピードとブレーキを踏むタイミングと。保守的か過激か。 • コーナーの頂点にどれぐらい近づくか、どれぐらいの速度でそこを抜けるか？ • コーナーを抜ける時のスピードとコーナーを回る時のスピード。 Drivatar がプレイヤーのコントロールから学習するもの Microsoft Research Drivatar™ in Forza Motorsport http://research.microsoft.com/en-us/projects/drivatar/forza.aspx

Candela Applied Games Group,Microsoft Research Cambridge "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products" http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx プレイヤーの特性を解析する特徴となる数値をドライブモデルに渡す

Candela Applied Games Group,Microsoft Research Cambridge "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products" http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx レーシングラインを事前に構築する。生成というよりテーブルから組み合わせる。

Candela Applied Games Group,Microsoft Research Cambridge "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products" http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx レーシングラインに沿わせるのではなく、理想とする位置とスピードからコントローラーの制御を計算して、物理制御によって車を運転する。

Forza motorsports (EA) Jeffrey Schlimmer, "Drivatar and Machine Learning Racing
Skills in the Forza Series" http://archives.nucl.ai/recording/drivatar-and-machine-learning-racing-skills-in-the-forza-series/

DQNを有名にした「AlphaGO」

DQN (Deep Q network)とは

Deep Q Learning (深層強化学習) Q-Learning × Deep Learning

Q-Learning とは • Q = 期待される報酬（意思決定関数） • S =
State （座標、速度、現在の姿勢） • A = Action （キック、パンチ、波動拳） • R = 報酬 • Q (s,a ) という関数を決める方法

意思決定 Decision Making 身体運動生成 Motion Making インフォメーション・フロー（情報回廊）記憶キャラクターにおける学習の原理行動の表現結果の表現意思決定 Q(s,a) 関数

Deep Q Network （DQN）とは • Q = 予想される報酬（意思決定関数） •
S = State （座標、速度、現在の姿勢） • A = Action （キック、パンチ、波動拳） • R = 報酬 • Q (s,a ) という関数を決める方法深層ニューラルネットワーク Deep Q Network

意思決定 Decision Making 身体運動生成 Motion Making インフォメーション・フロー（情報回廊）記憶キャラクターにおける学習の原理行動の表現状態・結果の表現意思決定ニューラルネットワーク (DQN)

Deep Q-Learning (2013) Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex
Graves, Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller (DeepMind Technologies) Playing Atari with Deep Reinforcement Learning http://www.cs.toronto.edu/~vmnih/docs/dqn.pdf 画面を入力操作はあらかじめ教えるスコアによる強化学習

学習過程解析 Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis
Antonoglou, Daan Wierstra, Martin Riedmiller (DeepMind Technologies) Playing Atari with Deep Reinforcement Learning http://www.cs.toronto.edu/~vmnih/docs/dqn.pdf

AlphaGO 膨大な棋譜のデータ（人間では多過ぎて読めない）この棋譜をそっくり打てるように学習する自己対戦して棋譜を貯めるこの棋譜を
そっくり打てるように学習する AlphaGO

• Pπ ロールアウトポリシー（ロールアウトで討つ手を決める。 Pπ（a|s） sという状態でaを討つ確率） • Pσ Supervised Learning Network
プロの討つ手からその手を討つ確率を決める。Pσ（a|s）sという状態でaを討つ確率。 • Pρ 強化学習ネットワーク。Pρ（学習済み）に初期化。 • Vθ(s’) 局面の状態 S’ を見たときに、勝敗の確率を予測する関数。つまり、勝つか、負けるかを返します。 Mastering the game of Go with deep neural networks and tree search http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html https://deepmind.com/research/alphago/

囲碁AI：位置評価関数から位置評価ニューラルネットワークへ Mastering the game of Go with deep neural
networks and tree search http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html https://deepmind.com/research/alphago/ S Q

モンテカルロ木探索とは（MCTS）

現在の盤面の状態負勝率 : 4/5 勝率 : 2/5 勝率 :
3/5 基本、乱数によるプレイアウト勝候補となる手

W_1（＝８０） W_2（＝７０） W_3（＝1２０）試行回数報酬合計 3回２回４回全試行回数 9回
20ドル/回マシン１マシン２マシン３ 120 80 + 2 ∗ 9 80 70 40 + 2 ∗ 9 40 80 60 + 2 ∗ 9 60 UCB1 掛け金総額 60ドル 40ドル 80ドルプレイヤー

現在のゲーム状態次の一手のゲーム状態次の次の一手のゲーム状態末端次の一手の中で一番リグレットの値が一番高いノード一回シミュレーションを加えたら、それまでのノードに結果を反映してリグレット値を更新次の次の一手の中で一番リグレットの値が一番高いノード
次の次の次の一手の中で一番リグレットの値が一番高いノード Value

敵チームＡＩチームＡＩチームゲート

アクション・バケット末端のノード選択されたアクション・バケット現在のゲーム状態 Combat := if prev( wait
) then Artillery AttackOrder SpecialOrder UseGate Openings := if root then WaitUntilContact WaitUntilAmbush PuckStealth

囲碁AI：位置評価関数から位置評価ニューラルネットワークへ Mastering the game of Go with deep neural
networks and tree search http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html https://deepmind.com/research/alphago/ S Q R

Deep Mind社「Agent 57」 • Atariの古典的なゲーム57個を人間よりうまくプレイできるようになった Deep Mind社のAI •
https://deepmind.com/blog/article/Agent57-Outperforming- the-human-Atari-benchmark

DQNのさらなる発展 • 最後までスコアに苦しんだゲーム • Montezuma’s Revenge • Pitfall • Solaris
• Skiing Agent57: Outperforming the human Atari benchmark （DeepMind） https://deepmind.com/blog/article/Agent57-Outperforming-the-human-Atari-benchmark

Microsoft Researchにおけるゲーム会話研究テキストアドベンチャーゲームを利用した対話学習 (2019)

TextWorld • マイクロソフトが構築したテキストアドベンチャーの学習環境 • 50ほどのテキストアドベンチャーを内包している • TextWorld: A Learning Environment
for Text-based Games • https://arxiv.org/abs/1806.11532 • • TextWorld: A learning environment for training reinforcement learning agents, inspired by text-based games • https://www.microsoft.com/en-us/research/blog/textworld-a-learning- environment-for-training-reinforcement-learning-agents-inspired-by-text- based-games/ • • Getting Started with TextWorld • https://www.youtube.com/watch?v=WVIIigrPUJs https://www.microsoft.com/en-us/research/project/textworld/

https://www.youtube.com/watch?v=WVIIigrPUJs

Microsoft: TextWorld TextWorld: A Learning Environment for Text-based Games https://arxiv.org/abs/1806.11532

TextWorld: A Learning Environment for Text-based Games https://arxiv.org/abs/1806.11532

Facebook AIにおけるゲーム会話研究 I マインクラフトを用いた対話学習(2019)

Microsoft：Malmo • エージェントを学習させる環境を提供 • https://www.microsoft.com/en-us/research/project/project-malmo/ • https://blogs.microsoft.com/ai/project-malmo-using-minecraft-build- intelligent-technology/ • チュートリアル
• https://techcommunity.microsoft.com/t5/azure-ai/introducing- reinforcement-learning-on-azure-machine-learning/ba-p/1403028

facebook:「CraftAssist」(2019) • マインクラフトでプレイヤーと共同作業可能なAIを実装するためのオープンソースプラットフォーム https://gigazine.net/news/20190719-craftassist- collaborative-ai-minecraft/ • テキスト会話によって、エージェント（キャラクター）に意味を解釈させる。
「青い家を建てろ」など。 CraftAssist: A Framework for Dialogue-enabled Interactive Agents - Facebook Research https://research.fb.com/publications/craftassist-a-framework-for-dialogue-enabled-interactive-agents/ Open-sourcing CraftAssist, a platform for studying collaborative AI bots in Minecraft https://ai.facebook.com/blog/craftassist-platform-for-collaborative-minecraft-bots/

カーネギーメロン大学「MineRL」 • カーネギーメロン大学が NeurIPSで主催するマインクラフトを題材にした強化学習コンテストのフレームワーク • https://ai-scholar.tech/articles/treatise/minerl-ai-353 • https://minerl.io/competition/ •
https://www.aicrowd.com/challenges/neurips-2020-minerl-competition 論文 • https://arxiv.org/pdf/1907.13440.pdf • https://arxiv.org/abs/1904.10079 • https://www.microsoft.com/en-us/research/project/project-malmo/ • https://minerl.io/docs/ • https://slideslive.at/38922880/the-minerl-competition?ref=search

MineRL: A Large-Scale Dataset of Minecraft Demonstrations https://arxiv.org/pdf/1907.13440.pdf

Facebook AIにおけるゲーム会話研究 II テーブルトークRPGを用いた対話学習(2019)

LIGHT（facebook.ai, 2019）（テキストアドベンチャーフレームワーク） • クラウドワーカーを用いてゲーム設計を募集 • クラウドワーカーに役を割り当てて会話チャットでデータ収集
• この上で自然言語会話を研究 https://parl.ai/projects/light/ https://ai.facebook.com/blog/introducing-light-a-multiplayer-text-adventure-game-for-dialogue-research/

（faceboo ai） Prithviraj Ammanabrolu, Jack Urbanek, Margaret Li, Arthur Szlam,
Tim Rocktäschel, Jason Weston How to Motivate Your Dragon: Teaching Goal-Driven Agents to Speak and Act in Fantasy Worlds https://arxiv.org/abs/2010.00685

https://parl.ai/projects/light/

（faceboo ai） Prithviraj Ammanabrolu, Jack Urbanek, Margaret Li, Arthur Szlam,
Tim Rocktäschel, Jason Weston How to Motivate Your Dragon: Teaching Goal-Driven Agents to Speak and Act in Fantasy Worlds https://arxiv.org/abs/2010.00685

Dota2における人工知能（OpenAI, 2019）テーブルトークRPGを用いた対話学習

日本におけるゲームセンターの対戦文化の流れ（1980年代～）アメリカを中心とするFPS対戦の流れ（2000年前後～）韓国におけるeスポーツ文化の流れ（1997年～）世界的なMOBAスタイルのチーム対戦の流れ（2010年～） 1985 1990 1995 2007 ⅬＡＮ
ゲームセンターの対戦台インターネット高速インターネット・動画配信実際の現場でギャラリー観戦テレビなどで観戦インターネットで観戦ゲーム聴衆の誕生

Dota2 eSportsで大人気 OpenAI Five: Dota Gameplay https://www.youtube.com/watch?v=UZHTNBMAfAA 解説：『Dota 2』における人間側のチャンピオンチームとAIチームの戦い https://alienwarezone.jp/post/2316

OpenAI Five https://openai.com/projects/five/ Christopher Berner, et al.,“Dota 2 with Large
Scale Deep Reinforcement Learning” https://arxiv.org/abs/1912.06680

HERO ベクター認識過程認識情報ベクター HERO ベクター HERO ベクター HERO
ベクター各HERO 埋め込みバリュー・ファンクション LSTM アクション Tied Weight OpenAI Five https://openai.com/projects/five/ Christopher Berner, et al.,“Dota 2 with Large Scale Deep Reinforcement Learning” https://arxiv.org/abs/1912.06680

ゲーム（Dota2）コントローラー Forward Pass GPU (512GPUs) 新しいパラメータを配布ロールアウトワーカー 57600ワーカー
51200CPUs （Python）アクション各ワーカーから0.25秒おきに監視 Exp. Buffer 各ワーカーから1分おきに 256サンプルを送信 GPU 1分（オプティマイザーで言えば32ステップ）ごとに新しいパラメータを渡す 2秒ごとに 1920サンプルオプティマイザー（512GPUs） 2秒おきに NCCL（Nvidia）のAllreduceのライブラリによる全GPUの Gradientの平均化

時系列空間ストラテジーゲームの時空間自発的なプラン状況的に展開せざる得ないプラン状況的に展開せざる得ないプランあるゲーム状況ある
ゲーム状況時間

StarCraft~StarCraft2における人工知能（DeepMind, 2019）

StarCraftのAI • Santiago Ontañon, Gabriel Synnaeve, Alberto Uriarte, Florian Richoux,
David Churchill, et al.. • “A Survey of Real-Time Strategy Game AI Research and Competition in StarCraft”. IEEE Transactions on Computational Intelligence and AI in games, IEEE Computational Intelligence Society, 2013, 5(4), pp.1-19. hal- 00871001 • https://hal.archives-ouvertes.fr/hal-00871001

StarCraftの7つのアーキテクチャ (2010-2020)

戦略思考ハイレベル、抽象的３分～知識収集と学習敵のモデル化戦略決定部隊形成命令プランの構築戦術思考
中間レベル 30秒～1分スカウティング戦闘タイミングと位置ユニットと建築物の配置反射コントロール低レベル、物理的～1秒小ユニットマルチエージェンパス検索 StarCraft 一般的なアーキテクチャ

戦闘ゴールマネージャーユニットグループベイジアン・ネット BroodWarBotQ 仲介モジュール知能マップマネージャー
技術推定ユニットフィルター資源管理ワーカーマネージャー基地マネージャー生産マネージャー建築マネージャー StarCraft BroodWarQ Bot アーキテクチャ

知能建築命令マネージャースカウトマネージャー資源マネージャーマクロマネージャー拡張マネージャー
供給マネージャー部隊マネージャー封鎖経路マネージャー戦略戦術タスクマネージャー建築設置モジュールタスク n StarCraft SkyNet Bot アーキテクチャ

資源管理戦闘部隊マネージャー防御マネージャー戦闘マネージャー AIUR ムードマネージャー知能仲介モジュール
スカウトマネージャー情報マネージャーワーカーマネージャー基地マネージャー生産マネージャー建築マネージャースパイマネージャー消費マネージャー StarCraft AIUR Bot アーキテクチャ

StarCraft~StarCraft2における人工知能（DeepMind, 2019） Oriol Vinyals, et al., “StarCraft II:
A New Challenge for Reinforcement Learning”, https://arxiv.org/abs/1708.04782 PySC2 - StarCraft II Learning Environment https://github.com/deepmind/pysc2

StarCraft II API StarCraft II バイナリー PySC2 エージェントアクション select_rect(p1,
p2) or build_supply(p3) or … 観察資源可能なアクション建築命令スクリーン（ゲーム情報）ミニマップ（特定の情報）報酬 -1/0/+1 SC2LE

評価値 Value Network Baseline features アクション・タイプディレイユニット選択命令発行ターゲット選択
Residual MLP MLP MLP Pointer Network Attention D 分散表現 MLP 分散表現 MLP 分散表現 MLP Embedding MLP コア Deep LSTM スカラーエンコーダー MLP エンティティエンコーダートランスフォーマー空間エンコーダー ResNet ゲームパラメーター群エンティティミニマップ

Oriol Vinyals, et al., “StarCraft II: A New Challenge for
Reinforcement Learning”, https://arxiv.org/abs/1708.04782 PySC2 - StarCraft II Learning Environment https://github.com/deepmind/pysc2

DeepMind社「Capture the flag」によるディープラーニング学習 (2019年)

シミュレーション現実機械学習（ディープラーニング） https://deepmind.com/blog/article/capture-the-flag-science Human-level performance in
3D multiplayer games with population-based reinforcement learning Max Jaderberg et al. Science 31 May 2019: Vol. 364, Issue 6443, pp. 859-865 DOI: 10.1126/science.aau6249

Human-level performance in 3D multiplayer games with population-based reinforcement learning
Max Jaderberg et al. Science 31 May 2019: Vol. 364, Issue 6443, pp. 859-865 DOI: 10.1126/science.aau6249

π ゲーム画像ゲーム画像ゲーム画像ゲーム画像ゲーム画像サンプルされた潜在変数アクション内部報酬
ｗ勝敗判定方針ゲームポイントゆっくりとしたRNN 高速なRNN Xt 𝑄𝑄𝑡𝑡 𝑄𝑄𝑡𝑡+1 Human-level performance in 3D multiplayer games with population-based reinforcement learning Max Jaderberg et al. Science 31 May 2019: Vol. 364, Issue 6443, pp. 859-865 DOI: 10.1126/science.aau6249

赤チーム陣地青チーム陣地赤フラグを青チーム陣地に持ち帰る青エージェント赤フラグが赤チーム陣地に再び自動返却されるタイミングを待つ青エージェント赤エージェント Human-level performance
in 3D multiplayer games with population-based reinforcement learning Max Jaderberg et al. Science 31 May 2019: Vol. 364, Issue 6443, pp. 859-865 DOI: 10.1126/science.aau6249

OpenAI「HIDE AND SEEK」による学習 (2019年)

「かくれんぼ」によってマルチエージェントを学習させる • オブジェクトがあって、動かしたり固定したりできる。 • オブジェクトは直方体、傾斜台、長い板がある。 • 一度固定したオブジェトは動かせない
• エージェントは次第にオブジェクトを利用してかくれんぼをするようになる • ６種類の戦術を順番に発見・学習していく https://openai.com/blog/emergent-tool-use/ Emergent Tool Use From Multi-Agent Autocurricula (2019) Bowen Baker, Ingmar Kanitscheider, Todor Markov, Yi Wu, Glenn Powell, Bob McGrew, Igor Mordatch https://arxiv.org/abs/1909.07528

https://www.youtube.com/watch?v=kopoLzvh5jY

Emergent Tool Use From Multi-Agent Autocurricula (2019) Bowen Baker, Ingmar
Kanitscheider, Todor Markov, Yi Wu, Glenn Powell, Bob McGrew, Igor Mordatch https://arxiv.org/abs/1909.07528

自分の座標周囲の状況（LIDARによる）他のエージェントの座標ボックスの座標、速度傾斜台の座標、速度全結合
全結合全結合自分コンボリューション円方位ID 全結合エージェント埋め込みベクトルボックスボックスマスクされた平均プーリングエンティティ間のアテンションマスクされた要素（壁などで見えない） LSTM 移動アクションつかむアクションロックアクション自分エージェントボックス傾斜台メモリーステート

Project PAIDIA • マイクロソフトは、「ゲームインテリジェンスグループ」 • https://www.microsoft.com/en-us/research/theme/game-intelligence/ • を設置して３０人程の研究者でゲームAIの研究をしています。 • https://www.microsoft.com/en-us/research/project/project-paidia/#!people
• これまでは、チェスや囲碁、そして最近ではマインクラフトを題材にしてエージェントの知能を作る「Project Malmo」などを推進してきましたが、 • GDC2020で「プロジェクト PAIDIA」を発表しました。 • https://innovation.microsoft.com/en-us/exploring-project-paidia • これは、Ninja Theory 社と一緒にアクションゲームでプレイヤーと強調するキャラクターの知能を作るプロジェクトです。

• ３つの研究を柱として（かなり専門的ですが）推進しています。 • https://www.microsoft.com/en-us/research/blog/three-new-reinforcement- learning-methods-aim-to-improve-ai-in-gaming-and-beyond/ 不確定な状況下での意思決定 • https://www.microsoft.com/en-us/research/publication/conservative- uncertainty-estimation-by-fitting-prior-networks/ リアルタイムで蓄積される記憶の整備
• https://www.microsoft.com/en-us/research/publication/amrl-aggregated- memory-for-reinforcement-learning/ 不確定な状況下での強化学習 • https://www.microsoft.com/en-us/research/publication/varibad-a-very- good-method-for-bayes-adaptive-deep-rl-via-meta-learning/ Project PAIDIA

第I部：デジタルゲームAI 第II部：メタバースとスマートシティ

情報処理学会７月号（電子）人工知能学会誌７月号

参考文献 • 三宅陽一郎「デジタルゲームAI技術を応用したスマートシティの設計」人工知能学会誌、37巻4号（2022年） 10ページ • 三宅陽一郎 • 「メタバースの成立と未来
―新しい時間と空間の獲得へ向けて―」, 情報処理, Vol.63 No.7 （2022年） 34ページ https://ipsj.ixsq.nii.ac.jp/ej/?action=pages_view_main&active_action=repository_view_main_item_detail&item_id=218538&item_no=1&page_id=13&block_id=8 https://www.jstage.jst.go.jp/article/jjsai/37/4/37_436/_article/-char/ja/

スマートシティ

データ収集（DataSF, CityVerve）サービス https://www.softbank.jp/biz/blog/business/articles/202003/overseas-smart-city/

スマートシティの全体設計

空間全般に関する思考メタAI, キャラクターAIの為に空間認識のためのデータを準備ナビゲーション・データの管理パス検索戦術位置解析オブジェクト認識メタAI エージェントを動的に配置レベル状況を監視エージェントに指示ゲームの流れを作る Order Ask & Report ゲーム全体をコントロール Support query query 頭脳として機能 MCS-AI動的連携モデル（三宅,2020）

都市全体の知能（意識）交通全般を制御するAI 各エリアを監視・制御するAI 各ビルを監視・制御するAI 道路を監視・制御するAI 各広場を
監視・制御するAI 人の流れを監視・制御するAI 抑止・委任報告抑止・委任報告監視制御人ドローンロボットデジタルアバター報告命令人監視制御監視制御協調協調協調・命令監視制御デジタルツイン／メタバス／世界モデル都市キャラクターAI スパ｜シャル AI メタAI 空間記述表現協調協調

都市環境アクターネットワーク人工知能（メタAI, キャラクターAI, スパーシャルAI）都市の人工知能システム都市の実体（物質、仕組み、ネットワーク構造）

都市のアクターネットワーク物理的な都市都市の人工知能都市の意識（都市の無意識）（都市の身体）

都市を囲う環境世界命令の構成世界モデル世界シミュレーション都市のセンサー群都市のアクター群スパーシャルAI 認識の
形成意思の決定都市のエージェント群メタAI （都市の人工知能）キャラクターAI

空間型AIの作成

スマート環境アクタースマートオブジェクトエージェントスマートポイントスマートスペースエージェントエージェント制御制御制御
ドアドアノブスペースオブジェクト（物）ポイント（座標）

エージェント主体客体エージェント主体客体転換環境アクタースマート環境アクター
主客転換制御

メタAI エージェントエージェント自律制御スマート環境アクター制御スマート環境アクター制御スマートスペーススマートオブジェクトスマートポイントコミュニケーションコミュニケーション

メタAI エージェントエージェント自律制御スマート環境アクター制御スマート環境アクター制御スマートスペーススマートオブジェクトスマートポイントコミュニケーションコミュニケーション
コモングラウンド

（メッシュ）コスト : 0.5 見通し: 1.0 地表：床推奨高度：5m （メッシュ）
コスト : 0.5 見通し: 1.0 地表：床推奨高度：10m （メッシュ）コスト : 2.5 見通し: 1.0 地表：土推奨高度：10m 壁面：ガラス壁との衝突は必ず回避してくださいエージェントナビゲーション・メッシュ（メッシュ）コスト : 0.5 見通し: 1.0 地表：床推奨高度：7m エレベーターの入り口：使用する場合は、メッセージ001を送ってください空間記述表現

物理的都市空間スマートスペースメタバース

空間型AIの制御に入る車メタAI エージェントエージェント自律制御スマート環境アクター制御スマート環境アクター制御スマートスペーススマートオブジェクトスマートポイントコミュニケーション
コミュニケーション

現実空間のためのキャラクターAI, メタAIの検証

オンラインゲームメタバース物理空間世界観強固、かつ詳細なるべく緩い設定現実のまま物語大きな物語を準備物語に沿って
イベントが展開特になしユーザーが作り出す現実の経済、人間関係（ソーシャル）、社会、など無限の要素キャラクター（人）の役割世界、物語の中で最初から定義特になしユーザーの関係の中で発生不明（実存）オンラインゲーム物理空間純粋なメタバース（空っぽの空間）

現実世界デジタルツインミラーワールドスマートシティメタAI 都市メタバース（世界モデルとして機能する）
同期現実を認識する現実を予測する

垂直構造（現実との関連性）水平構造(世界のスケールの広がり) メタバース現実世界デジタル世界スマートシティミラーリングによる同期

現実世界 (1) お金の動き (2) 物の動き (3) 人・動物の動き (4) 自然の動きデジタル
ツイン (現実世界そっくりのメタバース) 同期引き写しミラーワールドスマートシティセンシングと情報取り込みによる(1)-(4)の同期ロボット・AI・情報提示によるサービス・干渉

広場森都市大学道路同期同期同期同期同期
現実と同期するメタバース

奈良の鹿ミラーワールド同期（ミラー）現実メタバース本物の鹿デジタルツイン鹿現実とメタバースをつなぐ

物理空間シミュレーション空間物理＝シミュレーション混合空間

現実世界現実世界センサーエフェクタデジタルツイン意思決定・シミュレーションゲームエンジン都市のエージェントの
エージェント・アーキテクチャ情報経路

現実世界現実世界センサーエフェクタデジタルツイン × 世界モデル (ディープラーニング)
都市の世界モデルの獲得世界モデルシミュレーション意思決定都市の夢を見るシミュレーションエンジン都市メタAIのエージェント・アーキテクチャ情報経路

物理世界への作用（指令・行為）知能物理世界情報収集（知覚）メタバース（集合知性）

メタバース情報の蓄積シミュレーションによる予測人間の叡知一つの集合知性として機能する物理空間への作用
センサー意思決定エフェクター物理空間からの情報物理空間への作用集合知性のエージェント・アーキテクチャ

物理世界物理世界デジタル世界物理世界集合知性メタバース物理世界機械 Level I
Level 0 Level III Level II 意識の変容人とデジタル空間の融合物理世界

活動神経網知覚神経網作用（行為）内的世界知能物理世界物理世界のリアリティ反作用（知覚）

活動神経網知覚神経網反作用（知覚）作用（行為）内的世界知能シミュレーション世界シミュレーション世界のリアリティ

物理世界への作用（指令・行為）知能物理世界情報収集（知覚）メタバース（集合知性）

シミュレーション

ゲームエンジンのUnityにPLATEAUのモデルを入れた画面。モデルは、品川駅周辺のモデル～都市全体の外観～～道路～ PLATEAUは建物のモデルのみなので、市民が実際に歩くことになる道路は自作。 Pythonでの数値シミュレーション同様、この道
路1つ1つにサービスの水準を設定し、市民が通ると効用が得られるような画面を作る。今後の展望：実際の都市の3Dモデルによるシミュレーション石政龍矢三宅陽一郎「メタAI型スマートシティ形成の提唱－」第64回土木計画学研究発表大会、2021年12月

仮想空間シミュレーションの動画シミュレーションを行っている状況を動画で紹介する。動画内で赤く動いているのが市民である。市民は品川駅を目指して動き、その過程で効用が計算されるように実装している。石政龍矢三宅陽一郎「メタAI型スマートシティ形成の提唱－」第64回土木計画学研究発表大会、2021年12月

メタAI型スマートシティの有効性の検証（Pythonによる数値シミュレーション）メタAIの有効性を検証するために、まずはPythonによる数値シミュレーションを行う。実験で想定すること市民は、目的地に着くまでに何本かの道路を歩く。市民は、バリアフリーが充実している道路等、その道路のもともとの公共サービスの充実度（サービスの水準）に応じて、効用を得る。さらに、各道路には一体ずつAIエージェントが配置され、AIエージェントは市民から一人を選んで公共サービスを行う。選ばれた市民は、その道路から得られる効用が、さらに増加する。メタAIは、AIエージェントが重複して同じ市民を選ばないように命令し、公共サービスを広く全体に行き渡らせる。道路1
道路2 メタAI 左の市民は前の道路で選ばれたので、候補から外しなさい石政龍矢三宅陽一郎「メタAI型スマートシティ形成の提唱－」第64回土木計画学研究発表大会、2021年12月

メタAIのスマートシティへの活用石政龍矢三宅陽一郎「メタAI型スマートシティ形成の提唱－PLATEAUデータを用いたマルチエージェントシミュレーションの観点から－」第64回土木計画学研究発表大会、2021年12月

メタAI型スマートシティの有効性の検証横軸はシミュレーションの回数、縦軸は社会全体の効用について、メタAIがある場合の効用から、ない場合の効用を引いたもの全ての状況において、メタAIを導入した方が社会全体の効用が高くなるメタAIがある場合とない場合の差各パターン効用の差
～留意点～検証の目的はメタAIが上手く機能することの確認であるため、効用の差の大きさにはあまり意味はない石政龍矢三宅陽一郎「メタAI型スマートシティ形成の提唱－」第64回土木計画学研究発表大会、2021年12月

メタバース

メタバースの定義

メタバースオンラインゲーム現実

オンラインゲームメタバース物理空間世界観強固、かつ詳細なるべく緩い設定現実のまま物語大きな物語を準備物語に沿って
イベントが展開特になしユーザーが作り出す現実の経済、人間関係（ソーシャル）、社会、など無限の要素キャラクター（人）の役割世界、物語の中で最初から定義特になしユーザーの関係の中で発生不明（実存）オンラインゲーム物理空間純粋なメタバース（空っぽの空間）オンラインゲームとメタバースの違い

検索エンジン SNS メタバース検索サーバーユーザーユーザータイムラインデジタル空間インタラク
ションデファクト・メジャーの遷移

メタバース SNS 検索エンジン現実の人間関係現実の情報現実の情報現実の人間関係現実の世界の状態現実の情報現実の深度
仮想空間のリアリティ

デジタル世界現実世界垂直構造（現実との関連性）水平構造(世界のスケールの広がり) オンラインゲームメタバースデジタル空間の水平構造と垂直構造

時代メタバース世界の多様化 2006 セカンドライフ 2008 meet-me 2018 2006 Roblox 2009
Internet Adventure 2012 The Sandbox 2008 PlayStation Home 2011 2021 Horizon Worlds 2008 ai sp@ce メタバース創成記メタバースとゲーム空間の融合セカンドライフの影響メタバースと現実空間・経済との融合 2017 フォートナイト 2022 仮想通貨SAND導入(2017年-) 2003 EVE ONLINE 2015 2000 Phantasy Star Online / Phantasy Star Online 2 UGCを軸としたオンラインゲームアイテム課金モデル仮想通貨の隆盛

メタバースとソーシャル

ソーシャル空間ゲーム空間ソーシャル空間メタバースソーシャル空間
1990 2010 2000 2020 オンラインゲームにおいて徐々にソーシャル的要素が入れられていった。SNSに対抗する必要があった。 1990年代においてゲームはソロプレイかその場の数人でするものであった。ゲーム的要素の少ないソーシャル空間をメインとするメタバースが台頭する。しかし、ゲームとはつながっている。ゲーム的要素がまったくない、独立したソーシャル空間が成立する。SNSの延長としてのソーシャル空間。 SN S SNS SNS ソーシャル空間 SNSの台頭と拡大ゲーム空間ゲーム空間 SNS＋ゲーム空間＝メタバース

ゲーム空間とソーシャル空間の関係関係図特徴ゲーム空間をメインとしつつ、その周辺のソーシャル空間を配置するゲーム空間を補完する形、或いはゲーム空間で満たされない部分をソーシャル空間においてみたすよ
うに設計する。たとえば、ゲーム空間が戦闘であれば、ソーシャル空間は音楽・演劇など。ソーシャル空間をメインとしつつ、その中にゲーム空間が埋め込まれる。ソーシャル空間がメインであり、そこにそれぞれ独立したゲーム空間が埋め込まれる。多くの場合、ユーザーが作成したミニゲームが点在する形となる。ゲーム空間-ソーシャル空間一体型ゲーム空間とソーシャル空間の区別ではない。あらゆる場所がゲーム空間であり、ユーザーが望めば、あらゆる空間で交流が可能である。ゲーム空間ソーシャル空間ゲーム空間ゲーム空間ゲーム空間ゲーム空間ソーシャル空間 Roblox Sandbox フォートナイトあつ森などソーシャル空間

メタバース＝ゲーム空間の解放オンラインゲーム

人人テキストテキスト人人画像/声画像/声人人
擬似身体・声擬似身体・声空間メタバースオンライン会議 SNS・チャットなど拡張するコミュニケーション

人エージェントエージェントエージェント
エージェントエージェントエージェント人エージェントエージェントエージェントエージェントエージェントエージェント人エージェントエージェントエージェントエージェントエージェントエージェントエージェント人-エージェント-エージェント-人関係人-人関係から人-AI-AI-人関係へ

文化社会文化は社会を変える AI文化はAIを変える集積された文化を編纂し促進するAI ＝科学者・芸術家 AI文化はAIが集積するエージェント
エージェントエージェントエージェントエージェントエージェントエージェントエージェントエージェント

ゲーム世界プレイヤー（主人公）プレイするバーチャルアイドルプロデューサー応援する・プロデュースする
ゲーム世界（eSports) 観戦者観戦するメタバース一参加者参加するデジタル世界への参加の仕方の変化デジタル空間への参加の仕方の変化

メタバース（コモングラウンド）

スマートシティとメタバースの融合、人間の行動変容

空間全般に関する思考メタAI, キャラクターAIの為に空間認識のためのデータを準備ナビゲーション・データの管理パス検索戦術位置解析オブジェクト認識メタAI エージェントを動的に配置レベル状況を監視エージェントに指示ゲームの流れを作る Order Ask & Report ゲーム全体をコントロール Support query query 頭脳として機能

現実世界デジタルツイン (現実世界そっくりのメタバース) 相互作用ミラーワールドスマートシティセンシング
AIによる干渉

現実世界デジタルツインミラーワールドスマートシティメタAI 都市メタバース（世界モデルとして機能する）
同期引き写し現実を認識する現実を予測する

活動神経網知覚神経網作用（行為）内的世界知能物理世界物理世界のリアリティ反作用（知覚）

活動神経網知覚神経網反作用（知覚）作用（行為）内的世界知能シミュレーション世界シミュレーション世界のリアリティ

人の知的レベル＝環境との相互作用による知的行動人環境（世界）知的行動知的行動の拡大

環境（世界）知的行動知的行動の拡大人他者（自律的存在）信頼感情の生成人の知性の拡大

スマートシティエージェント知的行動知的行動の拡大人メタAI スマートシティによる知的行動の拡大

新しい現実スマートシティエージェント知的行動知的行動の拡大メタバース人メタAI 人の知性の拡大

デジタルゲームから現実＝仮想融合世界へこれまでの研究：デジタルゲームの人工知能の汎用的フレームの構築これからの研究：都市のための人工知能の汎用的フレームの構築

これまでの研究：デジタルゲームの人工知能の汎用的フレームの構築これからの研究：都市のための人工知能の汎用的フレームの構築人工知能が人間を理解すること人工知能が社会を理解することデジタルゲームから現実＝仮想融合世界へ

ゲームAI、メタバース、スマートシティ

ゲームAI、メタバース、スマートシティ

More Decks by miyayou

Other Decks in Science

Featured

Transcript