ゲームAI研究の新展開 - PCGML, PCGRL-

三宅陽一郎 2023.6.7 @人工知能学会全国大会ゲームAI研究の新展開 - PCGML, PCGRL- https://www.facebook.com/youichiro.miyake https://miyayou.com/
[email protected] @miyayou

• [2J1-KS-20] ゲームAI研究の新展開 • 2023年6月7日(水) 09:00 〜 10:40 J会場 (中会議室
B3) • オーガナイザ：伊藤毅志、山本雅人、片寄晴弘、池田心 • https://confit.atlas.jp/guide/event/jsai2023/session/2J01-01/detail ゲームAI研究の新展開

ゲームAI研究の新展開 • 著者伊藤毅志編著 • 頁360頁 • ISBN978-4-274-23077-6 •
発売日2023/07/04 • 発行元オーム社 • https://www.ohmsha.co.jp/book/9784274230776/

My Works (2004-2023) AI for Game Titles Books

近著

デジタルゲームにおける記号主義からコネクショニズムへ

DeepMind StarCraft II Demonstration https://www.youtube.com/watch?v=cUTMhmVh1qs

StarCraftのAI • Santiago Ontañon, Gabriel Synnaeve, Alberto Uriarte, Florian Richoux,
David Churchill, et al.. • “A Survey of Real-Time Strategy Game AI Research and Competition in StarCraft”. IEEE Transactions on Computational Intelligence and AI in games, IEEE Computational Intelligence Society, 2013, 5(4), pp.1-19. hal- 00871001 • https://hal.archives-ouvertes.fr/hal-00871001

StarCraftの7つのアーキテクチャ (2010-2020)

戦略思考ハイレベル、抽象的３分～知識収集と学習敵のモデル化戦略決定部隊形成命令プランの構築戦術思考
中間レベル 30秒～1分スカウティング戦闘タイミングと位置ユニットと建築物の配置反射コントロール低レベル、物理的～1秒小ユニットマルチエージェンパス検索 StarCraft 一般的なアーキテクチャ

戦闘ゴールマネージャーユニットグループベイジアン・ネット BroodWarBotQ 仲介モジュール知能マップマネージャー
技術推定ユニットフィルター資源管理ワーカーマネージャー基地マネージャー生産マネージャー建築マネージャー StarCraft BroodWarQ Bot アーキテクチャ

知能建築命令マネージャースカウトマネージャー資源マネージャーマクロマネージャー拡張マネージャー
供給マネージャー部隊マネージャー封鎖経路マネージャー戦略戦術タスクマネージャー建築設置モジュールタスク n StarCraft SkyNet Bot アーキテクチャ

資源管理戦闘部隊マネージャー防御マネージャー戦闘マネージャー AIUR ムードマネージャー知能仲介モジュール
スカウトマネージャー情報マネージャーワーカーマネージャー基地マネージャー生産マネージャー建築マネージャースパイマネージャー消費マネージャー StarCraft AIUR Bot アーキテクチャ

StarCraft~StarCraft2における人工知能（DeepMind, 2019） Oriol Vinyals, et al., “StarCraft II:
A New Challenge for Reinforcement Learning”, https://arxiv.org/abs/1708.04782 PySC2 - StarCraft II Learning Environment https://github.com/deepmind/pysc2

StarCraft II API StarCraft II バイナリー PySC2 エージェントアクション select_rect(p1,
p2) or build_supply(p3) or … 観察資源可能なアクション建築命令スクリーン（ゲーム情報）ミニマップ（特定の情報）報酬 -1/0/+1 SC2LE

評価値 Value Network Baseline features アクション・タイプディレイユニット選択命令発行ターゲット選択
Residual MLP MLP MLP Pointer Network Attention D 分散表現 MLP 分散表現 MLP 分散表現 MLP Embedding MLP コア Deep LSTM スカラーエンコーダー MLP エンティティエンコーダートランスフォーマー空間エンコーダー ResNet ゲームパラメーター群エンティティミニマップ

クラシックゲームを用いたディープラーニング環境構築 - 強化学習の発展-

はじめに

ゲームとディープラーニング現状 • この3年間で、ゲーム産業以外で、ゲームを用いたディープラーニングの研究が増加している。 • 当のゲーム産業では、それ程多くない。理由 • 強化学習（DQNなど）を研究するには、結局ルールを持つシ
ミュレーション空間を使う必要がある。 • データがないところでディープラーニングを活用したい • 現実空間で応用する前に箱庭で成長させたい • ほとんどすべて研究環境がオープンソースになっている。

年企業テーマ開発環境公開 2003 Microsoft 「Teo Feng」における強化学習 2005 Microsoft
「Forzamotor Sports」における強化学習 2013 DeepMind AtariのゲームをDQNで学習〇 2015 DeepMind 囲碁 AlphaGO 2017 AnyLogic 倉庫・機械などモデルのシミュレーション Microsoft 「パックマン」多報酬学習 Hybrid Reward Architecture for Reinforcement Learning 〇 2019 Google 「サッカーシミュレーター」による強化学習の研究〇 DeepMind 「Capture the flag」によるディープラーニング学習〇 Microsoft 「AirSim」ドローンシミュレーター〇 Nvidia 「ドライビングシミュレーター」 Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習〇 facebook 「CraftAssist」マインクラフト内で会話研究〇 CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト〇 facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究〇 OpenAI 「Dota2」OpenAIによる「OpenAIFive」〇 DeepMind 「StarCraft2」AlphaStar 〇 DeepMind 「Capture the Flag」QuakeIII エンジン〇 2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」〇 DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習〇 OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習〇

DQN (Deep Q network)とは

Deep Q Learning (深層強化学習) Q-Learning × Deep Learning

世界五感身体言語知識表現型知識生成 Knowledge Making
意思決定 Decision Making 身体運動生成 Motion Making インフォメーション・フロー（情報回廊）記憶キャラクターにおける学習の原理行動の表現結果の表現意思決定 Q(s,a) 関数

Deep Q Network （DQN）とは • Q = 予想される報酬（意思決定関数） •
S = State （座標、速度、現在の姿勢） • A = Action （キック、パンチ、波動拳） • R = 報酬 • Q (s,a ) という関数を決める方法深層ニューラルネットワーク Deep Q Network

世界五感身体言語知識表現型知識生成 Knowledge Making
意思決定 Decision Making 身体運動生成 Motion Making インフォメーション・フロー（情報回廊）記憶キャラクターにおける学習の原理行動の表現状態・結果の表現意思決定ニューラルネットワーク (DQN)

Deep Q-Learning (2013) Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex
Graves, Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller (DeepMind Technologies) Playing Atari with Deep Reinforcement Learning http://www.cs.toronto.edu/~vmnih/docs/dqn.pdf 画面を入力操作はあらかじめ教えるスコアによる強化学習

学習過程解析 Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis
Antonoglou, Daan Wierstra, Martin Riedmiller (DeepMind Technologies) Playing Atari with Deep Reinforcement Learning http://www.cs.toronto.edu/~vmnih/docs/dqn.pdf

AlphaGO 膨大な棋譜のデータ（人間では多過ぎて読めない）この棋譜をそっくり打てるように学習する自己対戦して棋譜を貯めるこの棋譜を
そっくり打てるように学習する AlphaGO

• Pπ ロールアウトポリシー（ロールアウトで討つ手を決める。 Pπ（a|s） sという状態でaを討つ確率） • Pσ Supervised Learning Network
プロの討つ手からその手を討つ確率を決める。Pσ（a|s）sという状態でaを討つ確率。 • Pρ 強化学習ネットワーク。Pρ（学習済み）に初期化。 • Vθ(s’) 局面の状態 S’ を見たときに、勝敗の確率を予測する関数。つまり、勝つか、負けるかを返します。 Mastering the game of Go with deep neural networks and tree search http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html https://deepmind.com/research/alphago/

囲碁AI：位置評価関数から位置評価ニューラルネットワークへ Mastering the game of Go with deep neural
networks and tree search http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html https://deepmind.com/research/alphago/ S Q R

年企業テーマ Open 2003 Microsoft 「Teo Feng」における強化学習 2005 Microsoft

Deep Mind社「Agent 57」 • Atariの古典的なゲーム57個を人間よりうまくプレイできるようになった Deep Mind社のAI •
https://deepmind.com/blog/article/Agent57-Outperforming- the-human-Atari-benchmark

DQNのさらなる発展 • 最後までスコアに苦しんだゲーム • Montezuma’s Revenge • Pitfall • Solaris
• Skiing Agent57: Outperforming the human Atari benchmark （DeepMind） https://deepmind.com/blog/article/Agent57-Outperforming-the-human-Atari-benchmark

モンテカルロ木探索とは（MCTS）

現在の盤面の状態負勝率 : 4/5 勝率 : 2/5 勝率 :
3/5 基本、乱数によるプレイアウト勝候補となる手図7.14 美添一樹、“ コンピュータ囲碁におけるモンテカルロ法〜理論編〜” URL http://minerva.cs.uec.ac.jp/~ito/entcog/contents/lecture/date/5-yoshizoe.pdf 参考

W_1（＝８０） W_2（＝７０） W_3（＝1２０）試行回数報酬合計 3回２回４回全試行回数 9回
20ドル/回マシン１マシン２マシン３ 120 80 + 2 ∗ 9 80 70 40 + 2 ∗ 9 40 80 60 + 2 ∗ 9 60 UCB1 掛け金総額 60ドル 40ドル 80ドルプレイヤー図7.15 美添一樹、“ コンピュータ囲碁におけるモンテカルロ法〜理論編〜” URL http://minerva.cs.uec.ac.jp/~ito/entcog/contents/lecture/date/5-yoshizoe.pdf 参考

現在のゲーム状態次の一手のゲーム状態次の次の一手のゲーム状態末端次の一手の中で一番リグレットの値が一番高いノード一回シミュレーションを加えたら、それまでのノードに結果を反映してリグレット値を更新次の次の一手の中で一番リグレットの値が一番高いノード
次の次の次の一手の中で一番リグレットの値が一番高いノード図7.16 美添一樹、“ コンピュータ囲碁におけるモンテカルロ法〜理論編〜” URL http://minerva.cs.uec.ac.jp/~ito/entcog/contents/lecture/date/5-yoshizoe.pdf 参考

敵チームＡＩチームＡＩチームゲート

アクション・バケット末端のノード選択されたアクション・バケット現在のゲーム状態図7.20 Gwaredd Mountain, "Tactical Planning
and Real-time MCTS in Fable Legends", nucl.ai, 2015 参考

Fable Legends Gameplay Demo - IGN Live: E3 2014 https://www.youtube.com/watch?v=hQM_Dw_b0jE

年企業テーマ開発環境公開 2003 Microsoft 「Teo Feng」における強化学習 2005 Microsoft

Early in the learning process … … after 15 minutes
of learning Reward for decrease in Wulong Goth’s health Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products" http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx

Early in the learning process … … after 15 minutes
of learning Punishment for decrease in either player’s health Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products" http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx

PCGとは？ • PCG 自動的にコンテンツを生成すること。 • PCGとたんに書いた場合、アルゴリズムで生成する 1980年～ • PCGML マシンラーニング（ML)で生成する
2018年～ • PCGRL 強化学習で生成する 2020年-

乱数乱数部屋を作成部屋をつなぐ

F＋G＋F F＋G+F-G+F+G F+G+F-G+F+G-F+G+F+G+F-G F+G+F-G+F+G-F+G+F+G+F-G –F-G+F-G+F+G+F-G-F-G-F+G

T(F) T(T(F)) T(T(T((F)))

レベルキャラクターAI レベルを認識し、自律的な判断を行い、身体を動かす．敵・味方キャラクタ－プレイヤー情報獲得スパーシャルAI
空間全般に関する思考メタAI, キャラクターAIの為に空間認識のためのデータを準備ナビゲーション・データの管理パス検索戦術位置解析オブジェクト認識メタAI エージェントを動的に配置レベル状況を監視エージェントに指示ゲームの流れを作る Order Ask & Report ゲーム全体をコントロール Support query query 頭脳として機能 MCS-AI動的連携モデル

意思決定（学習・進化アルゴリズム）スパーシャルＡＩモーションクエリー返答報告ボディ層（身体層）
環境センサーセンサーセンサー状態指定報告メタＡＩ（学習・進化の管理）クエリー返答命令（学習モード）学習結果報告センサーナビゲーションAI モーション指定キャラクターＡＩ NPCのゲームプレイ結果、観測自動生成プロシージャル技術 PCGML 伝達ゲーム状況全体の認識静的・動的解析

参考文献 • A. Summerville, S. Snodgrass, M. Guzdial, C. Holmgård,
A. K. Hoover, A. Isaksen, A. Nealen , J. Togelius, Procedural Content Generation via Machine Learning (PCGML), 2018. • M. Guzdial, S. Snodgrass , A. J. Summerville, Procedural Content Generation via Machine Learning: An Overview, Springer, 2022. • A. Summerville , M. Mateas, “Super Mario as a String: Platformer Level Generation Via LSTMs,” Proceedings of 1st International Joint Conference of DiGRA and FDG, http://www.digra.org/wp- content/uploads/digital-library/paper_129.pdf, 2016.

ボトムからトップ、トップからボトムをつなぐスネーキングのインプットデータ形式レベルの深さ(5カラムごとに特殊文字を追加）ブロックキャラクターパスカラム敵砲台 ※ ※
※ ※ ※ ※ ※ ※ ※ コイン ※ ※ ※ ※ パイプ

? ? LSTMブロック … 512ブロック … 512ブロック … 512ブロック全結合
全結合 200データポイントワンホットベクトル

PCGRL (Procedural Contents Generation via Reinforcement Leaning) PCGRL: Procedural Content
Generation via Reinforcement Learning Ahmed Khalifa, Philip Bontrager, Sam Earle, Julian Togelius https://arxiv.org/abs/2001.09212

メタAI RLエージェント認識作用報酬関数計算状態 𝑺𝑺𝒕𝒕 状態 𝑺𝑺𝒕𝒕+𝟏𝟏 ループ
作用 𝑨𝑨𝒕𝒕+𝟏𝟏 報酬 𝑹𝑹𝒕𝒕+𝟏𝟏

https://medium.com/deepgamingai/game-level-design-with-reinforcement-learning-52b02bb94954

• https://twitter.com/togelius/status/1222038094507102208 • https://twitter.com/i/status/1222038094507102208

Adversarial Reinforcement Learning for Procedural Content Generation Adversarial Reinforcement Learning
for Procedural Content Generation Linus Gisslén, Andy Eakins, Camilo Gordillo, Joakim Bergdahl, Konrad Tollmar https://arxiv.org/abs/2103.04847

Adversarial Reinforcement Learning for Procedural Content Generation Linus Gisslén, Andy
Eakins, Camilo Gordillo, Joakim Bergdahl, Konrad Tollmar https://arxiv.org/abs/2103.04847

CoG 2021: Adversarial Reinforcement Learning for Procedural Content Generation SEED
– Electronic Arts https://www.youtube.com/watch?v=kNj0qcc6Fpg

Adversarial Reinforcement Learning for Procedural Content Generation Linus Gisslén, Andy
Eakins, Camilo Gordillo, Joakim Bergdahl, Konrad Tollmar https://arxiv.org/abs/2103.04847

CoG 2021: Adversarial Reinforcement Learning for Procedural Content Generation SEED
– Electronic Arts https://www.youtube.com/watch?v=kNj0qcc6Fpg

Deep Reinforcement Learning for Navigation in AAA Video Games https://montreal.ubisoft.com/en/deep-reinforcement-learning-for-navigation-in-aaa-
video-games/

手法 (1)状態：３次元占有マップと２次元深度マップを取る (2)強化学習する (3)ランダムにエージェント・シリンダーを生成して学習 Deep Reinforcement Learning for Navigation in
AAA Video Games https://montreal.ubisoft.com/en/deep-reinforcement-learning-for-navigation-in-aaa- video-games/

Deep Reinforcement Learning for Navigation in AAA Video Games https://montreal.ubisoft.com/en/deep-reinforcement-learning-for-navigation-in-aaa-video-games/

Deep Reinforcement Learning for Navigation in AAA Video Games -
Video appendix https://www.youtube.com/watch?v=WFIf9Wwlq8M

• 6月7日(水) 15:30 〜 15:50 M会場 (会議室 D1) • [2M5-GS-10-01]
『ぷよぷよ』における深層強化学習による自己対戦の適応〇福地昂大1、三宅陽一郎 • https://confit.atlas.jp/guide/event/jsai2023/session/2M11- 15/tables?qMXonUBuri 関連研究

関連研究 6月8日(木) 13:30-13:50 学生ポスターセッション • [3Xin4-79] カリキュラム学習を用いた迷路の経路形状生成制御手法〇星野貴彦1、三宅陽一郎
https://confit.atlas.jp/guide/event/jsai2023/session/3X01- 80/tables?VgMKAJejQF 6月8日(木) 16:30-16:50 E会場 (大会議室 A2) 学生講演 [3E5-GS-2-04] ローグライクゲームの強化学習における好奇心を用いた学習手法の比較検討〇荒井新太郎、三宅陽一郎 https://confit.atlas.jp/guide/event/jsai2023/session/3E06- 09/tables?KjhLMMlEwm

ゲームデザイナーを助けるAI NeurIPS 2022: Imitation Learning to Inform the Design
of Computer Games https://www.ea.com/seed/news/imitation-learning-design-validation-games

第零次：ゲームデザイナーの手元でAIによる QAテストの構築

ゲームデザイナーを助けるAI • ゲームデザイナーが作ったものを、すぐに評価する • 誰が？ • エージェント＝プレイヤーの代わりになる • このエージェントを鍛えて、ゲームデザイナーの役に立たせる

AIによる第零次QA 第一次：現場レベルのQAテスト（１日～１週間）第二次：品質管理による小規模テスト（１週～３週間）第三次：品質管理による大規模テスト（１ヵ月～）

第一次：現場レベルのQAテスト（１日～１週間）第二次：品質管理による小規模テスト（１週～３週間）第三次：品質管理による大規模テスト（１ヵ月～）第零次：ゲームデザイナーの手元で AIによるQAテスト（１秒～１日）理想的なバグの減り方バグの数
時間

ゲームデザイナーを補助するAI • ゲームデザイナーのプレイを模倣し • ゲームデザイナーの作ったレベルデザインを自動プレイして •
デザインの検証を助ける人工知能 NeurIPS 2022: Imitation Learning to Inform the Design of Computer Games https://www.ea.com/seed/news/imitation-learning-design-validation-games

• プレイヤーの行動を模倣する人工知能 NeurIPS 2022: Imitation Learning to Inform the Design
of Computer Games https://www.ea.com/seed/news/imitation-learning-design-validation-games ゲームデザイナーを助けるAI

ゲームデザイナーの作ったレベルを自動テストするAI NeurIPS 2022: Imitation Learning to Inform the Design
of Computer Games https://www.ea.com/seed/news/imitation-learning-design-validation-games

Imitation Learning to Inform the Design of Computer Game https://www.youtube.com/watch?v=nhOfsZk51IQ&t=1s

ゲームAI研究の新展開 - PCGML, PCGRL-

ゲームAI研究の新展開 - PCGML, PCGRL-

More Decks by miyayou

Other Decks in Science

Featured

Transcript