ゲームAI研究の新展開 - PCGML, PCGRL-

Slide 1

Slide 1 text

三宅陽一郎 2023.6.7 @人工知能学会全国大会ゲームAI研究の新展開 - PCGML, PCGRL- https://www.facebook.com/youichiro.miyake https://miyayou.com/ [email protected] @miyayou

Slide 2

Slide 2 text

• [2J1-KS-20] ゲームAI研究の新展開 • 2023年6月7日(水) 09:00 〜 10:40 J会場 (中会議室 B3) • オーガナイザ：伊藤毅志、山本雅人、片寄晴弘、池田心 • https://confit.atlas.jp/guide/event/jsai2023/session/2J01-01/detail ゲームAI研究の新展開

Slide 3

Slide 3 text

ゲームAI研究の新展開 • 著者伊藤毅志編著 • 頁360頁 • ISBN978-4-274-23077-6 • 発売日2023/07/04 • 発行元オーム社 • https://www.ohmsha.co.jp/book/9784274230776/

Slide 4

Slide 4 text

My Works (2004-2023) AI for Game Titles Books

Slide 5

Slide 5 text

近著

Slide 6

Slide 6 text

近著

Slide 7

Slide 7 text

デジタルゲームにおける記号主義からコネクショニズムへ

Slide 8

Slide 8 text

DeepMind StarCraft II Demonstration https://www.youtube.com/watch?v=cUTMhmVh1qs

Slide 9

Slide 9 text

StarCraftのAI • Santiago Ontañon, Gabriel Synnaeve, Alberto Uriarte, Florian Richoux, David Churchill, et al.. • “A Survey of Real-Time Strategy Game AI Research and Competition in StarCraft”. IEEE Transactions on Computational Intelligence and AI in games, IEEE Computational Intelligence Society, 2013, 5(4), pp.1-19. hal- 00871001 • https://hal.archives-ouvertes.fr/hal-00871001

Slide 10

Slide 10 text

StarCraftの7つのアーキテクチャ (2010-2020)

Slide 11

Slide 11 text

戦略思考ハイレベル、抽象的３分～知識収集と学習敵のモデル化戦略決定部隊形成命令プランの構築戦術思考中間レベル 30秒～1分スカウティング戦闘タイミングと位置ユニットと建築物の配置反射コントロール低レベル、物理的～1秒小ユニットマルチエージェンパス検索 StarCraft 一般的なアーキテクチャ

Slide 12

Slide 12 text

戦闘ゴールマネージャーユニットグループベイジアン・ネット BroodWarBotQ 仲介モジュール知能マップマネージャー技術推定ユニットフィルター資源管理ワーカーマネージャー基地マネージャー生産マネージャー建築マネージャー StarCraft BroodWarQ Bot アーキテクチャ

Slide 13

Slide 13 text

知能建築命令マネージャースカウトマネージャー資源マネージャーマクロマネージャー拡張マネージャー供給マネージャー部隊マネージャー封鎖経路マネージャー戦略戦術タスクマネージャー建築設置モジュールタスク n StarCraft SkyNet Bot アーキテクチャ

Slide 14

Slide 14 text

資源管理戦闘部隊マネージャー防御マネージャー戦闘マネージャー AIUR ムードマネージャー知能仲介モジュールスカウトマネージャー情報マネージャーワーカーマネージャー基地マネージャー生産マネージャー建築マネージャースパイマネージャー消費マネージャー StarCraft AIUR Bot アーキテクチャ

Slide 15

Slide 15 text

StarCraft~StarCraft2における人工知能（DeepMind, 2019） Oriol Vinyals, et al., “StarCraft II: A New Challenge for Reinforcement Learning”, https://arxiv.org/abs/1708.04782 PySC2 - StarCraft II Learning Environment https://github.com/deepmind/pysc2

Slide 16

Slide 16 text

StarCraft II API StarCraft II バイナリー PySC2 エージェントアクション select_rect(p1, p2) or build_supply(p3) or … 観察資源可能なアクション建築命令スクリーン（ゲーム情報）ミニマップ（特定の情報）報酬 -1/0/+1 SC2LE

Slide 17

Slide 17 text

評価値 Value Network Baseline features アクション・タイプディレイユニット選択命令発行ターゲット選択 Residual MLP MLP MLP Pointer Network Attention D 分散表現 MLP 分散表現 MLP 分散表現 MLP Embedding MLP コア Deep LSTM スカラーエンコーダー MLP エンティティエンコーダートランスフォーマー空間エンコーダー ResNet ゲームパラメーター群エンティティミニマップ

Slide 18

Slide 18 text

クラシックゲームを用いたディープラーニング環境構築 - 強化学習の発展-

Slide 19

Slide 19 text

はじめに

Slide 20

Slide 20 text

ゲームとディープラーニング現状 • この3年間で、ゲーム産業以外で、ゲームを用いたディープラーニングの研究が増加している。 • 当のゲーム産業では、それ程多くない。理由 • 強化学習（DQNなど）を研究するには、結局ルールを持つシミュレーション空間を使う必要がある。 • データがないところでディープラーニングを活用したい • 現実空間で応用する前に箱庭で成長させたい • ほとんどすべて研究環境がオープンソースになっている。

Slide 21

Slide 21 text

年企業テーマ開発環境公開 2003 Microsoft 「Teo Feng」における強化学習 2005 Microsoft 「Forzamotor Sports」における強化学習 2013 DeepMind AtariのゲームをDQNで学習〇 2015 DeepMind 囲碁 AlphaGO 2017 AnyLogic 倉庫・機械などモデルのシミュレーション Microsoft 「パックマン」多報酬学習 Hybrid Reward Architecture for Reinforcement Learning 〇 2019 Google 「サッカーシミュレーター」による強化学習の研究〇 DeepMind 「Capture the flag」によるディープラーニング学習〇 Microsoft 「AirSim」ドローンシミュレーター〇 Nvidia 「ドライビングシミュレーター」 Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習〇 facebook 「CraftAssist」マインクラフト内で会話研究〇 CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト〇 facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究〇 OpenAI 「Dota2」OpenAIによる「OpenAIFive」〇 DeepMind 「StarCraft2」AlphaStar 〇 DeepMind 「Capture the Flag」QuakeIII エンジン〇 2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」〇 DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習〇 OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習〇

Slide 22

Slide 22 text

DQN (Deep Q network)とは

Slide 23

Slide 23 text

Deep Q Learning (深層強化学習) Q-Learning × Deep Learning

Slide 24

Slide 24 text

世界五感身体言語知識表現型知識生成 Knowledge Making 意思決定 Decision Making 身体運動生成 Motion Making インフォメーション・フロー（情報回廊）記憶キャラクターにおける学習の原理行動の表現結果の表現意思決定 Q(s,a) 関数

Slide 25

Slide 25 text

Deep Q Network （DQN）とは • Q = 予想される報酬（意思決定関数） • S = State （座標、速度、現在の姿勢） • A = Action （キック、パンチ、波動拳） • R = 報酬 • Q (s,a ) という関数を決める方法深層ニューラルネットワーク Deep Q Network

Slide 26

Slide 26 text

世界五感身体言語知識表現型知識生成 Knowledge Making 意思決定 Decision Making 身体運動生成 Motion Making インフォメーション・フロー（情報回廊）記憶キャラクターにおける学習の原理行動の表現状態・結果の表現意思決定ニューラルネットワーク (DQN)

Slide 27

Slide 27 text

Deep Q-Learning (2013) Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller (DeepMind Technologies) Playing Atari with Deep Reinforcement Learning http://www.cs.toronto.edu/~vmnih/docs/dqn.pdf 画面を入力操作はあらかじめ教えるスコアによる強化学習

Slide 28

Slide 28 text

学習過程解析 Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller (DeepMind Technologies) Playing Atari with Deep Reinforcement Learning http://www.cs.toronto.edu/~vmnih/docs/dqn.pdf

Slide 29

Slide 29 text

AlphaGO 膨大な棋譜のデータ（人間では多過ぎて読めない）この棋譜をそっくり打てるように学習する自己対戦して棋譜を貯めるこの棋譜をそっくり打てるように学習する AlphaGO

Slide 30

Slide 30 text

• Pπ ロールアウトポリシー（ロールアウトで討つ手を決める。 Pπ（a|s） sという状態でaを討つ確率） • Pσ Supervised Learning Network プロの討つ手からその手を討つ確率を決める。Pσ（a|s）sという状態でaを討つ確率。 • Pρ 強化学習ネットワーク。Pρ（学習済み）に初期化。 • Vθ(s’) 局面の状態 S’ を見たときに、勝敗の確率を予測する関数。つまり、勝つか、負けるかを返します。 Mastering the game of Go with deep neural networks and tree search http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html https://deepmind.com/research/alphago/

Slide 31

Slide 31 text

囲碁AI：位置評価関数から位置評価ニューラルネットワークへ Mastering the game of Go with deep neural networks and tree search http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html https://deepmind.com/research/alphago/ S Q R

Slide 32

Slide 32 text

年企業テーマ Open 2003 Microsoft 「Teo Feng」における強化学習 2005 Microsoft 「Forzamotor Sports」における強化学習 2013 DeepMind AtariのゲームをDQNで学習〇 2015 DeepMind 囲碁 AlphaGO 2017 AnyLogic 倉庫・機械などモデルのシミュレーション Microsoft 「パックマン」多報酬学習 Hybrid Reward Architecture for Reinforcement Learning 〇 2019 Google 「サッカーシミュレーター」による強化学習の研究〇 DeepMind 「Capture the flag」によるディープラーニング学習〇 Microsoft 「AirSim」ドローンシミュレーター〇 Nvidia 「ドライビングシミュレーター」 Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習〇 facebook 「CraftAssist」マインクラフト内で会話研究〇 CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト〇 facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究〇 OpenAI 「Dota2」OpenAIによる「OpenAIFive」〇 DeepMind 「StarCraft2」AlphaStar 〇 DeepMind 「Capture the Flag」QuakeIII エンジン〇 2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」〇 DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習〇 OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習〇

Slide 33

Slide 33 text

Deep Mind社「Agent 57」 • Atariの古典的なゲーム57個を人間よりうまくプレイできるようになった Deep Mind社のAI • https://deepmind.com/blog/article/Agent57-Outperforming- the-human-Atari-benchmark

Slide 34

Slide 34 text

DQNのさらなる発展 • 最後までスコアに苦しんだゲーム • Montezuma’s Revenge • Pitfall • Solaris • Skiing Agent57: Outperforming the human Atari benchmark （DeepMind） https://deepmind.com/blog/article/Agent57-Outperforming-the-human-Atari-benchmark

Slide 35

Slide 35 text

モンテカルロ木探索とは（MCTS）

Slide 36

Slide 36 text

現在の盤面の状態負勝率 : 4/5 勝率 : 2/5 勝率 : 3/5 基本、乱数によるプレイアウト勝候補となる手図7.14 美添一樹、“ コンピュータ囲碁におけるモンテカルロ法〜理論編〜” URL http://minerva.cs.uec.ac.jp/~ito/entcog/contents/lecture/date/5-yoshizoe.pdf 参考

Slide 37

Slide 37 text

W_1（＝８０） W_2（＝７０） W_3（＝1２０）試行回数報酬合計 3回２回４回全試行回数 9回 20ドル/回マシン１マシン２マシン３ 120 80 + 2 ∗ 9 80 70 40 + 2 ∗ 9 40 80 60 + 2 ∗ 9 60 UCB1 掛け金総額 60ドル 40ドル 80ドルプレイヤー図7.15 美添一樹、“ コンピュータ囲碁におけるモンテカルロ法〜理論編〜” URL http://minerva.cs.uec.ac.jp/~ito/entcog/contents/lecture/date/5-yoshizoe.pdf 参考

Slide 38

Slide 38 text

現在のゲーム状態次の一手のゲーム状態次の次の一手のゲーム状態末端次の一手の中で一番リグレットの値が一番高いノード一回シミュレーションを加えたら、それまでのノードに結果を反映してリグレット値を更新次の次の一手の中で一番リグレットの値が一番高いノード次の次の次の一手の中で一番リグレットの値が一番高いノード図7.16 美添一樹、“ コンピュータ囲碁におけるモンテカルロ法〜理論編〜” URL http://minerva.cs.uec.ac.jp/~ito/entcog/contents/lecture/date/5-yoshizoe.pdf 参考

Slide 39

Slide 39 text

敵チームＡＩチームＡＩチームゲート

Slide 40

Slide 40 text

アクション・バケット末端のノード選択されたアクション・バケット現在のゲーム状態図7.20 Gwaredd Mountain, "Tactical Planning and Real-time MCTS in Fable Legends", nucl.ai, 2015 参考

Slide 41

Slide 41 text

Fable Legends Gameplay Demo - IGN Live: E3 2014 https://www.youtube.com/watch?v=hQM_Dw_b0jE

Slide 42

Slide 42 text

Slide 43

Slide 43 text

Early in the learning process … … after 15 minutes of learning Reward for decrease in Wulong Goth’s health Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products" http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx

Slide 44

Slide 44 text

Early in the learning process … … after 15 minutes of learning Punishment for decrease in either player’s health Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products" http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx

Slide 45

Slide 45 text

PCGとは？ • PCG 自動的にコンテンツを生成すること。 • PCGとたんに書いた場合、アルゴリズムで生成する 1980年～ • PCGML マシンラーニング（ML)で生成する 2018年～ • PCGRL 強化学習で生成する 2020年-

Slide 46

Slide 46 text

乱数乱数部屋を作成部屋をつなぐ

Slide 47

Slide 47 text

F＋G＋F F＋G+F-G+F+G F+G+F-G+F+G-F+G+F+G+F-G F+G+F-G+F+G-F+G+F+G+F-G –F-G+F-G+F+G+F-G-F-G-F+G

Slide 48

Slide 48 text

T(F) T(T(F)) T(T(T((F)))

Slide 49

Slide 49 text

レベルキャラクターAI レベルを認識し、自律的な判断を行い、身体を動かす．敵・味方キャラクタ－プレイヤー情報獲得スパーシャルAI 空間全般に関する思考メタAI, キャラクターAIの為に空間認識のためのデータを準備ナビゲーション・データの管理パス検索戦術位置解析オブジェクト認識メタAI エージェントを動的に配置レベル状況を監視エージェントに指示ゲームの流れを作る Order Ask & Report ゲーム全体をコントロール Support query query 頭脳として機能 MCS-AI動的連携モデル

Slide 50

Slide 50 text

意思決定（学習・進化アルゴリズム）スパーシャルＡＩモーションクエリー返答報告ボディ層（身体層）環境センサーセンサーセンサー状態指定報告メタＡＩ（学習・進化の管理）クエリー返答命令（学習モード）学習結果報告センサーナビゲーションAI モーション指定キャラクターＡＩ NPCのゲームプレイ結果、観測自動生成プロシージャル技術 PCGML 伝達ゲーム状況全体の認識静的・動的解析

Slide 51

Slide 51 text

参考文献 • A. Summerville, S. Snodgrass, M. Guzdial, C. Holmgård, A. K. Hoover, A. Isaksen, A. Nealen , J. Togelius, Procedural Content Generation via Machine Learning (PCGML), 2018. • M. Guzdial, S. Snodgrass , A. J. Summerville, Procedural Content Generation via Machine Learning: An Overview, Springer, 2022. • A. Summerville , M. Mateas, “Super Mario as a String: Platformer Level Generation Via LSTMs,” Proceedings of 1st International Joint Conference of DiGRA and FDG, http://www.digra.org/wp- content/uploads/digital-library/paper_129.pdf, 2016.

Slide 52

Slide 52 text

ボトムからトップ、トップからボトムをつなぐスネーキングのインプットデータ形式レベルの深さ(5カラムごとに特殊文字を追加）ブロックキャラクターパスカラム敵砲台 ※ ※ ※ ※ ※ ※ ※ ※ ※ コイン ※ ※ ※ ※ パイプ

Slide 53

Slide 53 text

? ? LSTMブロック … 512ブロック … 512ブロック … 512ブロック全結合全結合 200データポイントワンホットベクトル

Slide 54

Slide 54 text

PCGRL (Procedural Contents Generation via Reinforcement Leaning) PCGRL: Procedural Content Generation via Reinforcement Learning Ahmed Khalifa, Philip Bontrager, Sam Earle, Julian Togelius https://arxiv.org/abs/2001.09212

Slide 55

Slide 55 text

No content

Slide 56

Slide 56 text

メタAI RLエージェント認識作用報酬関数計算状態 𝑺𝑺𝒕𝒕 状態 𝑺𝑺𝒕𝒕+𝟏𝟏 ループ作用 𝑨𝑨𝒕𝒕+𝟏𝟏 報酬 𝑹𝑹𝒕𝒕+𝟏𝟏

Slide 57

Slide 57 text

No content

Slide 58

Slide 58 text

No content

Slide 59

Slide 59 text

No content

Slide 60

Slide 60 text

No content

Slide 61

Slide 61 text

https://medium.com/deepgamingai/game-level-design-with-reinforcement-learning-52b02bb94954

Slide 62

Slide 62 text

No content

Slide 63

Slide 63 text

No content

Slide 64

Slide 64 text

No content

Slide 65

Slide 65 text

No content

Slide 66

Slide 66 text

No content

Slide 67

Slide 67 text

• https://twitter.com/togelius/status/1222038094507102208 • https://twitter.com/i/status/1222038094507102208

Slide 68

Slide 68 text

Adversarial Reinforcement Learning for Procedural Content Generation Adversarial Reinforcement Learning for Procedural Content Generation Linus Gisslén, Andy Eakins, Camilo Gordillo, Joakim Bergdahl, Konrad Tollmar https://arxiv.org/abs/2103.04847