Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ゲームAI研究の新展開 - PCGML, PCGRL-

miyayou
June 10, 2023

ゲームAI研究の新展開 - PCGML, PCGRL-

人工知能学会全国大会 2023におけるセッション「ゲームAI研究の新展開」の発表資料です。

PCGML (Procedural Contents Generation via Machine Learning)
PCGRL (Procedural Contents Generation via Machine Learning)

を中心に。

miyayou

June 10, 2023
Tweet

More Decks by miyayou

Other Decks in Science

Transcript

  1. • [2J1-KS-20] ゲームAI研究の新展開 • 2023年6月7日(水) 09:00 〜 10:40 J会場 (中会議室

    B3) • オーガナイザ:伊藤 毅志、山本 雅人、片寄 晴弘、池田 心 • https://confit.atlas.jp/guide/event/jsai2023/session/2J01-01/detail ゲームAI研究の新展開
  2. ゲームAI研究の新展開 • 著者伊藤 毅志 編著 • 頁360頁 • ISBN978-4-274-23077-6 •

    発売日2023/07/04 • 発行元オーム社 • https://www.ohmsha.co.jp/book/9784274230776/
  3. StarCraftのAI • Santiago Ontañon, Gabriel Synnaeve, Alberto Uriarte, Florian Richoux,

    David Churchill, et al.. • “A Survey of Real-Time Strategy Game AI Research and Competition in StarCraft”. IEEE Transactions on Computational Intelligence and AI in games, IEEE Computational Intelligence Society, 2013, 5(4), pp.1-19. hal- 00871001 • https://hal.archives-ouvertes.fr/hal-00871001
  4. 戦略思考 ハイレベル、抽象的 3分~ 知識収集と 学習 敵のモデル化 戦略決定 部隊形成 命令プランの構築 戦術思考

    中間レベル 30秒~1分 スカウティング 戦闘タイミングと 位置 ユニットと建築物 の配置 反射コントロール 低レベル、物理的 ~1秒 小ユニット マルチエージェン パス検索 StarCraft 一般的なアーキテクチャ
  5. 戦闘 ゴール マネージャー ユニットグループ ベイジアン・ネット BroodWarBotQ 仲介モジュール 知能 マップ マネージャー

    技術推定 ユニット フィルター 資源管理 ワーカー マネージャー 基地 マネージャー 生産 マネージャー 建築 マネージャー StarCraft BroodWarQ Bot アーキテクチャ
  6. 知能 建築命令マネージャー スカウト マネージャー 資源 マネージャー マクロ マネージャー 拡張 マネージャー

    供給 マネージャー 部隊 マネージャー 封鎖経路 マネージャー 戦略 戦術 タスクマネージャー 建築設置 モジュール タスク n StarCraft SkyNet Bot アーキテクチャ
  7. 資源管理 戦闘 部隊マネージャー 防御マネージャー 戦闘マネージャー AIUR ムード マネージャー 知能 仲介モジュール

    スカウト マネー ジャー 情報マネージャー ワーカー マネージャー 基地 マネージャー 生産 マネージャー 建築 マネージャー スパイ マネー ジャー 消費 マネージャー StarCraft AIUR Bot アーキテクチャ
  8. StarCraft~StarCraft2における 人工知能 (DeepMind, 2019) Oriol Vinyals, et al., “StarCraft II:

    A New Challenge for Reinforcement Learning”, https://arxiv.org/abs/1708.04782 PySC2 - StarCraft II Learning Environment https://github.com/deepmind/pysc2
  9. StarCraft II API StarCraft II バイナリー PySC2 エージェント アクション select_rect(p1,

    p2) or build_supply(p3) or … 観察 資源 可能なアクション 建築命令 スクリーン (ゲーム情報) ミニマップ (特定の情報) 報酬 -1/0/+1 SC2LE
  10. 評価値 Value Network Baseline features アクション・タイプ ディレイ ユニット選択 命令発行 ターゲット選択

    Residual MLP MLP MLP Pointer Network Attention D 分散表現 MLP 分散表現 MLP 分散表現 MLP Embedding MLP コア Deep LSTM スカラー エンコーダー MLP エンティティ エンコーダー トランス フォーマー 空間 エンコーダー ResNet ゲーム パラメーター群 エンティティ ミニマップ
  11. ゲームとディープラーニング 現状 • この3年間で、ゲーム産業以外で、ゲームを用いたディープ ラーニングの研究が増加している。 • 当のゲーム産業では、それ程多くない。 理由 • 強化学習(DQNなど)を研究するには、結局ルールを持つシ

    ミュレーション空間を使う必要がある。 • データがないところでディープラーニングを活用したい • 現実空間で応用する前に箱庭で成長させたい • ほとんどすべて研究環境がオープンソースになっている。
  12. 年 企業 テーマ 開発環境公開 2003 Microsoft 「Teo Feng」における強化学習 2005 Microsoft

    「Forzamotor Sports」における強化学習 2013 DeepMind AtariのゲームをDQNで学習 〇 2015 DeepMind 囲碁 AlphaGO 2017 AnyLogic 倉庫・機械などモデルのシミュレーション Microsoft 「パックマン」多報酬学習 Hybrid Reward Architecture for Reinforcement Learning 〇 2019 Google 「サッカーシミュレーター」による強化学習の研究 〇 DeepMind 「Capture the flag」によるディープラーニング学習 〇 Microsoft 「AirSim」ドローンシミュレーター 〇 Nvidia 「ドライビングシミュレーター」 Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇 facebook 「CraftAssist」マインクラフト内で会話研究 〇 CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇 facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇 OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇 DeepMind 「StarCraft2」AlphaStar 〇 DeepMind 「Capture the Flag」QuakeIII エンジン 〇 2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇 DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇 OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇
  13. 世界 五感 身体 言語 知識表 現型 知識 生成 Knowledge Making

    意思決定 Decision Making 身体 運動 生成 Motion Making インフォメーション・フロー(情報回廊) 記憶 キャラクターにおける学習の原理 行動の表現 結果の表現 意思決定 Q(s,a) 関数
  14. Deep Q Network (DQN)とは • Q = 予想される報酬 (意思決定関数) •

    S = State (座標、速度、現在の姿勢) • A = Action (キック、パンチ、波動拳) • R = 報酬 • Q (s,a ) という関数を決める方法 深層ニューラルネットワーク Deep Q Network
  15. 世界 五感 身体 言語 知識表 現型 知識 生成 Knowledge Making

    意思決定 Decision Making 身体 運動 生成 Motion Making インフォメーション・フロー(情報回廊) 記憶 キャラクターにおける学習の原理 行動の表現 状態・結果の表現 意思決定 ニューラル ネットワーク (DQN)
  16. Deep Q-Learning (2013) Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex

    Graves, Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller (DeepMind Technologies) Playing Atari with Deep Reinforcement Learning http://www.cs.toronto.edu/~vmnih/docs/dqn.pdf 画面を入力 操作はあらかじめ教える スコアによる強化学習
  17. 学習過程解析 Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis

    Antonoglou, Daan Wierstra, Martin Riedmiller (DeepMind Technologies) Playing Atari with Deep Reinforcement Learning http://www.cs.toronto.edu/~vmnih/docs/dqn.pdf
  18. • Pπ ロールアウトポリシー(ロールアウトで討つ手を決める。 Pπ(a|s) sという状態でaを討つ確率) • Pσ Supervised Learning Network

    プロの討つ手からその 手を討つ確率を決める。Pσ(a|s)sという状態でaを討つ確 率。 • Pρ 強化学習ネットワーク。Pρ(学習済み)に初期化。 • Vθ(s’) 局面の状態 S’ を見たときに、勝敗の確率を予測 する関数。つまり、勝つか、負けるかを返します。 Mastering the game of Go with deep neural networks and tree search http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html https://deepmind.com/research/alphago/
  19. 囲碁AI: 位置評価関数から位置評価ニューラルネットワークへ Mastering the game of Go with deep neural

    networks and tree search http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html https://deepmind.com/research/alphago/ S Q R
  20. 年 企業 テーマ Open 2003 Microsoft 「Teo Feng」における強化学習 2005 Microsoft

    「Forzamotor Sports」における強化学習 2013 DeepMind AtariのゲームをDQNで学習 〇 2015 DeepMind 囲碁 AlphaGO 2017 AnyLogic 倉庫・機械などモデルのシミュレーション Microsoft 「パックマン」多報酬学習 Hybrid Reward Architecture for Reinforcement Learning 〇 2019 Google 「サッカーシミュレーター」による強化学習の研究 〇 DeepMind 「Capture the flag」によるディープラーニング学習 〇 Microsoft 「AirSim」ドローンシミュレーター 〇 Nvidia 「ドライビングシミュレーター」 Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇 facebook 「CraftAssist」マインクラフト内で会話研究 〇 CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇 facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇 OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇 DeepMind 「StarCraft2」AlphaStar 〇 DeepMind 「Capture the Flag」QuakeIII エンジン 〇 2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇 DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇 OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇
  21. DQNのさらなる発展 • 最後までスコアに苦しんだゲーム • Montezuma’s Revenge • Pitfall • Solaris

    • Skiing Agent57: Outperforming the human Atari benchmark (DeepMind) https://deepmind.com/blog/article/Agent57-Outperforming-the-human-Atari-benchmark
  22. 現在の盤面の状態 負 勝率 : 4/5 勝率 : 2/5 勝率 :

    3/5 基本、 乱数による プレイアウト 勝 候補となる手 図7.14 美添 一樹、“ コンピュータ囲碁における モンテカルロ法 〜理論編〜” URL http://minerva.cs.uec.ac.jp/~ito/entcog/contents/lecture/date/5-yoshizoe.pdf 参考
  23. W_1(=80) W_2(=70) W_3(=120) 試行回数 報酬合計 3回 2回 4回 全試行回数 9回

    20ドル/回 マシン1 マシン2 マシン3 120 80 + 2 ∗ 9 80 70 40 + 2 ∗ 9 40 80 60 + 2 ∗ 9 60 UCB1 掛け金総額 60ドル 40ドル 80ドル プレイヤー 図7.15 美添 一樹、“ コンピュータ囲碁における モンテカルロ法 〜理論編〜” URL http://minerva.cs.uec.ac.jp/~ito/entcog/contents/lecture/date/5-yoshizoe.pdf 参考
  24. 現在のゲーム状態 次の一手のゲーム状態 次の次の一手のゲーム状態 末端 次の一手の中で一番 リグレットの値が一番高いノード 一回シミュレーションを加えたら、それまでのノードに結果を反映してリグレット値を更新 次の次の一手の中で一番 リグレットの値が一番高い ノード

    次の次の次の一手の中で一番 リグレットの値が一番高いノード 図7.16 美添 一樹、“ コンピュータ囲碁における モンテカルロ法 〜理論編〜” URL http://minerva.cs.uec.ac.jp/~ito/entcog/contents/lecture/date/5-yoshizoe.pdf 参考
  25. 年 企業 テーマ 開発環境公開 2003 Microsoft 「Teo Feng」における強化学習 2005 Microsoft

    「Forzamotor Sports」における強化学習 2013 DeepMind AtariのゲームをDQNで学習 〇 2015 DeepMind 囲碁 AlphaGO 2017 AnyLogic 倉庫・機械などモデルのシミュレーション Microsoft 「パックマン」多報酬学習 Hybrid Reward Architecture for Reinforcement Learning 〇 2019 Google 「サッカーシミュレーター」による強化学習の研究 〇 DeepMind 「Capture the flag」によるディープラーニング学習 〇 Microsoft 「AirSim」ドローンシミュレーター 〇 Nvidia 「ドライビングシミュレーター」 Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇 facebook 「CraftAssist」マインクラフト内で会話研究 〇 CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇 facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇 OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇 DeepMind 「StarCraft2」AlphaStar 〇 DeepMind 「Capture the Flag」QuakeIII エンジン 〇 2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇 DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇 OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇
  26. Early in the learning process … … after 15 minutes

    of learning Reward for decrease in Wulong Goth’s health Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products" http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx
  27. Early in the learning process … … after 15 minutes

    of learning Punishment for decrease in either player’s health Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products" http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx
  28. レベル キャラクターAI レベルを認識し、 自律的な判断を行い、 身体を動かす. 敵・味方 キャラクタ- プレイヤー 情報獲得 スパーシャルAI

    空間全般に関する思考 メタAI, キャラクターAIの為に 空間認識のためのデータを準備 ナビゲーション・データの管理 パス検索 戦術位置解析 オブジェクト認識 メタAI エージェントを動的に配置 レベル状況を監視 エージェントに指示 ゲームの流れを作る Order Ask & Report ゲーム全体をコントロール Support query query 頭脳として機能 MCS-AI動的 連携モデル
  29. 意思決定 (学習・進化アルゴリズム) スパーシャル AI モーション クエリー 返答 報告 ボディ層 (身体層)

    環境 センサー センサー センサー 状態指定 報告 メタAI (学習・進化の管理) クエリー 返答 命令(学習モード) 学習結果報告 センサー ナビゲー ションAI モーション指定 キャラクターAI NPCのゲームプレイ結果、観測 自動生成 プロシージャル技術 PCGML 伝達 ゲーム状況 全体の認識 静的・動的解析
  30. 参考文献 • A. Summerville, S. Snodgrass, M. Guzdial, C. Holmgård,

    A. K. Hoover, A. Isaksen, A. Nealen , J. Togelius, Procedural Content Generation via Machine Learning (PCGML), 2018. • M. Guzdial, S. Snodgrass , A. J. Summerville, Procedural Content Generation via Machine Learning: An Overview, Springer, 2022. • A. Summerville , M. Mateas, “Super Mario as a String: Platformer Level Generation Via LSTMs,” Proceedings of 1st International Joint Conference of DiGRA and FDG, http://www.digra.org/wp- content/uploads/digital-library/paper_129.pdf, 2016.
  31. ? ? LSTMブロック … 512ブロック … 512ブロック … 512ブロック 全結合

    全結合 200データポイント ワンホットベクトル
  32. PCGRL (Procedural Contents Generation via Reinforcement Leaning) PCGRL: Procedural Content

    Generation via Reinforcement Learning Ahmed Khalifa, Philip Bontrager, Sam Earle, Julian Togelius https://arxiv.org/abs/2001.09212
  33. Adversarial Reinforcement Learning for Procedural Content Generation Adversarial Reinforcement Learning

    for Procedural Content Generation Linus Gisslén, Andy Eakins, Camilo Gordillo, Joakim Bergdahl, Konrad Tollmar https://arxiv.org/abs/2103.04847
  34. Adversarial Reinforcement Learning for Procedural Content Generation Linus Gisslén, Andy

    Eakins, Camilo Gordillo, Joakim Bergdahl, Konrad Tollmar https://arxiv.org/abs/2103.04847
  35. Adversarial Reinforcement Learning for Procedural Content Generation Linus Gisslén, Andy

    Eakins, Camilo Gordillo, Joakim Bergdahl, Konrad Tollmar https://arxiv.org/abs/2103.04847
  36. Adversarial Reinforcement Learning for Procedural Content Generation Linus Gisslén, Andy

    Eakins, Camilo Gordillo, Joakim Bergdahl, Konrad Tollmar https://arxiv.org/abs/2103.04847
  37. CoG 2021: Adversarial Reinforcement Learning for Procedural Content Generation SEED

    – Electronic Arts https://www.youtube.com/watch?v=kNj0qcc6Fpg
  38. Adversarial Reinforcement Learning for Procedural Content Generation Linus Gisslén, Andy

    Eakins, Camilo Gordillo, Joakim Bergdahl, Konrad Tollmar https://arxiv.org/abs/2103.04847
  39. Adversarial Reinforcement Learning for Procedural Content Generation Linus Gisslén, Andy

    Eakins, Camilo Gordillo, Joakim Bergdahl, Konrad Tollmar https://arxiv.org/abs/2103.04847
  40. Adversarial Reinforcement Learning for Procedural Content Generation Linus Gisslén, Andy

    Eakins, Camilo Gordillo, Joakim Bergdahl, Konrad Tollmar https://arxiv.org/abs/2103.04847
  41. CoG 2021: Adversarial Reinforcement Learning for Procedural Content Generation SEED

    – Electronic Arts https://www.youtube.com/watch?v=kNj0qcc6Fpg
  42. Deep Reinforcement Learning for Navigation in AAA Video Games -

    Video appendix https://www.youtube.com/watch?v=WFIf9Wwlq8M
  43. • 6月7日(水) 15:30 〜 15:50 M会場 (会議室 D1) • [2M5-GS-10-01]

    『ぷよぷよ』における深層強化学習による自己対戦の適応 〇福地 昂大1、三宅 陽一郎 • https://confit.atlas.jp/guide/event/jsai2023/session/2M11- 15/tables?qMXonUBuri 関連研究
  44. 関連研究 6月8日(木) 13:30-13:50 学生ポスターセッション • [3Xin4-79] カリキュラム学習を用いた迷路の経路形状生成制御手法 〇星野 貴彦1、三宅 陽一郎

    https://confit.atlas.jp/guide/event/jsai2023/session/3X01- 80/tables?VgMKAJejQF 6月8日(木) 16:30-16:50 E会場 (大会議室 A2) 学生講演 [3E5-GS-2-04] ローグライクゲームの強化学習における好奇心を用いた学 習手法の比較検討 〇荒井 新太郎、三宅陽一郎 https://confit.atlas.jp/guide/event/jsai2023/session/3E06- 09/tables?KjhLMMlEwm
  45. ゲームデザイナーを 助けるAI NeurIPS 2022: Imitation Learning to Inform the Design

    of Computer Games https://www.ea.com/seed/news/imitation-learning-design-validation-games
  46. ゲームデザイナーを 補助するAI • ゲームデザイナーのプ レイを模倣し • ゲームデザイナーの 作ったレベルデザイン を自動プレイして •

    デザインの検証を助け る人工知能 NeurIPS 2022: Imitation Learning to Inform the Design of Computer Games https://www.ea.com/seed/news/imitation-learning-design-validation-games
  47. • プレイヤーの行動を模倣する人工知能 NeurIPS 2022: Imitation Learning to Inform the Design

    of Computer Games https://www.ea.com/seed/news/imitation-learning-design-validation-games ゲームデザイナーを助けるAI
  48. ゲームデザイナーの作ったレベルを 自動テストするAI NeurIPS 2022: Imitation Learning to Inform the Design

    of Computer Games https://www.ea.com/seed/news/imitation-learning-design-validation-games