$30 off During Our Annual Pro Sale. View Details »

ゲームAI研究の新展開 - PCGML, PCGRL-

miyayou
June 10, 2023

ゲームAI研究の新展開 - PCGML, PCGRL-

人工知能学会全国大会 2023におけるセッション「ゲームAI研究の新展開」の発表資料です。

PCGML (Procedural Contents Generation via Machine Learning)
PCGRL (Procedural Contents Generation via Machine Learning)

を中心に。

miyayou

June 10, 2023
Tweet

More Decks by miyayou

Other Decks in Science

Transcript

  1. 三宅 陽一郎
    2023.6.7 @人工知能学会全国大会
    ゲームAI研究の新展開
    - PCGML, PCGRL-
    https://www.facebook.com/youichiro.miyake
    https://miyayou.com/
    [email protected] @miyayou

    View Slide

  2. • [2J1-KS-20] ゲームAI研究の新展開
    • 2023年6月7日(水) 09:00 〜 10:40 J会場 (中会議室 B3)
    • オーガナイザ:伊藤 毅志、山本 雅人、片寄 晴弘、池田 心
    • https://confit.atlas.jp/guide/event/jsai2023/session/2J01-01/detail
    ゲームAI研究の新展開

    View Slide

  3. ゲームAI研究の新展開
    • 著者伊藤 毅志 編著
    • 頁360頁
    • ISBN978-4-274-23077-6
    • 発売日2023/07/04
    • 発行元オーム社
    • https://www.ohmsha.co.jp/book/9784274230776/

    View Slide

  4. My Works (2004-2023)
    AI for Game Titles
    Books

    View Slide

  5. 近著

    View Slide

  6. 近著

    View Slide

  7. デジタルゲームにおける
    記号主義から
    コネクショニズムへ

    View Slide

  8. DeepMind StarCraft II Demonstration
    https://www.youtube.com/watch?v=cUTMhmVh1qs

    View Slide

  9. StarCraftのAI
    • Santiago Ontañon, Gabriel Synnaeve, Alberto Uriarte, Florian
    Richoux, David Churchill, et al..
    • “A Survey of Real-Time Strategy Game AI Research and
    Competition in StarCraft”. IEEE Transactions on
    Computational Intelligence and AI in games, IEEE
    Computational Intelligence Society, 2013, 5(4), pp.1-19. hal-
    00871001
    • https://hal.archives-ouvertes.fr/hal-00871001

    View Slide

  10. StarCraftの7つのアーキテクチャ (2010-2020)

    View Slide

  11. 戦略思考
    ハイレベル、抽象的
    3分~
    知識収集と
    学習
    敵のモデル化
    戦略決定
    部隊形成
    命令プランの構築
    戦術思考
    中間レベル
    30秒~1分
    スカウティング
    戦闘タイミングと
    位置
    ユニットと建築物
    の配置
    反射コントロール
    低レベル、物理的
    ~1秒
    小ユニット
    マルチエージェン
    パス検索
    StarCraft 一般的なアーキテクチャ

    View Slide

  12. 戦闘
    ゴール
    マネージャー
    ユニットグループ
    ベイジアン・ネット
    BroodWarBotQ
    仲介モジュール
    知能
    マップ
    マネージャー
    技術推定
    ユニット
    フィルター
    資源管理
    ワーカー
    マネージャー
    基地
    マネージャー
    生産
    マネージャー
    建築
    マネージャー
    StarCraft BroodWarQ Bot アーキテクチャ

    View Slide

  13. 知能
    建築命令マネージャー
    スカウト
    マネージャー
    資源
    マネージャー
    マクロ
    マネージャー
    拡張
    マネージャー
    供給
    マネージャー
    部隊
    マネージャー
    封鎖経路
    マネージャー
    戦略
    戦術
    タスクマネージャー
    建築設置
    モジュール
    タスク n
    StarCraft SkyNet Bot アーキテクチャ

    View Slide

  14. 資源管理
    戦闘
    部隊マネージャー
    防御マネージャー
    戦闘マネージャー
    AIUR
    ムード
    マネージャー
    知能
    仲介モジュール
    スカウト
    マネー
    ジャー
    情報マネージャー
    ワーカー
    マネージャー
    基地
    マネージャー
    生産
    マネージャー
    建築
    マネージャー
    スパイ
    マネー
    ジャー
    消費
    マネージャー
    StarCraft AIUR Bot アーキテクチャ

    View Slide

  15. StarCraft~StarCraft2における
    人工知能
    (DeepMind, 2019)
    Oriol Vinyals, et al., “StarCraft II: A New Challenge for Reinforcement Learning”,
    https://arxiv.org/abs/1708.04782
    PySC2 - StarCraft II Learning Environment
    https://github.com/deepmind/pysc2

    View Slide

  16. StarCraft II API
    StarCraft II バイナリー
    PySC2
    エージェント
    アクション select_rect(p1, p2) or build_supply(p3) or …
    観察
    資源
    可能なアクション
    建築命令
    スクリーン
    (ゲーム情報)
    ミニマップ
    (特定の情報)
    報酬
    -1/0/+1
    SC2LE

    View Slide

  17. 評価値
    Value
    Network
    Baseline features
    アクション・タイプ ディレイ ユニット選択
    命令発行 ターゲット選択
    Residual MLP MLP MLP Pointer
    Network
    Attention D
    分散表現
    MLP
    分散表現
    MLP
    分散表現
    MLP
    Embedding
    MLP
    コア
    Deep LSTM
    スカラー
    エンコーダー
    MLP
    エンティティ
    エンコーダー
    トランス
    フォーマー
    空間
    エンコーダー
    ResNet
    ゲーム
    パラメーター群
    エンティティ ミニマップ

    View Slide

  18. クラシックゲームを用いた
    ディープラーニング環境構築
    - 強化学習の発展-

    View Slide

  19. はじめに

    View Slide

  20. ゲームとディープラーニング
    現状
    • この3年間で、ゲーム産業以外で、ゲームを用いたディープ
    ラーニングの研究が増加している。
    • 当のゲーム産業では、それ程多くない。
    理由
    • 強化学習(DQNなど)を研究するには、結局ルールを持つシ
    ミュレーション空間を使う必要がある。
    • データがないところでディープラーニングを活用したい
    • 現実空間で応用する前に箱庭で成長させたい
    • ほとんどすべて研究環境がオープンソースになっている。

    View Slide

  21. 年 企業 テーマ 開発環境公開
    2003 Microsoft 「Teo Feng」における強化学習
    2005 Microsoft 「Forzamotor Sports」における強化学習
    2013 DeepMind AtariのゲームをDQNで学習 〇
    2015 DeepMind 囲碁 AlphaGO
    2017 AnyLogic 倉庫・機械などモデルのシミュレーション
    Microsoft 「パックマン」多報酬学習
    Hybrid Reward Architecture for Reinforcement Learning

    2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
    DeepMind 「Capture the flag」によるディープラーニング学習 〇
    Microsoft 「AirSim」ドローンシミュレーター 〇
    Nvidia 「ドライビングシミュレーター」
    Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
    facebook 「CraftAssist」マインクラフト内で会話研究 〇
    CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
    facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
    OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
    DeepMind 「StarCraft2」AlphaStar 〇
    DeepMind 「Capture the Flag」QuakeIII エンジン 〇
    2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
    DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
    OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

    View Slide

  22. DQN (Deep Q network)とは

    View Slide

  23. Deep Q Learning (深層強化学習)
    Q-Learning
    ×
    Deep Learning

    View Slide

  24. 世界
    五感
    身体
    言語
    知識表
    現型
    知識
    生成
    Knowledge
    Making
    意思決定
    Decision
    Making
    身体
    運動
    生成
    Motion
    Making
    インフォメーション・フロー(情報回廊)
    記憶
    キャラクターにおける学習の原理
    行動の表現
    結果の表現 意思決定
    Q(s,a)
    関数

    View Slide

  25. Deep Q Network (DQN)とは
    • Q = 予想される報酬 (意思決定関数)
    • S = State (座標、速度、現在の姿勢)
    • A = Action (キック、パンチ、波動拳)
    • R = 報酬
    • Q (s,a ) という関数を決める方法
    深層ニューラルネットワーク
    Deep Q Network

    View Slide

  26. 世界
    五感
    身体
    言語
    知識表
    現型
    知識
    生成
    Knowledge
    Making
    意思決定
    Decision
    Making
    身体
    運動
    生成
    Motion
    Making
    インフォメーション・フロー(情報回廊)
    記憶
    キャラクターにおける学習の原理
    行動の表現
    状態・結果の表現 意思決定
    ニューラル
    ネットワーク
    (DQN)

    View Slide

  27. Deep Q-Learning (2013)
    Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves,
    Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller (DeepMind Technologies)
    Playing Atari with Deep Reinforcement Learning
    http://www.cs.toronto.edu/~vmnih/docs/dqn.pdf
    画面を入力
    操作はあらかじめ教える
    スコアによる強化学習

    View Slide

  28. 学習過程解析
    Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves,
    Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller (DeepMind Technologies)
    Playing Atari with Deep Reinforcement Learning
    http://www.cs.toronto.edu/~vmnih/docs/dqn.pdf

    View Slide

  29. AlphaGO
    膨大な棋譜のデータ
    (人間では多過ぎて
    読めない)
    この棋譜を
    そっくり打てる
    ように学習する
    自己対戦して
    棋譜を貯める
    この棋譜を
    そっくり打てる
    ように学習する
    AlphaGO

    View Slide

  30. • Pπ ロールアウトポリシー(ロールアウトで討つ手を決める。
    Pπ(a|s) sという状態でaを討つ確率)
    • Pσ Supervised Learning Network プロの討つ手からその
    手を討つ確率を決める。Pσ(a|s)sという状態でaを討つ確
    率。
    • Pρ 強化学習ネットワーク。Pρ(学習済み)に初期化。
    • Vθ(s’) 局面の状態 S’ を見たときに、勝敗の確率を予測
    する関数。つまり、勝つか、負けるかを返します。
    Mastering the game of Go with deep neural networks and tree search
    http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html
    https://deepmind.com/research/alphago/

    View Slide

  31. 囲碁AI:
    位置評価関数から位置評価ニューラルネットワークへ
    Mastering the game of Go with deep neural networks and tree search
    http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html
    https://deepmind.com/research/alphago/
    S
    Q R

    View Slide

  32. 年 企業 テーマ Open
    2003 Microsoft 「Teo Feng」における強化学習
    2005 Microsoft 「Forzamotor Sports」における強化学習
    2013 DeepMind AtariのゲームをDQNで学習 〇
    2015 DeepMind 囲碁 AlphaGO
    2017 AnyLogic 倉庫・機械などモデルのシミュレーション
    Microsoft 「パックマン」多報酬学習
    Hybrid Reward Architecture for Reinforcement Learning

    2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
    DeepMind 「Capture the flag」によるディープラーニング学習 〇
    Microsoft 「AirSim」ドローンシミュレーター 〇
    Nvidia 「ドライビングシミュレーター」
    Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
    facebook 「CraftAssist」マインクラフト内で会話研究 〇
    CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
    facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
    OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
    DeepMind 「StarCraft2」AlphaStar 〇
    DeepMind 「Capture the Flag」QuakeIII エンジン 〇
    2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
    DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
    OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

    View Slide

  33. Deep Mind社 「Agent 57」
    • Atariの古典的なゲーム57個を人間よりうまくプレイできるよう
    になった Deep Mind社のAI
    • https://deepmind.com/blog/article/Agent57-Outperforming-
    the-human-Atari-benchmark

    View Slide

  34. DQNのさらなる発展
    • 最後までスコアに苦しんだゲーム
    • Montezuma’s Revenge
    • Pitfall
    • Solaris
    • Skiing
    Agent57: Outperforming the human Atari benchmark (DeepMind)
    https://deepmind.com/blog/article/Agent57-Outperforming-the-human-Atari-benchmark

    View Slide

  35. モンテカルロ木探索とは
    (MCTS)

    View Slide

  36. 現在の盤面の状態

    勝率 : 4/5 勝率 : 2/5 勝率 : 3/5
    基本、
    乱数による
    プレイアウト

    候補となる手
    図7.14
    美添 一樹、“ コンピュータ囲碁における モンテカルロ法 〜理論編〜”
    URL http://minerva.cs.uec.ac.jp/~ito/entcog/contents/lecture/date/5-yoshizoe.pdf
    参考

    View Slide

  37. W_1(=80) W_2(=70) W_3(=120)
    試行回数
    報酬合計
    3回 2回 4回 全試行回数 9回
    20ドル/回
    マシン1 マシン2 マシン3
    120
    80
    +
    2 ∗ 9
    80
    70
    40
    +
    2 ∗ 9
    40
    80
    60
    +
    2 ∗ 9
    60
    UCB1
    掛け金総額 60ドル 40ドル 80ドル
    プレイヤー
    図7.15
    美添 一樹、“ コンピュータ囲碁における モンテカルロ法 〜理論編〜”
    URL http://minerva.cs.uec.ac.jp/~ito/entcog/contents/lecture/date/5-yoshizoe.pdf
    参考

    View Slide

  38. 現在のゲーム状態
    次の一手のゲーム状態
    次の次の一手のゲーム状態
    末端
    次の一手の中で一番
    リグレットの値が一番高いノード
    一回シミュレーションを加えたら、それまでのノードに結果を反映してリグレット値を更新
    次の次の一手の中で一番
    リグレットの値が一番高い
    ノード
    次の次の次の一手の中で一番
    リグレットの値が一番高いノード
    図7.16
    美添 一樹、“ コンピュータ囲碁における モンテカルロ法 〜理論編〜”
    URL http://minerva.cs.uec.ac.jp/~ito/entcog/contents/lecture/date/5-yoshizoe.pdf
    参考

    View Slide

  39. 敵チーム AIチーム
    AIチーム
    ゲート

    View Slide

  40. アクション・バケット
    末端のノード
    選択された
    アクション・バケット
    現在のゲーム状態
    図7.20
    Gwaredd Mountain,
    "Tactical Planning and Real-time MCTS in Fable Legends", nucl.ai, 2015
    参考

    View Slide

  41. Fable Legends Gameplay Demo - IGN Live: E3 2014
    https://www.youtube.com/watch?v=hQM_Dw_b0jE

    View Slide

  42. 年 企業 テーマ 開発環境公開
    2003 Microsoft 「Teo Feng」における強化学習
    2005 Microsoft 「Forzamotor Sports」における強化学習
    2013 DeepMind AtariのゲームをDQNで学習 〇
    2015 DeepMind 囲碁 AlphaGO
    2017 AnyLogic 倉庫・機械などモデルのシミュレーション
    Microsoft 「パックマン」多報酬学習
    Hybrid Reward Architecture for Reinforcement Learning

    2019 Google 「サッカーシミュレーター」による強化学習の研究 〇
    DeepMind 「Capture the flag」によるディープラーニング学習 〇
    Microsoft 「AirSim」ドローンシミュレーター 〇
    Nvidia 「ドライビングシミュレーター」
    Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇
    facebook 「CraftAssist」マインクラフト内で会話研究 〇
    CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇
    facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇
    OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇
    DeepMind 「StarCraft2」AlphaStar 〇
    DeepMind 「Capture the Flag」QuakeIII エンジン 〇
    2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇
    DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇
    OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

    View Slide

  43. Early in the learning process … … after 15 minutes of learning
    Reward for decrease in Wulong Goth’s health
    Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
    "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
    http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx

    View Slide

  44. Early in the learning process … … after 15 minutes of learning
    Punishment for decrease in either player’s health
    Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge
    "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products"
    http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx

    View Slide

  45. PCGとは?
    • PCG 自動的にコンテンツを生成すること。
    • PCGとたんに書いた場合、アルゴリズムで生成する 1980年~
    • PCGML マシンラーニング(ML)で生成する 2018年~
    • PCGRL 強化学習で生成する 2020年-

    View Slide

  46. 乱数
    乱数
    部屋を作成
    部屋をつなぐ

    View Slide

  47. F+G+F
    F+G+F-G+F+G
    F+G+F-G+F+G-F+G+F+G+F-G
    F+G+F-G+F+G-F+G+F+G+F-G
    –F-G+F-G+F+G+F-G-F-G-F+G

    View Slide

  48. T(F) T(T(F)) T(T(T((F)))

    View Slide

  49. レベル
    キャラクターAI
    レベルを認識し、
    自律的な判断を行い、
    身体を動かす.
    敵・味方
    キャラクタ-
    プレイヤー
    情報獲得
    スパーシャルAI
    空間全般に関する思考
    メタAI, キャラクターAIの為に
    空間認識のためのデータを準備
    ナビゲーション・データの管理
    パス検索 戦術位置解析 オブジェクト認識
    メタAI
    エージェントを動的に配置
    レベル状況を監視
    エージェントに指示
    ゲームの流れを作る
    Order
    Ask &
    Report
    ゲーム全体をコントロール
    Support
    query
    query
    頭脳として機能
    MCS-AI動的
    連携モデル

    View Slide

  50. 意思決定
    (学習・進化アルゴリズム)
    スパーシャル
    AI
    モーション
    クエリー
    返答
    報告
    ボディ層
    (身体層)
    環境
    センサー
    センサー
    センサー
    状態指定 報告
    メタAI
    (学習・進化の管理) クエリー
    返答
    命令(学習モード) 学習結果報告
    センサー
    ナビゲー
    ションAI
    モーション指定
    キャラクターAI
    NPCのゲームプレイ結果、観測
    自動生成 プロシージャル技術
    PCGML 伝達 ゲーム状況
    全体の認識
    静的・動的解析

    View Slide

  51. 参考文献
    • A. Summerville, S. Snodgrass, M. Guzdial, C. Holmgård, A. K. Hoover,
    A. Isaksen, A. Nealen , J. Togelius, Procedural Content Generation
    via Machine Learning (PCGML), 2018.
    • M. Guzdial, S. Snodgrass , A. J. Summerville, Procedural Content
    Generation via Machine Learning: An Overview, Springer, 2022.
    • A. Summerville , M. Mateas, “Super Mario as a String: Platformer
    Level Generation Via LSTMs,” Proceedings of 1st International Joint
    Conference of DiGRA and FDG, http://www.digra.org/wp-
    content/uploads/digital-library/paper_129.pdf, 2016.

    View Slide

  52. ボトムからトップ、トップから
    ボトムをつなぐスネーキングの
    インプットデータ形式
    レベルの深さ(5カラムごとに特殊文字を追加)
    ブロック
    キャラクターパス
    カラム
    敵砲台
    ※ ※ ※ ※

    ※ ※ ※

    コイン

    ※ ※

    パイプ

    View Slide

  53. ?
    ?
    LSTMブロック

    512ブロック

    512ブロック

    512ブロック
    全結合
    全結合
    200データポイント
    ワンホットベクトル

    View Slide

  54. PCGRL
    (Procedural Contents Generation
    via Reinforcement Leaning)
    PCGRL: Procedural Content Generation via Reinforcement Learning
    Ahmed Khalifa, Philip Bontrager, Sam Earle, Julian Togelius
    https://arxiv.org/abs/2001.09212

    View Slide

  55. View Slide

  56. メタAI
    RLエージェント
    認識 作用
    報酬関数計算
    状態 𝑺𝑺𝒕𝒕
    状態 𝑺𝑺𝒕𝒕+𝟏𝟏
    ループ
    作用 𝑨𝑨𝒕𝒕+𝟏𝟏
    報酬 𝑹𝑹𝒕𝒕+𝟏𝟏

    View Slide

  57. View Slide

  58. View Slide

  59. View Slide

  60. View Slide

  61. https://medium.com/deepgamingai/game-level-design-with-reinforcement-learning-52b02bb94954

    View Slide

  62. View Slide

  63. View Slide

  64. View Slide

  65. View Slide

  66. View Slide

  67. • https://twitter.com/togelius/status/1222038094507102208
    • https://twitter.com/i/status/1222038094507102208

    View Slide

  68. Adversarial Reinforcement Learning
    for Procedural Content Generation
    Adversarial Reinforcement Learning for Procedural Content Generation
    Linus Gisslén, Andy Eakins, Camilo Gordillo, Joakim Bergdahl, Konrad Tollmar
    https://arxiv.org/abs/2103.04847

    View Slide

  69. Adversarial Reinforcement Learning for Procedural Content Generation
    Linus Gisslén, Andy Eakins, Camilo Gordillo, Joakim Bergdahl, Konrad Tollmar
    https://arxiv.org/abs/2103.04847

    View Slide

  70. Adversarial Reinforcement Learning for Procedural Content Generation
    Linus Gisslén, Andy Eakins, Camilo Gordillo, Joakim Bergdahl, Konrad Tollmar
    https://arxiv.org/abs/2103.04847

    View Slide

  71. Adversarial Reinforcement Learning for Procedural Content Generation
    Linus Gisslén, Andy Eakins, Camilo Gordillo, Joakim Bergdahl, Konrad Tollmar
    https://arxiv.org/abs/2103.04847

    View Slide

  72. CoG 2021: Adversarial Reinforcement Learning for Procedural Content Generation
    SEED – Electronic Arts
    https://www.youtube.com/watch?v=kNj0qcc6Fpg

    View Slide

  73. Adversarial Reinforcement Learning for Procedural Content Generation
    Linus Gisslén, Andy Eakins, Camilo Gordillo, Joakim Bergdahl, Konrad Tollmar
    https://arxiv.org/abs/2103.04847

    View Slide

  74. Adversarial Reinforcement Learning for Procedural Content Generation
    Linus Gisslén, Andy Eakins, Camilo Gordillo, Joakim Bergdahl, Konrad Tollmar
    https://arxiv.org/abs/2103.04847

    View Slide

  75. Adversarial Reinforcement Learning for Procedural Content Generation
    Linus Gisslén, Andy Eakins, Camilo Gordillo, Joakim Bergdahl, Konrad Tollmar
    https://arxiv.org/abs/2103.04847

    View Slide

  76. CoG 2021: Adversarial Reinforcement Learning for Procedural Content Generation
    SEED – Electronic Arts
    https://www.youtube.com/watch?v=kNj0qcc6Fpg

    View Slide

  77. Deep Reinforcement Learning for Navigation in AAA Video Games
    https://montreal.ubisoft.com/en/deep-reinforcement-learning-for-navigation-in-aaa-
    video-games/

    View Slide

  78. Deep Reinforcement Learning for Navigation in AAA Video Games
    https://montreal.ubisoft.com/en/deep-reinforcement-learning-for-navigation-in-aaa-
    video-games/

    View Slide

  79. 手法
    (1)状態:3次元占有マップと2次元深度マップを取る
    (2)強化学習する
    (3)ランダムにエージェント・シリンダーを生成して学習
    Deep Reinforcement Learning for Navigation in AAA Video Games
    https://montreal.ubisoft.com/en/deep-reinforcement-learning-for-navigation-in-aaa-
    video-games/

    View Slide

  80. Deep Reinforcement Learning for Navigation in AAA Video Games
    https://montreal.ubisoft.com/en/deep-reinforcement-learning-for-navigation-in-aaa-video-games/

    View Slide

  81. Deep Reinforcement Learning for Navigation in AAA Video Games
    https://montreal.ubisoft.com/en/deep-reinforcement-learning-for-navigation-in-aaa-video-games/

    View Slide

  82. Deep Reinforcement Learning for Navigation in AAA Video Games - Video appendix
    https://www.youtube.com/watch?v=WFIf9Wwlq8M

    View Slide

  83. • 6月7日(水) 15:30 〜 15:50 M会場 (会議室 D1)
    • [2M5-GS-10-01]
    『ぷよぷよ』における深層強化学習による自己対戦の適応
    〇福地 昂大1、三宅 陽一郎

    https://confit.atlas.jp/guide/event/jsai2023/session/2M11-
    15/tables?qMXonUBuri
    関連研究

    View Slide

  84. 関連研究
    6月8日(木) 13:30-13:50 学生ポスターセッション
    • [3Xin4-79] カリキュラム学習を用いた迷路の経路形状生成制御手法
    〇星野 貴彦1、三宅 陽一郎
    https://confit.atlas.jp/guide/event/jsai2023/session/3X01-
    80/tables?VgMKAJejQF
    6月8日(木) 16:30-16:50 E会場 (大会議室 A2) 学生講演
    [3E5-GS-2-04] ローグライクゲームの強化学習における好奇心を用いた学
    習手法の比較検討
    〇荒井 新太郎、三宅陽一郎
    https://confit.atlas.jp/guide/event/jsai2023/session/3E06-
    09/tables?KjhLMMlEwm

    View Slide

  85. ゲームデザイナーを
    助けるAI
    NeurIPS 2022: Imitation Learning to Inform the Design of Computer Games
    https://www.ea.com/seed/news/imitation-learning-design-validation-games

    View Slide

  86. 第零次:
    ゲームデザイナーの手元でAIによる
    QAテストの構築

    View Slide

  87. ゲームデザイナーを助けるAI
    • ゲームデザイナーが作ったものを、すぐに評価する
    • 誰が?
    • エージェント=プレイヤーの代わりになる
    • このエージェントを鍛えて、ゲームデザイナーの役に立たせる

    View Slide

  88. AIによる第零次QA
    第一次:現場レベルのQAテスト
    (1日~1週間)
    第二次:品質管理による小規模テスト
    (1週~3週間)
    第三次:品質管理による大規模テスト
    (1ヵ月~)

    View Slide

  89. 第一次:現場レベルのQAテスト
    (1日~1週間)
    第二次:品質管理による小規模テスト
    (1週~3週間)
    第三次:品質管理による大規模テスト
    (1ヵ月~)
    第零次:ゲームデザイナーの手元で
    AIによるQAテスト(1秒~1日)
    理想的なバグの減り方
    バグの数
    時間

    View Slide

  90. ゲームデザイナーを
    補助するAI
    • ゲームデザイナーのプ
    レイを模倣し
    • ゲームデザイナーの
    作ったレベルデザイン
    を自動プレイして
    • デザインの検証を助け
    る人工知能
    NeurIPS 2022: Imitation Learning to Inform the Design of Computer Games
    https://www.ea.com/seed/news/imitation-learning-design-validation-games

    View Slide

  91. • プレイヤーの行動を模倣する人工知能
    NeurIPS 2022: Imitation Learning to Inform the Design of Computer Games
    https://www.ea.com/seed/news/imitation-learning-design-validation-games
    ゲームデザイナーを助けるAI

    View Slide

  92. ゲームデザイナーの作ったレベルを
    自動テストするAI
    NeurIPS 2022: Imitation Learning to Inform the Design of Computer Games
    https://www.ea.com/seed/news/imitation-learning-design-validation-games

    View Slide

  93. Imitation Learning to Inform the Design of Computer Game
    https://www.youtube.com/watch?v=nhOfsZk51IQ&t=1s

    View Slide