Slide 1

Slide 1 text

三宅 陽一郎 2023.6.7 @人工知能学会全国大会 ゲームAI研究の新展開 - PCGML, PCGRL- https://www.facebook.com/youichiro.miyake https://miyayou.com/ [email protected] @miyayou

Slide 2

Slide 2 text

• [2J1-KS-20] ゲームAI研究の新展開 • 2023年6月7日(水) 09:00 〜 10:40 J会場 (中会議室 B3) • オーガナイザ:伊藤 毅志、山本 雅人、片寄 晴弘、池田 心 • https://confit.atlas.jp/guide/event/jsai2023/session/2J01-01/detail ゲームAI研究の新展開

Slide 3

Slide 3 text

ゲームAI研究の新展開 • 著者伊藤 毅志 編著 • 頁360頁 • ISBN978-4-274-23077-6 • 発売日2023/07/04 • 発行元オーム社 • https://www.ohmsha.co.jp/book/9784274230776/

Slide 4

Slide 4 text

My Works (2004-2023) AI for Game Titles Books

Slide 5

Slide 5 text

近著

Slide 6

Slide 6 text

近著

Slide 7

Slide 7 text

デジタルゲームにおける 記号主義から コネクショニズムへ

Slide 8

Slide 8 text

DeepMind StarCraft II Demonstration https://www.youtube.com/watch?v=cUTMhmVh1qs

Slide 9

Slide 9 text

StarCraftのAI • Santiago Ontañon, Gabriel Synnaeve, Alberto Uriarte, Florian Richoux, David Churchill, et al.. • “A Survey of Real-Time Strategy Game AI Research and Competition in StarCraft”. IEEE Transactions on Computational Intelligence and AI in games, IEEE Computational Intelligence Society, 2013, 5(4), pp.1-19. hal- 00871001 • https://hal.archives-ouvertes.fr/hal-00871001

Slide 10

Slide 10 text

StarCraftの7つのアーキテクチャ (2010-2020)

Slide 11

Slide 11 text

戦略思考 ハイレベル、抽象的 3分~ 知識収集と 学習 敵のモデル化 戦略決定 部隊形成 命令プランの構築 戦術思考 中間レベル 30秒~1分 スカウティング 戦闘タイミングと 位置 ユニットと建築物 の配置 反射コントロール 低レベル、物理的 ~1秒 小ユニット マルチエージェン パス検索 StarCraft 一般的なアーキテクチャ

Slide 12

Slide 12 text

戦闘 ゴール マネージャー ユニットグループ ベイジアン・ネット BroodWarBotQ 仲介モジュール 知能 マップ マネージャー 技術推定 ユニット フィルター 資源管理 ワーカー マネージャー 基地 マネージャー 生産 マネージャー 建築 マネージャー StarCraft BroodWarQ Bot アーキテクチャ

Slide 13

Slide 13 text

知能 建築命令マネージャー スカウト マネージャー 資源 マネージャー マクロ マネージャー 拡張 マネージャー 供給 マネージャー 部隊 マネージャー 封鎖経路 マネージャー 戦略 戦術 タスクマネージャー 建築設置 モジュール タスク n StarCraft SkyNet Bot アーキテクチャ

Slide 14

Slide 14 text

資源管理 戦闘 部隊マネージャー 防御マネージャー 戦闘マネージャー AIUR ムード マネージャー 知能 仲介モジュール スカウト マネー ジャー 情報マネージャー ワーカー マネージャー 基地 マネージャー 生産 マネージャー 建築 マネージャー スパイ マネー ジャー 消費 マネージャー StarCraft AIUR Bot アーキテクチャ

Slide 15

Slide 15 text

StarCraft~StarCraft2における 人工知能 (DeepMind, 2019) Oriol Vinyals, et al., “StarCraft II: A New Challenge for Reinforcement Learning”, https://arxiv.org/abs/1708.04782 PySC2 - StarCraft II Learning Environment https://github.com/deepmind/pysc2

Slide 16

Slide 16 text

StarCraft II API StarCraft II バイナリー PySC2 エージェント アクション select_rect(p1, p2) or build_supply(p3) or … 観察 資源 可能なアクション 建築命令 スクリーン (ゲーム情報) ミニマップ (特定の情報) 報酬 -1/0/+1 SC2LE

Slide 17

Slide 17 text

評価値 Value Network Baseline features アクション・タイプ ディレイ ユニット選択 命令発行 ターゲット選択 Residual MLP MLP MLP Pointer Network Attention D 分散表現 MLP 分散表現 MLP 分散表現 MLP Embedding MLP コア Deep LSTM スカラー エンコーダー MLP エンティティ エンコーダー トランス フォーマー 空間 エンコーダー ResNet ゲーム パラメーター群 エンティティ ミニマップ

Slide 18

Slide 18 text

クラシックゲームを用いた ディープラーニング環境構築 - 強化学習の発展-

Slide 19

Slide 19 text

はじめに

Slide 20

Slide 20 text

ゲームとディープラーニング 現状 • この3年間で、ゲーム産業以外で、ゲームを用いたディープ ラーニングの研究が増加している。 • 当のゲーム産業では、それ程多くない。 理由 • 強化学習(DQNなど)を研究するには、結局ルールを持つシ ミュレーション空間を使う必要がある。 • データがないところでディープラーニングを活用したい • 現実空間で応用する前に箱庭で成長させたい • ほとんどすべて研究環境がオープンソースになっている。

Slide 21

Slide 21 text

年 企業 テーマ 開発環境公開 2003 Microsoft 「Teo Feng」における強化学習 2005 Microsoft 「Forzamotor Sports」における強化学習 2013 DeepMind AtariのゲームをDQNで学習 〇 2015 DeepMind 囲碁 AlphaGO 2017 AnyLogic 倉庫・機械などモデルのシミュレーション Microsoft 「パックマン」多報酬学習 Hybrid Reward Architecture for Reinforcement Learning 〇 2019 Google 「サッカーシミュレーター」による強化学習の研究 〇 DeepMind 「Capture the flag」によるディープラーニング学習 〇 Microsoft 「AirSim」ドローンシミュレーター 〇 Nvidia 「ドライビングシミュレーター」 Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇 facebook 「CraftAssist」マインクラフト内で会話研究 〇 CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇 facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇 OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇 DeepMind 「StarCraft2」AlphaStar 〇 DeepMind 「Capture the Flag」QuakeIII エンジン 〇 2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇 DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇 OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

Slide 22

Slide 22 text

DQN (Deep Q network)とは

Slide 23

Slide 23 text

Deep Q Learning (深層強化学習) Q-Learning × Deep Learning

Slide 24

Slide 24 text

世界 五感 身体 言語 知識表 現型 知識 生成 Knowledge Making 意思決定 Decision Making 身体 運動 生成 Motion Making インフォメーション・フロー(情報回廊) 記憶 キャラクターにおける学習の原理 行動の表現 結果の表現 意思決定 Q(s,a) 関数

Slide 25

Slide 25 text

Deep Q Network (DQN)とは • Q = 予想される報酬 (意思決定関数) • S = State (座標、速度、現在の姿勢) • A = Action (キック、パンチ、波動拳) • R = 報酬 • Q (s,a ) という関数を決める方法 深層ニューラルネットワーク Deep Q Network

Slide 26

Slide 26 text

世界 五感 身体 言語 知識表 現型 知識 生成 Knowledge Making 意思決定 Decision Making 身体 運動 生成 Motion Making インフォメーション・フロー(情報回廊) 記憶 キャラクターにおける学習の原理 行動の表現 状態・結果の表現 意思決定 ニューラル ネットワーク (DQN)

Slide 27

Slide 27 text

Deep Q-Learning (2013) Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller (DeepMind Technologies) Playing Atari with Deep Reinforcement Learning http://www.cs.toronto.edu/~vmnih/docs/dqn.pdf 画面を入力 操作はあらかじめ教える スコアによる強化学習

Slide 28

Slide 28 text

学習過程解析 Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller (DeepMind Technologies) Playing Atari with Deep Reinforcement Learning http://www.cs.toronto.edu/~vmnih/docs/dqn.pdf

Slide 29

Slide 29 text

AlphaGO 膨大な棋譜のデータ (人間では多過ぎて 読めない) この棋譜を そっくり打てる ように学習する 自己対戦して 棋譜を貯める この棋譜を そっくり打てる ように学習する AlphaGO

Slide 30

Slide 30 text

• Pπ ロールアウトポリシー(ロールアウトで討つ手を決める。 Pπ(a|s) sという状態でaを討つ確率) • Pσ Supervised Learning Network プロの討つ手からその 手を討つ確率を決める。Pσ(a|s)sという状態でaを討つ確 率。 • Pρ 強化学習ネットワーク。Pρ(学習済み)に初期化。 • Vθ(s’) 局面の状態 S’ を見たときに、勝敗の確率を予測 する関数。つまり、勝つか、負けるかを返します。 Mastering the game of Go with deep neural networks and tree search http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html https://deepmind.com/research/alphago/

Slide 31

Slide 31 text

囲碁AI: 位置評価関数から位置評価ニューラルネットワークへ Mastering the game of Go with deep neural networks and tree search http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html https://deepmind.com/research/alphago/ S Q R

Slide 32

Slide 32 text

年 企業 テーマ Open 2003 Microsoft 「Teo Feng」における強化学習 2005 Microsoft 「Forzamotor Sports」における強化学習 2013 DeepMind AtariのゲームをDQNで学習 〇 2015 DeepMind 囲碁 AlphaGO 2017 AnyLogic 倉庫・機械などモデルのシミュレーション Microsoft 「パックマン」多報酬学習 Hybrid Reward Architecture for Reinforcement Learning 〇 2019 Google 「サッカーシミュレーター」による強化学習の研究 〇 DeepMind 「Capture the flag」によるディープラーニング学習 〇 Microsoft 「AirSim」ドローンシミュレーター 〇 Nvidia 「ドライビングシミュレーター」 Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇 facebook 「CraftAssist」マインクラフト内で会話研究 〇 CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇 facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇 OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇 DeepMind 「StarCraft2」AlphaStar 〇 DeepMind 「Capture the Flag」QuakeIII エンジン 〇 2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇 DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇 OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

Slide 33

Slide 33 text

Deep Mind社 「Agent 57」 • Atariの古典的なゲーム57個を人間よりうまくプレイできるよう になった Deep Mind社のAI • https://deepmind.com/blog/article/Agent57-Outperforming- the-human-Atari-benchmark

Slide 34

Slide 34 text

DQNのさらなる発展 • 最後までスコアに苦しんだゲーム • Montezuma’s Revenge • Pitfall • Solaris • Skiing Agent57: Outperforming the human Atari benchmark (DeepMind) https://deepmind.com/blog/article/Agent57-Outperforming-the-human-Atari-benchmark

Slide 35

Slide 35 text

モンテカルロ木探索とは (MCTS)

Slide 36

Slide 36 text

現在の盤面の状態 負 勝率 : 4/5 勝率 : 2/5 勝率 : 3/5 基本、 乱数による プレイアウト 勝 候補となる手 図7.14 美添 一樹、“ コンピュータ囲碁における モンテカルロ法 〜理論編〜” URL http://minerva.cs.uec.ac.jp/~ito/entcog/contents/lecture/date/5-yoshizoe.pdf 参考

Slide 37

Slide 37 text

W_1(=80) W_2(=70) W_3(=120) 試行回数 報酬合計 3回 2回 4回 全試行回数 9回 20ドル/回 マシン1 マシン2 マシン3 120 80 + 2 ∗ 9 80 70 40 + 2 ∗ 9 40 80 60 + 2 ∗ 9 60 UCB1 掛け金総額 60ドル 40ドル 80ドル プレイヤー 図7.15 美添 一樹、“ コンピュータ囲碁における モンテカルロ法 〜理論編〜” URL http://minerva.cs.uec.ac.jp/~ito/entcog/contents/lecture/date/5-yoshizoe.pdf 参考

Slide 38

Slide 38 text

現在のゲーム状態 次の一手のゲーム状態 次の次の一手のゲーム状態 末端 次の一手の中で一番 リグレットの値が一番高いノード 一回シミュレーションを加えたら、それまでのノードに結果を反映してリグレット値を更新 次の次の一手の中で一番 リグレットの値が一番高い ノード 次の次の次の一手の中で一番 リグレットの値が一番高いノード 図7.16 美添 一樹、“ コンピュータ囲碁における モンテカルロ法 〜理論編〜” URL http://minerva.cs.uec.ac.jp/~ito/entcog/contents/lecture/date/5-yoshizoe.pdf 参考

Slide 39

Slide 39 text

敵チーム AIチーム AIチーム ゲート

Slide 40

Slide 40 text

アクション・バケット 末端のノード 選択された アクション・バケット 現在のゲーム状態 図7.20 Gwaredd Mountain, "Tactical Planning and Real-time MCTS in Fable Legends", nucl.ai, 2015 参考

Slide 41

Slide 41 text

Fable Legends Gameplay Demo - IGN Live: E3 2014 https://www.youtube.com/watch?v=hQM_Dw_b0jE

Slide 42

Slide 42 text

年 企業 テーマ 開発環境公開 2003 Microsoft 「Teo Feng」における強化学習 2005 Microsoft 「Forzamotor Sports」における強化学習 2013 DeepMind AtariのゲームをDQNで学習 〇 2015 DeepMind 囲碁 AlphaGO 2017 AnyLogic 倉庫・機械などモデルのシミュレーション Microsoft 「パックマン」多報酬学習 Hybrid Reward Architecture for Reinforcement Learning 〇 2019 Google 「サッカーシミュレーター」による強化学習の研究 〇 DeepMind 「Capture the flag」によるディープラーニング学習 〇 Microsoft 「AirSim」ドローンシミュレーター 〇 Nvidia 「ドライビングシミュレーター」 Mircrosoft 「TextWorld」アドベンチャーゲームを題材に言語学習 〇 facebook 「CraftAssist」マインクラフト内で会話研究 〇 CarMelon カーネギーメロン大学「MineRL」マインクラフトを使ったAIコンテスト 〇 facebook 「LIGHT」ファンタジーワールドを構築してクラウドワーカーで会話研究 〇 OpenAI 「Dota2」OpenAIによる「OpenAIFive」 〇 DeepMind 「StarCraft2」AlphaStar 〇 DeepMind 「Capture the Flag」QuakeIII エンジン 〇 2020 Nvidia GameGAN「ディープラーニングによるパックマンの目コピー」 〇 DeepMind 「Agent57」AtariのほとんどのゲームをDQN+LSTMなどで学習 〇 OpenAI 「HIDE AND SEEK」かくれんぼを用いたマルチエージェントのカリキュラム学習 〇

Slide 43

Slide 43 text

Early in the learning process … … after 15 minutes of learning Reward for decrease in Wulong Goth’s health Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products" http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx

Slide 44

Slide 44 text

Early in the learning process … … after 15 minutes of learning Punishment for decrease in either player’s health Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products" http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx

Slide 45

Slide 45 text

PCGとは? • PCG 自動的にコンテンツを生成すること。 • PCGとたんに書いた場合、アルゴリズムで生成する 1980年~ • PCGML マシンラーニング(ML)で生成する 2018年~ • PCGRL 強化学習で生成する 2020年-

Slide 46

Slide 46 text

乱数 乱数 部屋を作成 部屋をつなぐ

Slide 47

Slide 47 text

F+G+F F+G+F-G+F+G F+G+F-G+F+G-F+G+F+G+F-G F+G+F-G+F+G-F+G+F+G+F-G –F-G+F-G+F+G+F-G-F-G-F+G

Slide 48

Slide 48 text

T(F) T(T(F)) T(T(T((F)))

Slide 49

Slide 49 text

レベル キャラクターAI レベルを認識し、 自律的な判断を行い、 身体を動かす. 敵・味方 キャラクタ- プレイヤー 情報獲得 スパーシャルAI 空間全般に関する思考 メタAI, キャラクターAIの為に 空間認識のためのデータを準備 ナビゲーション・データの管理 パス検索 戦術位置解析 オブジェクト認識 メタAI エージェントを動的に配置 レベル状況を監視 エージェントに指示 ゲームの流れを作る Order Ask & Report ゲーム全体をコントロール Support query query 頭脳として機能 MCS-AI動的 連携モデル

Slide 50

Slide 50 text

意思決定 (学習・進化アルゴリズム) スパーシャル AI モーション クエリー 返答 報告 ボディ層 (身体層) 環境 センサー センサー センサー 状態指定 報告 メタAI (学習・進化の管理) クエリー 返答 命令(学習モード) 学習結果報告 センサー ナビゲー ションAI モーション指定 キャラクターAI NPCのゲームプレイ結果、観測 自動生成 プロシージャル技術 PCGML 伝達 ゲーム状況 全体の認識 静的・動的解析

Slide 51

Slide 51 text

参考文献 • A. Summerville, S. Snodgrass, M. Guzdial, C. Holmgård, A. K. Hoover, A. Isaksen, A. Nealen , J. Togelius, Procedural Content Generation via Machine Learning (PCGML), 2018. • M. Guzdial, S. Snodgrass , A. J. Summerville, Procedural Content Generation via Machine Learning: An Overview, Springer, 2022. • A. Summerville , M. Mateas, “Super Mario as a String: Platformer Level Generation Via LSTMs,” Proceedings of 1st International Joint Conference of DiGRA and FDG, http://www.digra.org/wp- content/uploads/digital-library/paper_129.pdf, 2016.

Slide 52

Slide 52 text

ボトムからトップ、トップから ボトムをつなぐスネーキングの インプットデータ形式 レベルの深さ(5カラムごとに特殊文字を追加) ブロック キャラクターパス カラム 敵砲台 ※ ※ ※ ※ ※ ※ ※ ※ ※ コイン ※ ※ ※ ※ パイプ

Slide 53

Slide 53 text

? ? LSTMブロック … 512ブロック … 512ブロック … 512ブロック 全結合 全結合 200データポイント ワンホットベクトル

Slide 54

Slide 54 text

PCGRL (Procedural Contents Generation via Reinforcement Leaning) PCGRL: Procedural Content Generation via Reinforcement Learning Ahmed Khalifa, Philip Bontrager, Sam Earle, Julian Togelius https://arxiv.org/abs/2001.09212

Slide 55

Slide 55 text

No content

Slide 56

Slide 56 text

メタAI RLエージェント 認識 作用 報酬関数計算 状態 𝑺𝑺𝒕𝒕 状態 𝑺𝑺𝒕𝒕+𝟏𝟏 ループ 作用 𝑨𝑨𝒕𝒕+𝟏𝟏 報酬 𝑹𝑹𝒕𝒕+𝟏𝟏

Slide 57

Slide 57 text

No content

Slide 58

Slide 58 text

No content

Slide 59

Slide 59 text

No content

Slide 60

Slide 60 text

No content

Slide 61

Slide 61 text

https://medium.com/deepgamingai/game-level-design-with-reinforcement-learning-52b02bb94954

Slide 62

Slide 62 text

No content

Slide 63

Slide 63 text

No content

Slide 64

Slide 64 text

No content

Slide 65

Slide 65 text

No content

Slide 66

Slide 66 text

No content

Slide 67

Slide 67 text

• https://twitter.com/togelius/status/1222038094507102208 • https://twitter.com/i/status/1222038094507102208

Slide 68

Slide 68 text

Adversarial Reinforcement Learning for Procedural Content Generation Adversarial Reinforcement Learning for Procedural Content Generation Linus Gisslén, Andy Eakins, Camilo Gordillo, Joakim Bergdahl, Konrad Tollmar https://arxiv.org/abs/2103.04847

Slide 69

Slide 69 text

Adversarial Reinforcement Learning for Procedural Content Generation Linus Gisslén, Andy Eakins, Camilo Gordillo, Joakim Bergdahl, Konrad Tollmar https://arxiv.org/abs/2103.04847

Slide 70

Slide 70 text

Adversarial Reinforcement Learning for Procedural Content Generation Linus Gisslén, Andy Eakins, Camilo Gordillo, Joakim Bergdahl, Konrad Tollmar https://arxiv.org/abs/2103.04847

Slide 71

Slide 71 text

Adversarial Reinforcement Learning for Procedural Content Generation Linus Gisslén, Andy Eakins, Camilo Gordillo, Joakim Bergdahl, Konrad Tollmar https://arxiv.org/abs/2103.04847

Slide 72

Slide 72 text

CoG 2021: Adversarial Reinforcement Learning for Procedural Content Generation SEED – Electronic Arts https://www.youtube.com/watch?v=kNj0qcc6Fpg

Slide 73

Slide 73 text

Adversarial Reinforcement Learning for Procedural Content Generation Linus Gisslén, Andy Eakins, Camilo Gordillo, Joakim Bergdahl, Konrad Tollmar https://arxiv.org/abs/2103.04847

Slide 74

Slide 74 text

Adversarial Reinforcement Learning for Procedural Content Generation Linus Gisslén, Andy Eakins, Camilo Gordillo, Joakim Bergdahl, Konrad Tollmar https://arxiv.org/abs/2103.04847

Slide 75

Slide 75 text

Adversarial Reinforcement Learning for Procedural Content Generation Linus Gisslén, Andy Eakins, Camilo Gordillo, Joakim Bergdahl, Konrad Tollmar https://arxiv.org/abs/2103.04847

Slide 76

Slide 76 text

CoG 2021: Adversarial Reinforcement Learning for Procedural Content Generation SEED – Electronic Arts https://www.youtube.com/watch?v=kNj0qcc6Fpg

Slide 77

Slide 77 text

Deep Reinforcement Learning for Navigation in AAA Video Games https://montreal.ubisoft.com/en/deep-reinforcement-learning-for-navigation-in-aaa- video-games/

Slide 78

Slide 78 text

Deep Reinforcement Learning for Navigation in AAA Video Games https://montreal.ubisoft.com/en/deep-reinforcement-learning-for-navigation-in-aaa- video-games/

Slide 79

Slide 79 text

手法 (1)状態:3次元占有マップと2次元深度マップを取る (2)強化学習する (3)ランダムにエージェント・シリンダーを生成して学習 Deep Reinforcement Learning for Navigation in AAA Video Games https://montreal.ubisoft.com/en/deep-reinforcement-learning-for-navigation-in-aaa- video-games/

Slide 80

Slide 80 text

Deep Reinforcement Learning for Navigation in AAA Video Games https://montreal.ubisoft.com/en/deep-reinforcement-learning-for-navigation-in-aaa-video-games/

Slide 81

Slide 81 text

Deep Reinforcement Learning for Navigation in AAA Video Games https://montreal.ubisoft.com/en/deep-reinforcement-learning-for-navigation-in-aaa-video-games/

Slide 82

Slide 82 text

Deep Reinforcement Learning for Navigation in AAA Video Games - Video appendix https://www.youtube.com/watch?v=WFIf9Wwlq8M

Slide 83

Slide 83 text

• 6月7日(水) 15:30 〜 15:50 M会場 (会議室 D1) • [2M5-GS-10-01] 『ぷよぷよ』における深層強化学習による自己対戦の適応 〇福地 昂大1、三宅 陽一郎 • https://confit.atlas.jp/guide/event/jsai2023/session/2M11- 15/tables?qMXonUBuri 関連研究

Slide 84

Slide 84 text

関連研究 6月8日(木) 13:30-13:50 学生ポスターセッション • [3Xin4-79] カリキュラム学習を用いた迷路の経路形状生成制御手法 〇星野 貴彦1、三宅 陽一郎 https://confit.atlas.jp/guide/event/jsai2023/session/3X01- 80/tables?VgMKAJejQF 6月8日(木) 16:30-16:50 E会場 (大会議室 A2) 学生講演 [3E5-GS-2-04] ローグライクゲームの強化学習における好奇心を用いた学 習手法の比較検討 〇荒井 新太郎、三宅陽一郎 https://confit.atlas.jp/guide/event/jsai2023/session/3E06- 09/tables?KjhLMMlEwm

Slide 85

Slide 85 text

ゲームデザイナーを 助けるAI NeurIPS 2022: Imitation Learning to Inform the Design of Computer Games https://www.ea.com/seed/news/imitation-learning-design-validation-games

Slide 86

Slide 86 text

第零次: ゲームデザイナーの手元でAIによる QAテストの構築

Slide 87

Slide 87 text

ゲームデザイナーを助けるAI • ゲームデザイナーが作ったものを、すぐに評価する • 誰が? • エージェント=プレイヤーの代わりになる • このエージェントを鍛えて、ゲームデザイナーの役に立たせる

Slide 88

Slide 88 text

AIによる第零次QA 第一次:現場レベルのQAテスト (1日~1週間) 第二次:品質管理による小規模テスト (1週~3週間) 第三次:品質管理による大規模テスト (1ヵ月~)

Slide 89

Slide 89 text

第一次:現場レベルのQAテスト (1日~1週間) 第二次:品質管理による小規模テスト (1週~3週間) 第三次:品質管理による大規模テスト (1ヵ月~) 第零次:ゲームデザイナーの手元で AIによるQAテスト(1秒~1日) 理想的なバグの減り方 バグの数 時間

Slide 90

Slide 90 text

ゲームデザイナーを 補助するAI • ゲームデザイナーのプ レイを模倣し • ゲームデザイナーの 作ったレベルデザイン を自動プレイして • デザインの検証を助け る人工知能 NeurIPS 2022: Imitation Learning to Inform the Design of Computer Games https://www.ea.com/seed/news/imitation-learning-design-validation-games

Slide 91

Slide 91 text

• プレイヤーの行動を模倣する人工知能 NeurIPS 2022: Imitation Learning to Inform the Design of Computer Games https://www.ea.com/seed/news/imitation-learning-design-validation-games ゲームデザイナーを助けるAI

Slide 92

Slide 92 text

ゲームデザイナーの作ったレベルを 自動テストするAI NeurIPS 2022: Imitation Learning to Inform the Design of Computer Games https://www.ea.com/seed/news/imitation-learning-design-validation-games

Slide 93

Slide 93 text

Imitation Learning to Inform the Design of Computer Game https://www.youtube.com/watch?v=nhOfsZk51IQ&t=1s