[論文サーベイ] Survey on World Models for Games

Slide 1

Slide 1 text

Survey on World Models for Games Learning to Simulate Dynamic Environments with GameGAN, Seung Wook Kim et al. (NVIDIA et al.) [CVPR'20] (Cited by:123 ) 1/18 2024/11/20 Diﬀusion for World Modeling: Visual Details Matter in Atari, Eloi Alonso et al. (University of Geneva et al.) [NeurIPS'24 (Spotlight)] (Cited by:6) Diﬀusion Models Are Real-Time Game Engines, Dani Valevski et al. (Google Research et al.) [ICLR'25 Submission] (Cited by:8)

Slide 2

Slide 2 text

2/18 ❖ VAE（Vision Model） ➢ 入力：観測画像xt ➢ 出力：潜在表現zt ❖ MDN-RNN（Memory Model） ➢ 入力：潜在表現zt, 隠れ状態ht ➢ 出力1：次の隠れ状態ht+1 ➢ 出力2：次の潜在表現zt+1 の分布を表すパラメータ ❖ Controller ➢ 入力：潜在表現zt, 隠れ状態ht ➢ 出力：行動at World Models | 基礎知識 NeurIPS'18:World Models

Slide 3

Slide 3 text

目的：観測データからゲーム環境の　　　　ルールを学習する応用：ロボティクスや自動運転シミュ　　　レーションへの活用成果：GANを用いてゲームエンジンを　　　再現できることを証明 3/18 GameGAN | 概要

Slide 4

Slide 4 text

役割：環境の動的変化をモデル化して次　　　　の状態を予測入力：行動at, ランダムノイズzt, 　過去のメモリmt-1, 観測xt, 出力：内部状態ht 特徴： ● 現在の観測xtと行動atを基に，次の環境の変化を計算 ● ランダムノイズztにより，内部状態ht にランダム性を追加 ● 過去のメモリmt−1を利用し，過去の環境情報を利用 4/18 GameGAN | 手法 (Dynamics Engine)

Slide 5

Slide 5 text

役割：過去の環境情報を保持し，時間的な　　　一貫性を維持する入力：内部状態ht, 過去のメモリmt−1 出力：更新されたメモリmt 特徴： ● mt−1 により，時間的な文脈を維持 ● 内部状態htを取り込み，環境情報を反映したメモリmtを生成 ● フレーム間で，視覚的な変化が自然になるようにしている 5/18 GameGAN | 手法 (Memory)

Slide 6

Slide 6 text

役割：内部状態htとメモリ状態mtを入力　　　として，次のフレームxt+1を生成入力：内部状態ht, メモリ状態mt 出力：次のフレームxt+1 特徴： ● メモリ状態mtを活用し，連続フレーム間での一貫性を確保 ● 内部状態htを基に，動的要素と静的要素を描画 ● GANの特性を活かし，リアルなフレームを生成 6/18 GameGAN | 手法 (Rendering Engine)

Slide 7

Slide 7 text

7/18 GameGAN | 実験結果左: 最終出力 (静的 + 動的) 中央: 静的要素右: 動的要素アイテムと敵キャラの出現/消失

Slide 8

Slide 8 text

目的：拡散モデル (DDPM) を活用して，世界モデルの性能を向上させる成果：拡散モデルが「世界モデルの画像生成と学習性能」に寄与することを実証 8/18 DIAMOND | 概要

Slide 9

Slide 9 text

役割：拡散モデルを使って，過去の観測と行　　　動を基に次のフレームを予測横軸：環境時間t 　　　エージェントが行動atを取る縦軸：デノイジング時間τ 　　　時間τ=Tからτ=0へと逆行し，ノイズ　　　が取り除かれ，次の観測xtを生成流れ： ● 各ステップで，過去の観測xt-1と行動 at-1が条件付けとして使用される ● 生成した観測xtを基に行動atを取る ● xt, atを条件付けとして次のステップで同様の処理を行う 9/18 DIAMOND | 手法

Slide 10

Slide 10 text

10/18 DIAMOND | 実験結果 11/26で人間のプレイヤーを上回る

Slide 11

Slide 11 text

11/18 DIAMOND | 実験結果

Slide 12

Slide 12 text

目的：拡散モデル (Stable Diﬀusion) を用いて，リアルタイムで高品質な　　　　ゲーム環境のシミュレーションを実現する成果：実際のゲームエンジンと生成したシミュレーションの区別がつかないほど　　の精度を実現 12/18 GameNGen | 概要

Slide 13

Slide 13 text

データ収集： ● RLエージェントがゲームプレイできるように訓練する ● 観測と行動のデータを記録する ● このデータを生成モデルの訓練データとして使用する 13/18 GameNGen | 手法 Decode

Slide 14

Slide 14 text

拡散モデルの訓練： ● Stable Diﬀusionを活用し，過去の観測と行動を条件付けとして次のフレームを予測 ● 過去の観測を潜在空間にエンコードし，ガウスノイズを追加 14/18 GameNGen | 手法 Decode

Slide 15

Slide 15 text

潜在空間デコーダのファインチューニング： ● 実際のゲーム環境から取得した正解フレームと生成フレームの誤差 (Diﬀusion Loss) を用いて，デコーダを訓練 ● Diﬀusion Loss (MSE損失に基づく) を最小化し，生成フレームの品質を向上 15/18 GameNGen | 手法 Decode

Slide 16

Slide 16 text

16/18 GameNGen | 実験結果

Slide 17

Slide 17 text

GameGAN： GANを使用した世界モデル 17/18 DIAMOND： DDPMを使用した世界モデル ❖ 傾向と今後 ➢ 拡散モデル × 世界モデル ➢ 音の生成を組み合わせるとゲームシミュレータが完成する？ GameNGen： Stable Diﬀusionを使用した世界モデルまとめ

Slide 18

Slide 18 text

18/18 ❏ GameGAN ❏ DIAMOND ❏ GameNGen 参考文献