[Paper Introduction] Genie: Generative Interactive Environments

Genie: Generative Interactive Environments Symbol Emergence Systems Lab. Journal Club
Calendar June 13, 2025 Presenter: Taisuke Takayama

2 書誌情報 • タイトル： Genie: Generative Interactive Environments • 著者：
Jake Bruce (Google DeepMind), et al. • 採択状況： ICML 2024 （Best Paper Award） https://icml.cc/virtual/2024/oral/35508 https://proceedings.mlr.press/v235/bruce24a.html

3 どういった研究？ • 単一の画像・テキストからユーザーが操作可能な環境を生成 ◦ 多様なドメインの画像（手書きのスケッチ，実世界の写真など）から生成可能 • 大量のインターネット上の動画データから教師なしで学習フレームごとに操作可能な環境そのものを生成する生成的対話環境
（Generative Interactive Environments）を提案

4 提案手法全体のアーキテクチャ • Latent Action Model : 動画のフレーム間で取られた潜在的行動 ෤
𝑎 を出力 • Video Tokenizer : 動画データを離散トークン 𝑧 に圧縮 • Dynamics Model : トークン 𝑧 と潜在的行動 ෤ 𝑎 を受け取り，次のフレームを生成入力された動画データを3種類のコンポーネントで処理

5 提案手法準備① VQ-VAE [van den Oord+ 2017] • Latent
Action Model, Video Tokenizer で利用 • 𝐾 本の埋め込みからなる VQ-codebook を用意し，エンコーダの出力を最も近い VQ-codebook 内の埋め込みに対応するインデックスに変換 • Posterior Collapse という，強い decoder を使うときに潜在変数が無視される現象を回避 [van den Oord+ 2017] van den Oord, Aaron, et al. “Neural Discrete Representation Learning.” Advances in Neural Information Processing Systems, vol. 30, 2017. ベクトル量子化により，VAE の潜在変数を離散化

6 提案手法準備② ST-transformer [Xu+ 2020] • 提案手法のコンポーネント全般で利用 • 空間的アテンション層は同一タイムステップの
𝐻 × 𝑊 × 1 個のトークンにアテンションを向ける • 時間的アテンション層は 𝑇 タイムステップに渡って同じ場所の 1 × 1 × 𝑇 個のトークンにアテンションを向ける • 通常の ViT はフレーム数に対して2乗のオーダーで計算コストが増大するが，ST-transformer を使うとフレーム数に対して線形のオーダーに抑えられる [Xu+ 2020] Xu, Mingxing, et al. “Spatial-Temporal Transformer Networks for Traffic Flow Forecasting.” arXiv [Eess.SP], 9 Jan. 2020, http://arxiv.org/abs/2001.02908. arXiv. 空間的アテンション層と時間的アテンション層を交互に配置し，効率的にトークン間の時空間的な関連をとらえる

7 提案手法準備③ MaskGIT [Chang+ 2022] • Dynamics Model で利用
• エンコーダ，デコーダ，VQ-codebook の学習後，画像トークンの分布の学習時にマスクされたトークンを予測するタスクを解くことで双方向的なコンテキストを学習 [Chang+ 2022] Chang, Huiwen, et al. “MaskGIT: Masked Generative Image Transformer.” _Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition_, 2022, pp. 11315–11325. 画像トークン間の双方向的なコンテキストを利用できる transformer

8 提案手法 Latent Action Model （LAM） • 制御可能な環境の生成のためには，行動に条件づけられたフレームの予測が必要 • インターネット上の動画データにはほとんど行動ラベルが振られていない
• 過去の動画フレーム 𝒙1:𝑡 = 𝑥1 , … , 𝑥𝑡 と次のフレーム 𝑥𝑡+1 を受け取り，ො 𝑥𝑡+1 を再構成 • 潜在行動の種類 𝐴 の数を制限（論文中だと 𝐴 = 8）行動に関するラベルのない動画データから，VQ-VAE を用いて潜在的行動 ෤ 𝑎 を教師なし学習

9 提案手法 Video Tokenizer • 𝑇 フレームの動画データ 𝒙1:𝑇 = 𝑥1
, … , 𝑥𝑇 ∈ ℝ𝑇×𝐻×𝑊×𝐶 を入力として受け取り，各フレームに対応する離散的なトークン 𝑧1:𝑇 = 𝑧1 , … , 𝑧𝑇 ∈ を生成 • ST-transformer を組み込むことにより，計算量を抑えながら時空間的な関連をとらえたトークンを学習 • Causal mask により，トークン 𝑧𝑡 はタイムステップ 𝑡 までの動画フレーム 𝒙1:𝑡 の情報を含む時間的なダイナミクスを考慮しつつ入力動画を離散的なトークンに圧縮

10 提案手法 Dynamics Model 過去の動画フレームのトークンと潜在行動を統合し，新たな動画フレームに対応するトークンを予測 • MaskGIT [Chang+ 2022]
transformer のデコーダを ST-transformer と組み合わせて構成 • 動画トークン列 𝒛1:𝑇−1 と潜在行動列 ෥ 𝒂1:𝑇−1 を受け取り，動画トークン列 ෤ 𝒛2:𝑇 を予測 • 因果マスクによって ෤ 𝒛2:𝑇 を一度に出力できる [Chang+ 2022] Chang, Huiwen, et al. "Maskgit: Masked generative image transformer." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.

11 提案手法推論時（ユーザー操作時）の挙動 • ユーザーが操作するときは，ユーザーが実際に行動 𝑎𝑡 を与える • 学習された潜在的行動 ෤
𝑎𝑡 が実際にどのような行動に対応するのかはわからないが，一貫性があるのでそこから 𝑎𝑡 と ෤ 𝑎𝑡 の対応を取っている（っぽい） • 各タイムステップ 𝑡 でユーザーから行動 𝑎𝑡 が与えられるたび，これまでに予測したトークンの履歴 𝒛1:𝑡−1 と， 𝒂1:𝑡−1 に対応する潜在行動の履歴 ෥ 𝒂1:𝑡−1 をもとに，次のトークン 𝑧𝑡 を予測潜在行動の代わりにユーザーの入力した行動を利用し，最初のフレームから繰り返しダイナミクスを予測

12 実験データセット • インターネット上で公開されている 2D ゲームのプレイ動画から収集したデータセット（論文中では Platformers と呼称）を用いて学習
◦ 解像度 : 160 × 90 ◦ FPS: 10 • 680 万本の 16 秒動画クリップを含む大規模なデータセット • 同時に，ロボティクスデータセット（論文中では Robotics と呼称）も用いることで，提案手法の一般性を検証インターネット上の 2D ゲームのプレイ動画を用いて学習

13 実験スケーリング（モデルサイズ） • 異なるパラメータ数のモデルの学習曲線（左）と，最終的な結果（右） • スケーリングによって，最終的な結果が向上スケーリングによって学習に必要な計算回数は多くなるが，最終的な結果は向上する

14 実験スケーリング（バッチサイズ） • パラメータ数 2.7B のモデルについて，異なるバッチサイズで学習を行った場合の最終的な結果 • バッチサイズを大きくするに伴って，最終的な性能も向上
バッチサイズのスケーリングもまた最終的な結果を向上させる

15 実験対話環境の生成 • 入力テキストに text-to-image の変換を施した場合や，手描きスケッチを入力した場合，実世界画像を入力した場合で対話環境の生成に成功多様なプロンプトに対して操作可能な対話環境が生成

16 実験 Robotics データセットによる学習 Robotics データセットを用いた場合も，同様に対話環境を生成可能 • 同じモデルをロボット実験の動画データを用いて学習 •
ロボットの操作にとどまらず，ロボットと周囲の物体の間の相互作用まで再現 • ロボティクスのための基盤世界モデルの構築への応用が期待

17 実験エージェント学習シミュレータとしての展望既存の強化学習環境と同様の挙動を示すことが確認 • 未知のRL環境（CoinRun）の画像をプロンプトとして与えた場合も，生成した環境が元の CoinRun
環境と同様の挙動を示すことが確認 • 生成した環境において，模倣学習タスクが成功

18 課題 • 非現実的なハルシネーションを起こすことがある • 扱えるフレーム数に限りがある（論文では16フレームと言及） • 動作が遅い（生成される環境は 1FPS）

[Paper Introduction] Genie: Generative Interact...

[Paper Introduction] Genie: Generative Interactive Environments

Taisuke Takayama

Featured

Transcript

Genie: Generative Interactive Environments Symbol Emergence Systems Lab. Journal Club

2 書誌情報 • タイトル： Genie: Generative Interactive Environments • 著者：

4 提案手法全体のアーキテクチャ • Latent Action Model : 動画のフレーム間で取られた潜在的行動 ෤

5 提案手法準備① VQ-VAE [van den Oord+ 2017] • Latent

6 提案手法準備② ST-transformer [Xu+ 2020] • 提案手法のコンポーネント全般で利用 • 空間的アテンション層は同一タイムステップの

7 提案手法準備③ MaskGIT [Chang+ 2022] • Dynamics Model で利用

8 提案手法 Latent Action Model （LAM） • 制御可能な環境の生成のためには，行動に条件づけられたフレームの予測が必要 • インターネット上の動画データにはほとんど行動ラベルが振られていない

9 提案手法 Video Tokenizer • 𝑇 フレームの動画データ 𝒙1:𝑇 = 𝑥1

10 提案手法 Dynamics Model 過去の動画フレームのトークンと潜在行動を統合し，新たな動画フレームに対応するトークンを予測 • MaskGIT [Chang+ 2022]

11 提案手法推論時（ユーザー操作時）の挙動 • ユーザーが操作するときは，ユーザーが実際に行動 𝑎𝑡 を与える • 学習された潜在的行動 ෤

12 実験データセット • インターネット上で公開されている 2D ゲームのプレイ動画から収集したデータセット（論文中では Platformers と呼称）を用いて学習

14 実験スケーリング（バッチサイズ） • パラメータ数 2.7B のモデルについて，異なるバッチサイズで学習を行った場合の最終的な結果 • バッチサイズを大きくするに伴って，最終的な性能も向上

15 実験対話環境の生成 • 入力テキストに text-to-image の変換を施した場合や，手描きスケッチを入力した場合，実世界画像を入力した場合で対話環境の生成に成功多様なプロンプトに対して操作可能な対話環境が生成

16 実験 Robotics データセットによる学習 Robotics データセットを用いた場合も，同様に対話環境を生成可能 • 同じモデルをロボット実験の動画データを用いて学習 •

17 実験エージェント学習シミュレータとしての展望既存の強化学習環境と同様の挙動を示すことが確認 • 未知のRL環境（CoinRun）の画像をプロンプトとして与えた場合も，生成した環境が元の CoinRun

18 課題 • 非現実的なハルシネーションを起こすことがある • 扱えるフレーム数に限りがある（論文では16フレームと言及） • 動作が遅い（生成される環境は 1FPS）