Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Paper Introduction] Genie: Generative Interact...

Avatar for Taisuke Takayama Taisuke Takayama
June 13, 2025
88

[Paper Introduction] Genie: Generative Interactive Environments

2025/06/13
Paper introduction @TanichuLab
https://sites.google.com/view/tanichu-lab-ku/

Avatar for Taisuke Takayama

Taisuke Takayama

June 13, 2025
Tweet

Transcript

  1. 2 書誌情報 • タイトル: Genie: Generative Interactive Environments • 著者:

    Jake Bruce (Google DeepMind), et al. • 採択状況: ICML 2024 (Best Paper Award) https://icml.cc/virtual/2024/oral/35508 https://proceedings.mlr.press/v235/bruce24a.html
  2. 4 提案手法 全体のアーキテクチャ • Latent Action Model : 動画のフレーム間で取られた潜在的行動 ෤

    𝑎 を出力 • Video Tokenizer : 動画データを離散トークン 𝑧 に圧縮 • Dynamics Model : トークン 𝑧 と潜在的行動 ෤ 𝑎 を受け取り,次のフレームを生成 入力された動画データを3種類のコンポーネントで処理
  3. 5 提案手法 準備① VQ-VAE [van den Oord+ 2017] • Latent

    Action Model, Video Tokenizer で利用 • 𝐾 本の埋め込みからなる VQ-codebook を用意し,エンコーダの出力を最も近い VQ-codebook 内の埋め込みに対応するインデックスに変換 • Posterior Collapse という,強い decoder を使うときに潜在変数が無視される 現象を回避 [van den Oord+ 2017] van den Oord, Aaron, et al. “Neural Discrete Representation Learning.” Advances in Neural Information Processing Systems, vol. 30, 2017. ベクトル量子化により,VAE の潜在変数を離散化
  4. 6 提案手法 準備② ST-transformer [Xu+ 2020] • 提案手法のコンポーネント全般で利用 • 空間的アテンション層は同一タイムステップの

    𝐻 × 𝑊 × 1 個のトークンにアテンションを向ける • 時間的アテンション層は 𝑇 タイムステップに渡って 同じ場所の 1 × 1 × 𝑇 個のトークンにアテンション を向ける • 通常の ViT はフレーム数に対して2乗のオーダーで 計算コストが増大するが,ST-transformer を使うと フレーム数に対して線形のオーダーに抑えられる [Xu+ 2020] Xu, Mingxing, et al. “Spatial-Temporal Transformer Networks for Traffic Flow Forecasting.” arXiv [Eess.SP], 9 Jan. 2020, http://arxiv.org/abs/2001.02908. arXiv. 空間的アテンション層と時間的アテンション層を交互に配置し, 効率的にトークン間の時空間的な関連をとらえる
  5. 7 提案手法 準備③ MaskGIT [Chang+ 2022] • Dynamics Model で利用

    • エンコーダ,デコーダ,VQ-codebook の学習後,画像トークンの分布の学習時に マスクされたトークンを予測するタスクを解くことで双方向的なコンテキストを 学習 [Chang+ 2022] Chang, Huiwen, et al. “MaskGIT: Masked Generative Image Transformer.” _Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition_, 2022, pp. 11315–11325. 画像トークン間の双方向的なコンテキストを利用できる transformer
  6. 8 提案手法 Latent Action Model (LAM) • 制御可能な環境の生成のためには,行動に条件づけられたフレームの予測が必要 • インターネット上の動画データにはほとんど行動ラベルが振られていない

    • 過去の動画フレーム 𝒙1:𝑡 = 𝑥1 , … , 𝑥𝑡 と次のフレーム 𝑥𝑡+1 を受け取り,ො 𝑥𝑡+1 を 再構成 • 潜在行動の種類 𝐴 の数を制限 (論文中だと 𝐴 = 8) 行動に関するラベルのない動画データから,VQ-VAE を用いて潜在的 行動 ෤ 𝑎 を教師なし学習
  7. 9 提案手法 Video Tokenizer • 𝑇 フレームの動画データ 𝒙1:𝑇 = 𝑥1

    , … , 𝑥𝑇 ∈ ℝ𝑇×𝐻×𝑊×𝐶 を入力として受け取り, 各フレームに対応する離散的なトークン 𝑧1:𝑇 = 𝑧1 , … , 𝑧𝑇 ∈ を生成 • ST-transformer を組み込むことにより,計算量を抑えながら時空間的な関連を とらえたトークンを学習 • Causal mask により,トークン 𝑧𝑡 はタイムステップ 𝑡 までの動画フレーム 𝒙1:𝑡 の 情報を含む 時間的なダイナミクスを考慮しつつ入力動画を離散的なトークンに圧縮
  8. 10 提案手法 Dynamics Model 過去の動画フレームのトークンと潜在行動を統合し,新たな動画 フレームに対応するトークンを予測 • MaskGIT [Chang+ 2022]

    transformer のデコーダを ST-transformer と 組み合わせて構成 • 動画トークン列 𝒛1:𝑇−1 と潜在行動列 ෥ 𝒂1:𝑇−1 を受け取り,動画トークン列 ෤ 𝒛2:𝑇 を予測 • 因果マスクによって ෤ 𝒛2:𝑇 を一度に出力できる [Chang+ 2022] Chang, Huiwen, et al. "Maskgit: Masked generative image transformer." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.
  9. 11 提案手法 推論時(ユーザー操作時)の挙動 • ユーザーが操作するときは,ユーザーが実際に行動 𝑎𝑡 を与える • 学習された潜在的行動 ෤

    𝑎𝑡 が実際にどのような行動に対応するのかはわからない が,一貫性があるのでそこから 𝑎𝑡 と ෤ 𝑎𝑡 の対応を取っている(っぽい) • 各タイムステップ 𝑡 でユーザーから行動 𝑎𝑡 が与えられるたび,これまでに予測した トークンの履歴 𝒛1:𝑡−1 と, 𝒂1:𝑡−1 に対応する潜在行動の履歴 ෥ 𝒂1:𝑡−1 をもとに,次の トークン 𝑧𝑡 を予測 潜在行動の代わりにユーザーの入力した行動を利用し, 最初のフレームから繰り返しダイナミクスを予測
  10. 12 実験 データセット • インターネット上で公開されている 2D ゲームのプレイ動画から収集した データセット(論文中では Platformers と呼称)を用いて学習

    ◦ 解像度 : 160 × 90 ◦ FPS: 10 • 680 万本の 16 秒動画クリップを含む大規模なデータセット • 同時に,ロボティクスデータセット(論文中では Robotics と呼称)も用いることで, 提案手法の一般性を検証 インターネット上の 2D ゲームのプレイ動画を用いて学習
  11. 16 実験 Robotics データセットによる学習 Robotics データセットを用いた場合も,同様に対話環境を生成可能 • 同じモデルをロボット実験の動画 データを用いて学習 •

    ロボットの操作にとどまらず,ロボット と周囲の物体の間の相互作用まで 再現 • ロボティクスのための基盤世界モデル の構築への応用が期待