Upgrade to Pro — share decks privately, control downloads, hide ads and more …

GEN3C: 3D-Informed World-Consistent Video Gener...

GEN3C: 3D-Informed World-Consistent Video Generation with Precise Camera Control

- 入力フレームから取得した色付きポイントクラウド(3Dキャッシュ)に基づき、ユーザーが指定したカメラ軌道に従った、一貫性のある動画生成を実現
- 入力画像/動画と矛盾がなく、かつPhoto-realisticな動画生成が可能となり、様々なNVSタスクでSOTAを達成

Avatar for Spatial AI Network

Spatial AI Network

August 12, 2025
Tweet

More Decks by Spatial AI Network

Other Decks in Technology

Transcript

  1. GEN3C: 3D-Informed World-Consistent Video Generation with Precise Camera Control 山口万瑛

    東京大学 Spatial AI Network 勉強会 (2025/7/22) Xuanchi Ren* 1,2,3 Tianchang Shen* 1,2,3 Jiahui Huang1 Huan Ling1,2,3 Yifan Lu1 Merlin Nimier-David1 Thomas Müller1 Alexander Keller1 Sanja Fidler1,2,3 Jun Gao1,2,3 1NVIDIA 2University of Toronto 3Vector Institute Project Page: https://research.nvidia.com/labs/toronto-ai/GEN3C/ [CVPR 2025 Highlight]
  2. 6 1. Novel View Reconstruction ⚫ Nerfacto[Tancik et al, 2023]

    ⚫ 3D-GS[Kerbl et al, 2023] 2. Sparse View Reconstruction(NVS) ⚫ PixelSplat[Charatan et al, 2024] ⚫ MVSplat[Chen et al, 2024] 3. Single Viewからの動画生成 ⚫ MotionCtrl[Wang et al, 2024] ⚫ CameraCtrl[He et al, 2024] ⚫ GenWarp[Seo et al, 2024] ⚫ NVS-Solver[You et al, 2024] 4. 単眼動画からのNVS ⚫ GCD[Hoorick et al, 2024] 関連研究
  3. 7 GEN3C 全体アーキテクチャ 1. Spatial-temporal 3D cache: 入力画像から3Dキャッシュを作成 2. Render

    3D cache: 指定したViewから3Dキャッシュをレンダリング 3. 3D-informed video generation: 2でレンダリングした不完全な画像 を条件付けとし、Post-TrainしたDiffusionモデルで綺麗な動画を生成
  4. 8 1. Spatial-temporal 3D cache: 3Dキャッシュのデザイン ⚫ RGB画像から深度推定→カラーポイントクラウド(pt, v)へ変換 ⚫

    全てPoseは与えられている想定(与えられていない場合は、 DROID-SLAM[Teed and Deng, 2021]を実行) 入力画像から生成したカラーポイ ントクラウドを時間方向に複製 ※ 入力がDynamic video(s)の場合 は、Vは入力動画数
  5. 9 2. Render 3D cache: 指定したViewから3Dキャッシュをレンダリング ⚫ 3Dキャッシュ(カラーポイントクライド)をカメラ軌道に沿って、 レンダリング ⚫

    欠損(disoccluded)ピクセルを示すマスク画像も同時に出力 入力画像(動画)が複数ある場合 は、各3Dキャッシュに対し、系 列長分のレンダリングをする 同一視点からのV(ここでは2)種類の3D キャッシュから Rendering
  6. 10 3Dキャッシュから生成された複数のレンダリング画像をど のように統合するか? 3. 3D-informed video generation: Diffusionモデルでの動画生成 3Dキャッシュは視点間で不整合を生む可 能性がある(紫とピンク)

    ⚫ 深度推定が不完全 ⚫ 視点によるライティングの差異 → 潜在空間上でMax-poolingすることで、 1枚のFeature Mapに統合する 欠損マスクも潜在空間上で、 Element-wiseに適用する
  7. 11 ⚫ ベースモデル: Stable Video Diffusion[Blattmann et al., 2023] ⚫

    Cosmos[NVIDIA, 2025]でも実験 ⚫ Datasets ⚫ RE10K(real): 74766 video clips (indoors and outdoors) ⚫ DL3DV(real): 10k videos ⚫ WOD: 1000(real) scenes(each has 200 frames) ⚫ Kubric4D(synthetic) : 3000 scenes → Multi-viewな動的動画が現実世界にはほと んどないため ⚫ その他 ⚫ DAV2[Li et al., 2024]: 深度推定 ⚫ DROID-SLAM[Teed and Deng, 2021]: ポーズ推定 ⚫ Training全体で、32 A100 GPUS 4 days GEN3C Post-Training
  8. 13 実験2: Two-ViewsからのNVS(Sparse View Reconstruction) ⚫ 定量評価: 特に外挿フレームで 他の手法を上回る ⚫

    定性評価: バックボーンで動画 生成モデルがあるため、より Photo-Realistic 内挿/外挿 out-of- domain in- domain
  9. 14 実験3: 運転シーンでのNovel View Synthesis ⚫ 定性評価:他の再構成手法と比較し て、左右に動かした時のFIDが低い ⚫ 定量評価:

    上下左右に大きく軌道が ずれても、見た目が崩れていない 視点を動かした時のFIDスコア
  10. 18 背景 既存の動画生成モデルでは、カメラポーズのControlが難しい また、既存のNeRF/3DGS系などの再構成手法では、NVSに限界 手法 入力画像/動画から3Dキャッシュを構築し、指定カメラポーズでレンダリングした画像を条件付 けとして、Diffusionで動画を生成する 結果 入力画像/動画と矛盾がなく、かつPhoto-realisticな動画を生成できた 所感

    条件付け画像を工夫するだけなので、アーキテクチャ的に他の生成モデルと組み合わせやすい。 3Dキャッシュという発想自体はシンプルだが、潜在空間でFusionする部分が思いつきにくいと 思った。これにより多様な入力にも対応できる汎用性を確保できていて良い。 まとめ