Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Lyra: Generative 3D Scene Reconstruction via Vi...

Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation

画像/動画からのfeed-forwardな3D/4Dシーンの生成手法
動画拡散モデルの3D知識を3DGS生成器に自己蒸留し、実世界の多視点データ不要で学習

Avatar for Spatial AI Network

Spatial AI Network

November 04, 2025
Tweet

More Decks by Spatial AI Network

Other Decks in Technology

Transcript

  1. Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation

    Sherwin Bahmani1,2,3 Tianchang Shen1,2,3 Jiawei Ren1 Jiahui Huang1 Yifeng Jiang1 Haithem Turki1 Andrea Tagliasacchi2,4 David B. Lindell2,3 Zan Gojcic1 Sanja Fidler1,2,3 Huan Ling1 Jun Gao1* Xuanchi Ren1,2,3* 1 NVIDIA 2 University of Toronto 3 Vector Institute 4 Simon Fraser University Spatial AI Network 勉強会 2025/10/28 野口敦裕 (Preferred Networks) ※特に注釈がなければ、図表は論文から引用しています
  2. 4 Camera-conditioned video generation • e.g. GEN3C [Ren+ 2025] •

    画像や動画を入力として、視点を 指定して一貫した新規視点動画 が作れる! • 多様な入力から動画が作れる! しかし、出力は2Dのフレームなので、明示的な3D表現は得られない 背景 https://research.nvidia.com/labs/toronto-a i/GEN3C/
  3. 5 Feed-forward 3D 再構成 • 画像を入力として3D表現を出力するモデル ◦ GS-LRM [Zhang+ 2024],

    BTimer [Liang+ 2025], Anysplat[Jiang+ 2025] • pixelベースのfeed forward 3d reconstructionは解像度や画像枚数が増えると計算コ ストが増大する ◦ GS-LRM: 解像度512 2-4枚, BTimer: 解像度512 12枚 • 多視点の実データは多様性が乏しい ◦ RealEstate10K [Zhou+ 2018], DL3DV [Liang+ 2024] ◦ 分布外のデータには汎化しない 背景
  4. 6 アイディア: • GEN3Cを自己蒸留して3D GS reconstructionを学習 ◦ GEN3Cの出力を教師として、video latent→3D GS

    decoderを訓練 • 動画拡散モデルが生成した多様なデータで訓練できる • video latent spaceで訓練することで、計算コストが小さくなる • 明示的な3Dが得られるので、downstream taskに使いやすい Lyra: Generative 3D Scene Reconstruction
  5. 8 GEN3Cの出力を使ってGS生成を訓練 • 画像とカメラ軌道からGEN3Cによって video latent Zを生成 • GEN3Cのdecoderで動画フレームをデ コード

    → teacher • 3DGS decoderでZから3D Gaussianを出 力 • 3DGSをレンダリングした画像 (student)が teacherと一致するように3DGS decoder のみを学習 自己蒸留 (Self-distillation)
  6. 10 入力:video latentとカメラ姿勢 • カメラ姿勢から計算したPlücker embeddingsを、3チャネル動画 x 2とみな して、video VAE

    encoderでencode 出力:per-pixel gaussian parameters • 3d position, rotation, opacity, rgb • 8x8ピクセルにつき1つGSを出す アーキテクチャ • Transformer + Mamba-2 [Dao+ 2024] • Transposed 3D convでupsample 3DGS Decoder GEN3C latent カメラ姿勢
  7. 11 画像再構成損失 • GEN3Cの生成フレームとの二乗誤差 (mse)と知覚損失 (LPIPS) Depth教師 • 動画深度推定モデル (ViPE

    [Huang+ 2025])で推定したdepthを教師とした損 失 Opacity-based pruning • opacityにL1正則化をかけ、opacity下位80%を削除 損失関数
  8. 12 入力動画のある時刻における3DGSをフ レームごとに生成 • GEN3Cで6軌道で新規視点動画の latentを生成 • video latent, カメラ姿勢に加えて,

    入力動画の時刻と生成したい時刻を 入力 • 時刻にsinusoidal embeddingをかけ て画像とみなしてvideo VAE encoder でencode 動的3Dシーンへの拡張 GEN3C latent カメラ姿勢 入力動画の フレーム ごとの時刻 生成する GSの時刻
  9. 15 多視点の実データは使用せず、合成データのみ を使用 データセットは公開されている 静的データ (59,031画像) • テキストプロンプト → LLM

    (gpt5, Qwen-vl [Bai+ 2023]) • 画像生成 → Flux • 多視点系列 → GEN3C (354,186動画) 動的データ (7,378動画) • テキストプロンプト → LLM • 動画生成 → Video diffusion model (Cosmos, Wan) • camera pose, depth map → ViPE [Huang+ 2025] • 多視点系列 → GEN3C (44,268動画) 訓練データセット
  10. 18 ベースライン • ZeroNVS [Sargent+ 2024] 2D新規視点合成拡散モデルでSDS [Poole+ 2022] •

    ViewCrafter [Yu+ 2024] 新規視点合成 → 3DGS最適化 • Wonderland [Liang+ 2025] video latent → 3DGS、実データで訓練 • Bolt3D [Szymanowicz+ 2025] 多視点pointmap生成 → feed forward 3DGS 評価データセット • RealEstate 10K [Zhou+ 2018] • DL3DV [Ling+ 2024] • Tanks and Temples [Knapitsch+ 2017] 新規視点合成の性能 (PSNR, SSIM, LPIPS) により評価 静的シーン実験
  11. 22 • 実データのみ ◦ RealEstate10K + DL3DV ◦ 分布外データには汎化しない •

    自己蒸留 + 実データ ◦ 実データを追加しても性能は向 上しない ◦ 合成データが十分多様で 一貫性がある Ablation Studies: 学習データ 実データのみ
  12. 23 • Depth loss ◦ Flat geometry (前後の厚みが小さい) を防ぎ、見た目も向上 •

    Opacity pruning ◦ 見た目が向上し レンダリングが1.67倍高速 • LPIPS loss ◦ 入力の一貫性の無さに対してロバスト Ablation Studies: 損失関数
  13. 24 • No Multiview fusion ◦ それぞれのカメラ軌道で独立に3DGSを 生成して、1つに統合 ◦ 全tokenにアテンション当てるべき

    • No Mamba-2 ◦ 全てtransformerにすると6.5倍遅く、再構 成性能は低下 • No Latent-based 3DGS ◦ pixel spaceで全726フレーム処理する場 合、メモリが足りない (BTimerの入力は12フレーム) Ablation Studies: アーキテクチャ
  14. 25 背景 • 動画生成モデルでは明示的な3D表現が得られない • 実データを用いた訓練では多様性が乏しい 手法 • Camera conditional

    video model (GEN3C)を自己蒸留して3DGSの生成を学 習 結果 • 既存手法と比べて高精度な3DGSを生成 • 多様な入力に汎化 所感 • パワフルな動画拡散モデル部分をそのまま使えるのが強い • ここまで一貫した訓練データを用意できるなら他のタスクにも応用できそう まとめ