Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation

Lyra: Generative 3D Scene Reconstruction via Video Diﬀusion Model Self-Distillation
Sherwin Bahmani1,2,3 Tianchang Shen1,2,3 Jiawei Ren1 Jiahui Huang1 Yifeng Jiang1 Haithem Turki1 Andrea Tagliasacchi2,4 David B. Lindell2,3 Zan Gojcic1 Sanja Fidler1,2,3 Huan Ling1 Jun Gao1* Xuanchi Ren1,2,3* 1 NVIDIA 2 University of Toronto 3 Vector Institute 4 Simon Fraser University Spatial AI Network 勉強会 2025/10/28 野口敦裕 (Preferred Networks) ※特に注釈がなければ、図表は論文から引用しています

2 論文: https://arxiv.org/abs/2509.19296 Project Page: https://research.nvidia.com/labs/toronto-ai/lyra/ Github: https://github.com/nv-tlabs/lyra 論文情報

3 画像/動画からのfeed-forwardな3D/4Dシーンの生成手法 • 動画拡散モデルの3D知識を3DGSに自己蒸留し、実世界の多視点データ不要で学習動画はhttps://research.nvidia.com/labs/toronto-ai/lyra/ をご参照くださいどんな論文 Single image
to 3D Single Video to 3D

4 Camera-conditioned video generation • e.g. GEN3C [Ren+ 2025] •
画像や動画を入力として、視点を指定して一貫した新規視点動画が作れる！ • 多様な入力から動画が作れる！しかし、出力は2Dのフレームなので、明示的な3D表現は得られない背景 https://research.nvidia.com/labs/toronto-a i/GEN3C/

5 Feed-forward 3D 再構成 • 画像を入力として3D表現を出力するモデル ◦ GS-LRM [Zhang+ 2024],
BTimer [Liang+ 2025], Anysplat[Jiang+ 2025] • pixelベースのfeed forward 3d reconstructionは解像度や画像枚数が増えると計算コストが増大する ◦ GS-LRM: 解像度512 2-4枚, BTimer: 解像度512 12枚 • 多視点の実データは多様性が乏しい ◦ RealEstate10K [Zhou+ 2018], DL3DV [Liang+ 2024] ◦ 分布外のデータには汎化しない背景

6 アイディア: • GEN3Cを自己蒸留して3D GS reconstructionを学習 ◦ GEN3Cの出力を教師として、video latent→3D GS
decoderを訓練 • 動画拡散モデルが生成した多様なデータで訓練できる • video latent spaceで訓練することで、計算コストが小さくなる • 明示的な3Dが得られるので、downstream taskに使いやすい Lyra: Generative 3D Scene Reconstruction

7 Spatial AI Network勉強会での解説スライド GEN3C 3D cache: 色付き点群指定した視点から3D cacheをレンダリング
Latent video diffusion modelで動画へ

8 GEN3Cの出力を使ってGS生成を訓練 • 画像とカメラ軌道からGEN3Cによって video latent Zを生成 • GEN3Cのdecoderで動画フレームをデコード
→ teacher • 3DGS decoderでZから3D Gaussianを出力 • 3DGSをレンダリングした画像 (student)が teacherと一致するように3DGS decoder のみを学習自己蒸留 (Self-distillation)

9 • GEN3Cで画像につき6つの軌道で動画を生成することで視野範囲を拡大した教師データを作成 ◦ 1軌道 121フレーム ◦ それぞれの軌道についてvideo latentと、RGB動
画を生成 • 3DGS decoderは6つのvideo latentを受け取ってGS を生成自己蒸留 (Self-distillation)

10 入力：video latentとカメラ姿勢 • カメラ姿勢から計算したPlücker embeddingsを、3チャネル動画 x 2とみなして、video VAE
encoderでencode 出力：per-pixel gaussian parameters • 3d position, rotation, opacity, rgb • 8x8ピクセルにつき1つGSを出すアーキテクチャ • Transformer + Mamba-2 [Dao+ 2024] • Transposed 3D convでupsample 3DGS Decoder GEN3C latent カメラ姿勢

11 画像再構成損失 • GEN3Cの生成フレームとの二乗誤差 (mse)と知覚損失 (LPIPS) Depth教師 • 動画深度推定モデル (ViPE
[Huang+ 2025])で推定したdepthを教師とした損失 Opacity-based pruning • opacityにL1正則化をかけ、opacity下位80%を削除損失関数

12 入力動画のある時刻における3DGSをフレームごとに生成 • GEN3Cで6軌道で新規視点動画の latentを生成 • video latent, カメラ姿勢に加えて,
入力動画の時刻と生成したい時刻を入力 • 時刻にsinusoidal embeddingをかけて画像とみなしてvideo VAE encoder でencode 動的3Dシーンへの拡張 GEN3C latent カメラ姿勢入力動画のフレームごとの時刻生成する GSの時刻

13 静的データだと、全フレームが3DGSの教師情報として使えるが、動的データだと対応する時刻のフレームしか教師情報として使えない特に動画の最初のフレームは、入力とほぼ同じ視点の画像しか教師情報が得られない → 入力フレームで見えていない部分のopacityを小さくしてしまう動的データ適用における問題点カメラ軌道は最初の
フレームの視点を始点とする

14 入力動画のフレーム順を反転させてGEN3Cに入力し 6つの軌道で動画を生成 → 動画のフレーム順を反転 • 入力動画の最初のフレームの視点から離れた視点における見た目を生成できる！元の6動画に加えて、全12動画を教師情報として使用動的データの
augmentation カメラ軌道は最後のフレームの視点が始点となる

15 多視点の実データは使用せず、合成データのみを使用データセットは公開されている静的データ (59,031画像) • テキストプロンプト → LLM
(gpt5, Qwen-vl [Bai+ 2023]) • 画像生成 → Flux • 多視点系列 → GEN3C (354,186動画) 動的データ (7,378動画) • テキストプロンプト → LLM • 動画生成 → Video diﬀusion model (Cosmos, Wan) • camera pose, depth map → ViPE [Huang+ 2025] • 多視点系列 → GEN3C (44,268動画) 訓練データセット

16 Progressive training • 6stageに分けて解像度、動画長、 trajectory数を増やしながら訓練 • 最終stage: 動的データで追加学習 8
A100 x 6days 訓練設定

17 生成結果 (image to 3D)

18 ベースライン • ZeroNVS [Sargent+ 2024] 2D新規視点合成拡散モデルでSDS [Poole+ 2022] •
ViewCrafter [Yu+ 2024] 新規視点合成 → 3DGS最適化 • Wonderland [Liang+ 2025] video latent → 3DGS、実データで訓練 • Bolt3D [Szymanowicz+ 2025] 多視点pointmap生成 → feed forward 3DGS 評価データセット • RealEstate 10K [Zhou+ 2018] • DL3DV [Ling+ 2024] • Tanks and Temples [Knapitsch+ 2017] 新規視点合成の性能 (PSNR, SSIM, LPIPS) により評価静的シーン実験

19 定量比較 • 全ての指標で最も良い定性的な比較は無し（実装が公開されていないため）静的シーン実験

20 • BTimer: 姿勢付き画像/動画からの3D/4D再構成手法 • GEN3Cで生成した姿勢付き動画フレームをBTimerで3DGSに変換 • BTimerは12フレームしか処理できないため、入力動画のフレーム + GEN3C
の11フレームを入力とする定量評価 BTimer [Liang+ 2025]との比較 (3D/4D)

21 定性評価 (3D) BTimer [Liang+ 2025]との比較 (3D)

22 • 実データのみ ◦ RealEstate10K + DL3DV ◦ 分布外データには汎化しない •
自己蒸留 + 実データ ◦ 実データを追加しても性能は向上しない ◦ 合成データが十分多様で一貫性がある Ablation Studies: 学習データ実データのみ

23 • Depth loss ◦ Flat geometry （前後の厚みが小さい）を防ぎ、見た目も向上 •
Opacity pruning ◦ 見た目が向上しレンダリングが1.67倍高速 • LPIPS loss ◦ 入力の一貫性の無さに対してロバスト Ablation Studies: 損失関数

24 • No Multiview fusion ◦ それぞれのカメラ軌道で独立に3DGSを生成して、1つに統合 ◦ 全tokenにアテンション当てるべき
• No Mamba-2 ◦ 全てtransformerにすると6.5倍遅く、再構成性能は低下 • No Latent-based 3DGS ◦ pixel spaceで全726フレーム処理する場合、メモリが足りない (BTimerの入力は12フレーム) Ablation Studies: アーキテクチャ

25 背景 • 動画生成モデルでは明示的な3D表現が得られない • 実データを用いた訓練では多様性が乏しい手法 • Camera conditional
video model (GEN3C)を自己蒸留して3DGSの生成を学習結果 • 既存手法と比べて高精度な3DGSを生成 • 多様な入力に汎化所感 • パワフルな動画拡散モデル部分をそのまま使えるのが強い • ここまで一貫した訓練データを用意できるなら他のタスクにも応用できそうまとめ

26 コンピュータビジョンエンジニア募集中 https://www.preferred.jp/ja/careers/ ビジネスパートナー募集中 https://www.preferred.jp/ja/contact/

Lyra: Generative 3D Scene Reconstruction via Vi...

Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation

Spatial AI Network

More Decks by Spatial AI Network

Other Decks in Technology

Featured

Transcript

Lyra: Generative 3D Scene Reconstruction via Video Diﬀusion Model Self-Distillation

2 論文: https://arxiv.org/abs/2509.19296 Project Page: https://research.nvidia.com/labs/toronto-ai/lyra/ Github: https://github.com/nv-tlabs/lyra 論文情報

3 画像/動画からのfeed-forwardな3D/4Dシーンの生成手法 • 動画拡散モデルの3D知識を3DGSに自己蒸留し、実世界の多視点データ不要で学習動画はhttps://research.nvidia.com/labs/toronto-ai/lyra/ をご参照くださいどんな論文 Single image

4 Camera-conditioned video generation • e.g. GEN3C [Ren+ 2025] •

5 Feed-forward 3D 再構成 • 画像を入力として3D表現を出力するモデル ◦ GS-LRM [Zhang+ 2024],

6 アイディア: • GEN3Cを自己蒸留して3D GS reconstructionを学習 ◦ GEN3Cの出力を教師として、video latent→3D GS

7 Spatial AI Network勉強会での解説スライド GEN3C 3D cache: 色付き点群指定した視点から3D cacheをレンダリング

8 GEN3Cの出力を使ってGS生成を訓練 • 画像とカメラ軌道からGEN3Cによって video latent Zを生成 • GEN3Cのdecoderで動画フレームをデコード

9 • GEN3Cで画像につき6つの軌道で動画を生成することで視野範囲を拡大した教師データを作成 ◦ 1軌道 121フレーム ◦ それぞれの軌道についてvideo latentと、RGB動

10 入力：video latentとカメラ姿勢 • カメラ姿勢から計算したPlücker embeddingsを、3チャネル動画 x 2とみなして、video VAE

11 画像再構成損失 • GEN3Cの生成フレームとの二乗誤差 (mse)と知覚損失 (LPIPS) Depth教師 • 動画深度推定モデル (ViPE

12 入力動画のある時刻における3DGSをフレームごとに生成 • GEN3Cで6軌道で新規視点動画の latentを生成 • video latent, カメラ姿勢に加えて,

15 多視点の実データは使用せず、合成データのみを使用データセットは公開されている静的データ (59,031画像) • テキストプロンプト → LLM

16 Progressive training • 6stageに分けて解像度、動画長、 trajectory数を増やしながら訓練 • 最終stage: 動的データで追加学習 8

17 生成結果 (image to 3D)

18 ベースライン • ZeroNVS [Sargent+ 2024] 2D新規視点合成拡散モデルでSDS [Poole+ 2022] •

19 定量比較 • 全ての指標で最も良い定性的な比較は無し（実装が公開されていないため）静的シーン実験

20 • BTimer: 姿勢付き画像/動画からの3D/4D再構成手法 • GEN3Cで生成した姿勢付き動画フレームをBTimerで3DGSに変換 • BTimerは12フレームしか処理できないため、入力動画のフレーム + GEN3C

21 定性評価 (3D) BTimer [Liang+ 2025]との比較 (3D)

22 • 実データのみ ◦ RealEstate10K + DL3DV ◦ 分布外データには汎化しない •

23 • Depth loss ◦ Flat geometry （前後の厚みが小さい）を防ぎ、見た目も向上 •

24 • No Multiview fusion ◦ それぞれのカメラ軌道で独立に3DGSを生成して、1つに統合 ◦ 全tokenにアテンション当てるべき

25 背景 • 動画生成モデルでは明示的な3D表現が得られない • 実データを用いた訓練では多様性が乏しい手法 • Camera conditional

26 コンピュータビジョンエンジニア募集中 https://www.preferred.jp/ja/careers/ ビジネスパートナー募集中 https://www.preferred.jp/ja/contact/