CVPR2025論文紹介：Unboxed

Unboxed: Geometrically and Temporally Consistent Video Outpainting 村川卓也（名工大玉木研B4） 2025/8/9 Zhongrui
Yu, Martina Megaro-Boldini, Robert W. Sumner, Abdelaziz Djelouah CVPR2025

Video outpainting ◼時空間的一貫性を保ちながら動画像のフレーム外を拡張する手法 ◼生成品質と計算コストはトレードオフ

概要 ◼従来手法のvideo outpainting • 生成領域の物体生成に弱い • 物体の重複，形状が不安定，消失 • 高解像度化への制約 •
生成時間とVRAM使用量の増加 ◼提案手法 • 3段階の生成 • 静的領域と動的オブジェクトで個別に生成入力動画 (左) , 提案手法, MOTIA [Wang+, ECCV2024]の比較

◼Dehan [Dehan+, CVPR2022] • オプティカルフローを用いた時間的一貫性の改善 • 視点の動きが激しい動画や動く物体の生成が困難 ◼M3DDM [Fan+, ACM
MM2023] • Diffusionと3D U-Netを用いたvideo outpainting • 動画全体から抽出したフレームによる時間的一貫性の改善 • フレーム外情報が少ない動画の生成が困難 ◼MOTIA [Wang+, ECCV2024] • 生成前に入力動画でファインチューニングを行い，学習動画と異なるドメインの動画の生成に対応 • 他手法と比較して生成時間とVRAM使用量が大幅に増加 • 動的オブジェクトが重複して出現することがある関連研究

前処理: 動的オブジェクトをマスク，3D Gaussian Splattingによる3次元再構成 1. 背景等の静的領域の生成と3D Gaussian Splattingの更新 2. 動的オブジェクトのinpainting
3. Guided Video Synthesisを用いた生成品質の改善 3段階生成の概要

◼3D Gaussian Splatting • 3Dガウス分布を使用して2次元の入力動画の3次元復元を行う 3D Gaussian SplattingとInpainting ◼Inpainting
• フレーム内のマスク部分や欠損部分を生成 [Suvorov+, arXiv2021] [Kerbl+, arXiv2023] 入力画像生成画像

◼動的オブジェクトをマスク 1. SAM2 [Ravi+, arXiv2024]でセグメンテーション 2. エピポーラ誤差で動的オブジェクトのセグメントを判別してマスク ◼3D Gaussian
Splatting (GS) [Kerbl+, SIGGRAPH2024]で3次元再構成前処理

◼静的領域の生成と3D GSの更新 1. Stable Diffusion XL [Podell+, arXiv2023] (SDXL)でフレーム外をimage
outpainting 2. 画像再構成損失（L1, SSIM）と深度損失 [Piccinelli+, CVPR2024]を最適化 3. 生成領域を3D GSモデルに反映生成1：静的領域の生成

◼動的オブジェクトのinpainting • 前処理の段階でSAM2によって検出した動的オブジェクトを補完 • 2Dトラッキングのbboxで生成領域を指定 • 生成前に入力フレームの動的オブジェクトに部分的にマスクをして部分的に生成することでSDXLをファインチューニング生成2：動的オブジェクトの生成

◼改善点 • 静的領域：現実のわずかな動き（葉っぱの動き等） • 動的オブジェクト：生成2の時点で時間的一貫性に欠ける ◼Guided Video Synthesisを用いた生成品質の改善 • 各フレームに少量のノイズを付与
• 静的領域/動的オブジェクトで異なる更新量を与えるマスクでノイズ除去 • 静的領域：小さな変化 • 動的オブジェクト：大きな変化生成3： Guided Video Synthesisを用いた改善

◼評価データセット • DAVIS [Perazzi+, CVPR2016] • YouTube-VOS [Xu+, arXiv2018] ◼実験方法
• 各動画の左右25%, 66%をマスク • 25%, 66%で得られた値を平均実験設定 ◼評価指標 • PSNR↑ • 生成後の画像の類似度 • SSIM↑ • 生成後の構造的な見た目の類似度 • LPIPS↓ [Zhang+, CVPR2018] • 視覚的類似度 • FVD↓ [Unterthiner+, arXiv2018] • 生成動画と入力動画の特徴分布の距離 • Ewarp ↓ [Lai+, ECCV2018] • ワープ誤差による時間的一貫性の定量化

◼従来手法 • 生成失敗，ぼやけた生成 • 元フレームと生成領域の境界が不自然 • 生成領域の物体の形状が不安定 ◼提案手法 •
元フレームと生成領域の一貫性の向上 • 物体の自然な生成定性的比較1

◼難易度の高い動画で比較 • 物体が複数出現 • 複雑な背景定性的比較2 ◼従来手法 • ぼやけた生成 •
物体の消失や重複 • 元フレームと生成領域の境界が不自然 ◼提案手法 • 複数物体の生成に対応 • 自然な背景の生成

◼従来手法と比較して大幅に改善 • DAVISデータセットのLPIPS以外の全ての指標で最も良い値を記録 • DAVISデータセットのLPIPSはMOTIAを実行して得られた値よりも改善定量的比較

◼定性的比較 • フルパイプラインが静的・動的領域の両方で時間的一貫性が保たれている ◼定量的比較 • フルパイプラインが全ての評価指標で最高値を記録 Ablation
study

◼投票による主観評価 • 37名, 619票のアンケートにより生成品質を主観的に評価 • 評価項目 • 現実感 • 時間的一貫性
• 全体的な視覚品質（色再現性，境界の滑らかさ，ぼけ具合など） • 全ての項目で提案手法は80%以上の票を獲得 User study

◼従来手法と比較して最大VRAM使用量が減少 • 生成領域が拡大してもVRAM使用量が変わらない ◼従来手法と比較して生成時間は増加生成時間と最大VRAM使用量 OOM (Out of Memory) NVIDIA
40GB V100 GPU x1を使用

◼3段階の生成 1. 背景等の静的領域の生成と3D Gaussian Splattingの更新 2. 動的オブジェクトのinpainting 3. Guided Video
Synthesisを用いた生成品質の改善 ◼従来手法との比較 • 動的オブジェクトの時間的一貫性を改善 • 全ての評価指標で高い値 • 投票の主観的評価で80%以上の票を獲得 • 最大VRAM使用量が最も少ない • 高解像度の生成でも使用量が不変 • 生成時間は増加まとめ

CVPR2025論文紹介：Unboxed

CVPR2025論文紹介：Unboxed

村川卓也

Other Decks in Research

Featured

Transcript

Unboxed: Geometrically and Temporally Consistent Video Outpainting 村川卓也（名工大玉木研B4） 2025/8/9 Zhongrui

Video outpainting ◼時空間的一貫性を保ちながら動画像のフレーム外を拡張する手法 ◼生成品質と計算コストはトレードオフ

概要 ◼従来手法のvideo outpainting • 生成領域の物体生成に弱い • 物体の重複，形状が不安定，消失 • 高解像度化への制約 •

◼Dehan [Dehan+, CVPR2022] • オプティカルフローを用いた時間的一貫性の改善 • 視点の動きが激しい動画や動く物体の生成が困難 ◼M3DDM [Fan+, ACM

前処理: 動的オブジェクトをマスク，3D Gaussian Splattingによる3次元再構成 1. 背景等の静的領域の生成と3D Gaussian Splattingの更新 2. 動的オブジェクトのinpainting

前処理: 動的オブジェクトをマスク，3D Gaussian Splattingによる3次元再構成 1. 背景等の静的領域の生成と3D Gaussian Splattingの更新 2. 動的オブジェクトのinpainting

前処理: 動的オブジェクトをマスク，3D Gaussian Splattingによる3次元再構成 1. 背景等の静的領域の生成と3D Gaussian Splattingの更新 2. 動的オブジェクトのinpainting

前処理: 動的オブジェクトをマスク，3D Gaussian Splattingによる3次元再構成 1. 背景等の静的領域の生成と3D Gaussian Splattingの更新 2. 動的オブジェクトのinpainting

前処理: 動的オブジェクトをマスク，3D Gaussian Splattingによる3次元再構成 1. 背景等の静的領域の生成と3D Gaussian Splattingの更新 2. 動的オブジェクトのinpainting

◼3D Gaussian Splatting • 3Dガウス分布を使用して2次元の入力動画の3次元復元を行う 3D Gaussian SplattingとInpainting ◼Inpainting

◼動的オブジェクトをマスク 1. SAM2 [Ravi+, arXiv2024]でセグメンテーション 2. エピポーラ誤差で動的オブジェクトのセグメントを判別してマスク ◼3D Gaussian

◼静的領域の生成と3D GSの更新 1. Stable Diffusion XL [Podell+, arXiv2023] (SDXL)でフレーム外をimage

◼改善点 • 静的領域：現実のわずかな動き（葉っぱの動き等） • 動的オブジェクト：生成2の時点で時間的一貫性に欠ける ◼Guided Video Synthesisを用いた生成品質の改善 • 各フレームに少量のノイズを付与

◼評価データセット • DAVIS [Perazzi+, CVPR2016] • YouTube-VOS [Xu+, arXiv2018] ◼実験方法

◼従来手法 • 生成失敗，ぼやけた生成 • 元フレームと生成領域の境界が不自然 • 生成領域の物体の形状が不安定 ◼提案手法 •

◼難易度の高い動画で比較 • 物体が複数出現 • 複雑な背景定性的比較2 ◼従来手法 • ぼやけた生成 •

◼従来手法と比較して大幅に改善 • DAVISデータセットのLPIPS以外の全ての指標で最も良い値を記録 • DAVISデータセットのLPIPSはMOTIAを実行して得られた値よりも改善定量的比較

◼定性的比較 • フルパイプラインが静的・動的領域の両方で時間的一貫性が保たれている ◼定量的比較 • フルパイプラインが全ての評価指標で最高値を記録 Ablation

◼投票による主観評価 • 37名, 619票のアンケートにより生成品質を主観的に評価 • 評価項目 • 現実感 • 時間的一貫性

◼従来手法と比較して最大VRAM使用量が減少 • 生成領域が拡大してもVRAM使用量が変わらない ◼従来手法と比較して生成時間は増加生成時間と最大VRAM使用量 OOM (Out of Memory) NVIDIA

◼3段階の生成 1. 背景等の静的領域の生成と3D Gaussian Splattingの更新 2. 動的オブジェクトのinpainting 3. Guided Video