Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
CVPR2025論文紹介:「Unboxed: Geometrically and Tempor...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
村川卓也
August 09, 2025
Research
0
240
CVPR2025論文紹介:「Unboxed: Geometrically and Temporally Consistent Video Outpainting」
村川卓也
August 09, 2025
Tweet
Share
Other Decks in Research
See All in Research
自動運転におけるデータ駆動型AIに対する安全性の考え方 / Safety Engineering for Data-Driven AI in Autonomous Driving Systems
ishikawafyu
0
130
Ankylosing Spondylitis
ankh2054
0
120
データサイエンティストの業務変化
datascientistsociety
PRO
0
230
湯村研究室の紹介2025 / yumulab2025
yumulab
0
300
SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing
satai
3
500
Pythonでジオを使い倒そう! 〜それとFOSS4G Hiroshima 2026のご紹介を少し〜
wata909
0
1.3k
Aurora Serverless からAurora Serverless v2への課題と知見を論文から読み解く/Understanding the challenges and insights of moving from Aurora Serverless to Aurora Serverless v2 from a paper
bootjp
6
1.5k
姫路市 -都市OSの「再実装」-
hopin
0
1.6k
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
66
37k
空間音響処理における物理法則に基づく機械学習
skoyamalab
0
190
LiDARセキュリティ最前線(2025年)
kentaroy47
0
140
Akamaiのキャッシュ効率を支えるAdaptSizeについての論文を読んでみた
bootjp
1
450
Featured
See All Featured
Impact Scores and Hybrid Strategies: The future of link building
tamaranovitovic
0
200
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
1
110
Balancing Empowerment & Direction
lara
5
900
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
47
7.9k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
1k
[SF Ruby Conf 2025] Rails X
palkan
1
760
We Analyzed 250 Million AI Search Results: Here's What I Found
joshbly
1
750
The Impact of AI in SEO - AI Overviews June 2024 Edition
aleyda
5
740
Docker and Python
trallard
47
3.7k
How to audit for AI Accessibility on your Front & Back End
davetheseo
0
180
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.4k
Beyond borders and beyond the search box: How to win the global "messy middle" with AI-driven SEO
davidcarrasco
1
58
Transcript
Unboxed: Geometrically and Temporally Consistent Video Outpainting 村川卓也(名工大玉木研B4) 2025/8/9 Zhongrui
Yu, Martina Megaro-Boldini, Robert W. Sumner, Abdelaziz Djelouah CVPR2025
Video outpainting ◼時空間的一貫性を保ちながら動画像のフレーム外を拡張する手法 ◼生成品質と計算コストはトレードオフ
概要 ◼従来手法のvideo outpainting • 生成領域の物体生成に弱い • 物体の重複,形状が不安定,消失 • 高解像度化への制約 •
生成時間とVRAM使用量の増加 ◼提案手法 • 3段階の生成 • 静的領域と動的オブジェクトで 個別に生成 入力動画 (左) , 提案手法, MOTIA [Wang+, ECCV2024]の比較
◼Dehan [Dehan+, CVPR2022] • オプティカルフローを用いた時間的一貫性の改善 • 視点の動きが激しい動画や動く物体の生成が困難 ◼M3DDM [Fan+, ACM
MM2023] • Diffusionと3D U-Netを用いたvideo outpainting • 動画全体から抽出したフレームによる時間的一貫性の 改善 • フレーム外情報が少ない動画の生成が困難 ◼MOTIA [Wang+, ECCV2024] • 生成前に入力動画でファインチューニングを行い, 学習動画と異なるドメインの動画の生成に対応 • 他手法と比較して生成時間とVRAM使用量が大幅に増加 • 動的オブジェクトが重複して出現することがある 関連研究
前処理: 動的オブジェクトをマスク,3D Gaussian Splattingによる3次元再構成 1. 背景等の静的領域の生成と3D Gaussian Splattingの更新 2. 動的オブジェクトのinpainting
3. Guided Video Synthesisを用いた生成品質の改善 3段階生成の概要
前処理: 動的オブジェクトをマスク,3D Gaussian Splattingによる3次元再構成 1. 背景等の静的領域の生成と3D Gaussian Splattingの更新 2. 動的オブジェクトのinpainting
3. Guided Video Synthesisを用いた生成品質の改善 3段階生成の概要
前処理: 動的オブジェクトをマスク,3D Gaussian Splattingによる3次元再構成 1. 背景等の静的領域の生成と3D Gaussian Splattingの更新 2. 動的オブジェクトのinpainting
3. Guided Video Synthesisを用いた生成品質の改善 3段階生成の概要
前処理: 動的オブジェクトをマスク,3D Gaussian Splattingによる3次元再構成 1. 背景等の静的領域の生成と3D Gaussian Splattingの更新 2. 動的オブジェクトのinpainting
3. Guided Video Synthesisを用いた生成品質の改善 3段階生成の概要
前処理: 動的オブジェクトをマスク,3D Gaussian Splattingによる3次元再構成 1. 背景等の静的領域の生成と3D Gaussian Splattingの更新 2. 動的オブジェクトのinpainting
3. Guided Video Synthesisを用いた生成品質の改善 3段階生成の概要
◼3D Gaussian Splatting • 3Dガウス分布を使用して2次元の 入力動画の3次元復元を行う 3D Gaussian SplattingとInpainting ◼Inpainting
• フレーム内のマスク部分や欠損部分 を生成 [Suvorov+, arXiv2021] [Kerbl+, arXiv2023] 入力画像 生成画像
◼動的オブジェクトをマスク 1. SAM2 [Ravi+, arXiv2024]でセグメンテーション 2. エピポーラ誤差で動的オブジェクトのセグメント を判別してマスク ◼3D Gaussian
Splatting (GS) [Kerbl+, SIGGRAPH2024]で3次元再構成 前処理
◼静的領域の生成と3D GSの更新 1. Stable Diffusion XL [Podell+, arXiv2023] (SDXL)でフ レーム外をimage
outpainting 2. 画像再構成損失(L1, SSIM)と深度損失 [Piccinelli+, CVPR2024]を最適化 3. 生成領域を3D GSモデルに反映 生成1:静的領域の生成
◼動的オブジェクトのinpainting • 前処理の段階でSAM2によって検出した動的オブジェクトを補完 • 2Dトラッキングのbboxで生成領域を指定 • 生成前に入力フレームの動的オブジェクトに部分的にマスクをして部分的に生 成することでSDXLをファインチューニング 生成2:動的オブジェクトの生成
◼改善点 • 静的領域:現実のわずかな動き(葉っぱの動き等) • 動的オブジェクト:生成2の時点で時間的一貫性に欠ける ◼Guided Video Synthesisを用いた生成品質の改善 • 各フレームに少量のノイズを付与
• 静的領域/動的オブジェクトで異なる 更新量を与えるマスクでノイズ除去 • 静的領域:小さな変化 • 動的オブジェクト:大きな変化 生成3: Guided Video Synthesisを用いた改善
◼評価データセット • DAVIS [Perazzi+, CVPR2016] • YouTube-VOS [Xu+, arXiv2018] ◼実験方法
• 各動画の左右25%, 66%をマスク • 25%, 66%で得られた値を平均 実験設定 ◼評価指標 • PSNR↑ • 生成後の画像の類似度 • SSIM↑ • 生成後の構造的な見た目の類似度 • LPIPS↓ [Zhang+, CVPR2018] • 視覚的類似度 • FVD↓ [Unterthiner+, arXiv2018] • 生成動画と入力動画の特徴分布の距離 • Ewarp ↓ [Lai+, ECCV2018] • ワープ誤差による時間的一貫性の定量 化
◼従来手法 • 生成失敗,ぼやけた生成 • 元フレームと生成領域の境界が 不自然 • 生成領域の物体の形状が不安定 ◼提案手法 •
元フレームと生成領域の一貫性 の向上 • 物体の自然な生成 定性的比較1
◼難易度の高い動画で比較 • 物体が複数出現 • 複雑な背景 定性的比較2 ◼従来手法 • ぼやけた生成 •
物体の消失や重複 • 元フレームと生成領域の境界 が不自然 ◼提案手法 • 複数物体の生成に対応 • 自然な背景の生成
◼従来手法と比較して大幅に改善 • DAVISデータセットのLPIPS以外の全ての指標で最も良い値を記録 • DAVISデータセットのLPIPSはMOTIAを実行して得られた値よりも改善 定量的比較
◼定性的比較 • フルパイプラインが静的・動的 領域の両方で時間的一貫性が保 たれている ◼定量的比較 • フルパイプラインが全ての評価 指標で最高値を記録 Ablation
study
◼投票による主観評価 • 37名, 619票のアンケートにより生成品質を主観的に評価 • 評価項目 • 現実感 • 時間的一貫性
• 全体的な視覚品質(色再現性,境界の滑らかさ,ぼけ具合など) • 全ての項目で提案手法は80%以上の票を獲得 User study
◼従来手法と比較して最大VRAM使用量が減少 • 生成領域が拡大してもVRAM使用量が変わらない ◼従来手法と比較して生成時間は増加 生成時間と最大VRAM使用量 OOM (Out of Memory) NVIDIA
40GB V100 GPU x1を使用
◼3段階の生成 1. 背景等の静的領域の生成と3D Gaussian Splattingの更新 2. 動的オブジェクトのinpainting 3. Guided Video
Synthesisを用いた生成品質の改善 ◼従来手法との比較 • 動的オブジェクトの時間的一貫性を改善 • 全ての評価指標で高い値 • 投票の主観的評価で80%以上の票を獲得 • 最大VRAM使用量が最も少ない • 高解像度の生成でも使用量が不変 • 生成時間は増加 まとめ