Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
FreeVS: Generative View Synthesis on Free Drivi...
Search
Kazuki Ozeki
January 22, 2025
0
5
FreeVS: Generative View Synthesis on Free Driving Trajectory
Keio University Aoki Lab's Paper Reading on January 22, 2025
Kazuki Ozeki
January 22, 2025
Tweet
Share
More Decks by Kazuki Ozeki
See All by Kazuki Ozeki
MVSplat: Efficient 3D Gaussian Splatting from Sparse Multi-View Images
zeki31
0
25
Featured
See All Featured
GraphQLとの向き合い方2022年版
quramy
44
13k
What's in a price? How to price your products and services
michaelherold
244
12k
Documentation Writing (for coders)
carmenintech
67
4.6k
Navigating Team Friction
lara
183
15k
Statistics for Hackers
jakevdp
797
220k
jQuery: Nuts, Bolts and Bling
dougneiner
63
7.6k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
32
2.1k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
12
960
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
The Language of Interfaces
destraynor
156
24k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
How to Ace a Technical Interview
jacobian
276
23k
Transcript
FreeVS: Generative View Synthesis on Free Driving Trajectory Qitai Wang
et al. (ICLR’25) Presenter: Keio Univ. M1 Kazuki Ozeki
2 トピック 1. ⾃動運転実現に向けたシミュレータとは︖ 2. FreeVS は何が新しい・すごい︖ 3. ⾃動運転のためのシミュレータの今後
3 ⾃動運転のためのシミュレータ ⾃律システムの安全性を様々な状況下で検証可能 例1)Actor Manipulation UniSim: A Neural Closed-Loop Sensor
Simulator (CVPR’23) Original Video Rendered Video
4 ⾃動運転のためのシミュレータ ⾃律システムの安全性を様々な状況下で検証可能 例2)Actor Removal UniSim: A Neural Closed-Loop Sensor
Simulator (CVPR’23) Original Video Rendered Video
5 ⾃動運転のためのシミュレータ ⾃律システムの安全性を様々な状況下で検証可能 例3)Vehicle Manipulation UniSim: A Neural Closed-Loop Sensor
Simulator (CVPR’23) Rendered Video
6 シミュレータ実現⽅法 最近は3次元再構成ベースの⼿法が主流 GaussianPro: 3D Gaussian Splatting with Progressive Propagation
(ICML'24)
7 既存シミュレータの問題点 著しく視点を変えると⾒た⽬が崩壊 例)PVG (arXiv’24) のレンダリング結果 FreeSim: Toward Free-viewpoint Camera
Simulation in Driving Scenes (arXiv’24) Original viewpoint 3-meter right +3 m
8 再構成⼿法の限界 全空間を再構成するにはカメラが極端にスパース VEGS: View Extrapolation of Urban Scenes in
3D Gaussian Splatting using Learned Priors (ECCV’24)
9 本研究の概要 • 初めて⽣成モデルベースの⼿法を提案 • 顕著な視点変化に頑健な画像⽣成を達成 Original Video Novel Views
10 ⽣成モデル • 本研究では拡散モデルを使⽤ • モデルは “denoise” を学習し,ノイズから画像を⽣成 Diffusion Models:
A Comprehensive Survey of Methods and Applications (arXiv’24)
11 条件付け拡散モデル 拡散モデルは容易に条件付け⽣成が可能 例)テキスト 𝐲 による条件付け Denoising Diffusion Probabilistic Models
(NeurIPS’20) 𝑝! 𝐱"#$ |𝐱" , 𝐲 𝑝! : パラメータ 𝜃 のモデルで推定された確率分布 本研究︓LiDAR 点群を投影した擬似画像による条件付け
12 提案パイプライン LiDAR 点群を投影した擬似画像で条件付けした拡散モデル (学習済み Stable Video Diffusion を finetuning)
13 LiDAR 点群を投影した擬似画像 1つの条件付けで以下3つの制約を同時に追加︓ • 幾何 • ⾊(⼀致する他視点の画像ピクセルから取得) • カメラポーズ(ポーズ
embedding など不要) → パイプラインがシンプル︕
14 提案ベンチマーク ⼿法の有効性を適切に評価 従来︓Novel Frame 提案︓Novel Camera
15 性能評価 データセット • Waymo Open Dataset(5 カメラ+1 LiDAR,798 シーン)
評価指標(GT 画像との整合性) • PSNR(ピクセルレベル) • SSIM(パッチレベル) • LPIPS(特徴量レベル) Waymo Open Dataset (CVPR’20)
16 定量評価 提案ベンチマークで再構成ベースの⼿法より⾼精度 従来ベンチマークでも SOTA を達成(FPS は不⼗分)
17 定性評価 再構成ベースの⼿法より視点変化に圧倒的に頑健 Original Video Novel Views
18 定性評価 よく⾒ると hallucination あり(既存⼿法よりはイケてる)
19 最近の arXiv ⽣成モデルベースの⼿法が台頭 • FreeVS (2024/10/23) • FreeSim (2024/12/4)︓FreeVS
+ 再構成(同著者ら) • EUVS (2024/12/10)︓新ベンチマーク • Stag-1 (2024/12/11)︓⽣成モデルベースの別アプローチ • StreetCrafter (2024/12/17)︓FreeVS と全く同じアイデア • STORM (2024/12/31): Feed-forward 再構成
20 EUVS (arXiv’24) Extrapolated View を評価するための新ベンチマーク Extrapolated Urban View Synthesis
Benchmark (arXiv’24)
21 まとめ シミュレータで⾃動運転の安全性を検証 FreeVS は初の⽣成モデルベースの⼿法で視点変化に頑健 今後は… • ⽣成モデル × 再構成
(Hallucination 除去,リアルタイムレンダリング) • Extrapolated なシミュレーション実現へ