Slide 1

Slide 1 text

FreeVS: Generative View Synthesis on Free Driving Trajectory Qitai Wang et al. (ICLR’25) Presenter: Keio Univ. M1 Kazuki Ozeki

Slide 2

Slide 2 text

2 トピック 1. ⾃動運転実現に向けたシミュレータとは︖ 2. FreeVS は何が新しい・すごい︖ 3. ⾃動運転のためのシミュレータの今後

Slide 3

Slide 3 text

3 ⾃動運転のためのシミュレータ ⾃律システムの安全性を様々な状況下で検証可能 例1)Actor Manipulation UniSim: A Neural Closed-Loop Sensor Simulator (CVPR’23) Original Video Rendered Video

Slide 4

Slide 4 text

4 ⾃動運転のためのシミュレータ ⾃律システムの安全性を様々な状況下で検証可能 例2)Actor Removal UniSim: A Neural Closed-Loop Sensor Simulator (CVPR’23) Original Video Rendered Video

Slide 5

Slide 5 text

5 ⾃動運転のためのシミュレータ ⾃律システムの安全性を様々な状況下で検証可能 例3)Vehicle Manipulation UniSim: A Neural Closed-Loop Sensor Simulator (CVPR’23) Rendered Video

Slide 6

Slide 6 text

6 シミュレータ実現⽅法 最近は3次元再構成ベースの⼿法が主流 GaussianPro: 3D Gaussian Splatting with Progressive Propagation (ICML'24)

Slide 7

Slide 7 text

7 既存シミュレータの問題点 著しく視点を変えると⾒た⽬が崩壊 例)PVG (arXiv’24) のレンダリング結果 FreeSim: Toward Free-viewpoint Camera Simulation in Driving Scenes (arXiv’24) Original viewpoint 3-meter right +3 m

Slide 8

Slide 8 text

8 再構成⼿法の限界 全空間を再構成するにはカメラが極端にスパース VEGS: View Extrapolation of Urban Scenes in 3D Gaussian Splatting using Learned Priors (ECCV’24)

Slide 9

Slide 9 text

9 本研究の概要 • 初めて⽣成モデルベースの⼿法を提案 • 顕著な視点変化に頑健な画像⽣成を達成 Original Video Novel Views

Slide 10

Slide 10 text

10 ⽣成モデル • 本研究では拡散モデルを使⽤ • モデルは “denoise” を学習し,ノイズから画像を⽣成 Diffusion Models: A Comprehensive Survey of Methods and Applications (arXiv’24)

Slide 11

Slide 11 text

11 条件付け拡散モデル 拡散モデルは容易に条件付け⽣成が可能 例)テキスト 𝐲 による条件付け Denoising Diffusion Probabilistic Models (NeurIPS’20) 𝑝! 𝐱"#$ |𝐱" , 𝐲 𝑝! : パラメータ 𝜃 のモデルで推定された確率分布 本研究︓LiDAR 点群を投影した擬似画像による条件付け

Slide 12

Slide 12 text

12 提案パイプライン LiDAR 点群を投影した擬似画像で条件付けした拡散モデル (学習済み Stable Video Diffusion を finetuning)

Slide 13

Slide 13 text

13 LiDAR 点群を投影した擬似画像 1つの条件付けで以下3つの制約を同時に追加︓ • 幾何 • ⾊(⼀致する他視点の画像ピクセルから取得) • カメラポーズ(ポーズ embedding など不要) → パイプラインがシンプル︕

Slide 14

Slide 14 text

14 提案ベンチマーク ⼿法の有効性を適切に評価 従来︓Novel Frame 提案︓Novel Camera

Slide 15

Slide 15 text

15 性能評価 データセット • Waymo Open Dataset(5 カメラ+1 LiDAR,798 シーン) 評価指標(GT 画像との整合性) • PSNR(ピクセルレベル) • SSIM(パッチレベル) • LPIPS(特徴量レベル) Waymo Open Dataset (CVPR’20)

Slide 16

Slide 16 text

16 定量評価 提案ベンチマークで再構成ベースの⼿法より⾼精度 従来ベンチマークでも SOTA を達成(FPS は不⼗分)

Slide 17

Slide 17 text

17 定性評価 再構成ベースの⼿法より視点変化に圧倒的に頑健 Original Video Novel Views

Slide 18

Slide 18 text

18 定性評価 よく⾒ると hallucination あり(既存⼿法よりはイケてる)

Slide 19

Slide 19 text

19 最近の arXiv ⽣成モデルベースの⼿法が台頭 • FreeVS (2024/10/23) • FreeSim (2024/12/4)︓FreeVS + 再構成(同著者ら) • EUVS (2024/12/10)︓新ベンチマーク • Stag-1 (2024/12/11)︓⽣成モデルベースの別アプローチ • StreetCrafter (2024/12/17)︓FreeVS と全く同じアイデア • STORM (2024/12/31): Feed-forward 再構成

Slide 20

Slide 20 text

20 EUVS (arXiv’24) Extrapolated View を評価するための新ベンチマーク Extrapolated Urban View Synthesis Benchmark (arXiv’24)

Slide 21

Slide 21 text

21 まとめ シミュレータで⾃動運転の安全性を検証 FreeVS は初の⽣成モデルベースの⼿法で視点変化に頑健 今後は… • ⽣成モデル × 再構成 (Hallucination 除去,リアルタイムレンダリング) • Extrapolated なシミュレーション実現へ