Dynamic Point Maps: A Versatile Representation for Dynamic 3D Reconstruction

Slide 1

Slide 1 text

Dynamic Point Maps: A Versatile Representation for Dynamic 3D Reconstruction 辻栄翔(京都大学) Spatial AI Network勉強会, 2025.4.22 https://www.robots.ox.ac.uk/~vgg/research/dynamic-point-maps/ Edgar Sucar, Zihang Lai, Eldar Insafutdinov, Andrea Vedaldi

Slide 2

Slide 2 text

概要 • 動的なシーンにおいても点マップを推定できるようにDUSt3Rを拡張 • シーンフロー推定などの4Dタスクを、画像のペアのみを入力として簡単に処理可能に 1

Slide 3

Slide 3 text

DUSt3Rのおさらい • 2枚の画像ペアを入力とし、共通のカメラ座標系上で画素ごとの点マップを直接回帰 • カメラパラメタや対応点などは、点マップから後処理として導出 • 標準的なTransformer encoder-decoder の構造を用いた完全教師あり学習 2 Wang et al., DUSt3R: Geometric 3D Vision Made Easy, CVPR, 2024

Slide 4

Slide 4 text

DUSt3Rのおさらい • 点マップ：画像の各画素𝑢と、カメラ座標系𝜋における3D点𝑝 ∈ ℝ3の対応付け • 𝑝 = (𝑥, 𝑦, 𝑧)のベクトルであり、カメラの内部パラメタの情報を含む • 深度マップ（画素ごとのカメラからの距離）よりも情報が多い* • 画像ペア 𝐼1 , 𝐼2 で、以下の不変性が成立** • ネットワーク𝜙の入出力は以下の通り 3 𝑃 𝜋 ∈ ℝ3×(𝐻𝑊) 𝑃1 𝜋1 (𝑢1 ) = 𝑃2 (𝜋1 )(𝑢2 ) 静的シーンでは、どのカメラから見ても対応する画素は同じ3D空間上の位置を示す ( 𝑃1 𝜋1 , 𝑃2 𝜋1 ) = 𝜙(𝐼1 , 𝐼2 ) 厳密な議論は*Appendix A.1、**A.2にあり

Slide 5

Slide 5 text

動的シーンにおける不変性の破綻 • 時間𝑡を含む動的なシーンでは、前ページの不変性が破綻 • シーン内の物体が動くと、対応する画素同士が同じ3D空間上の位置を示さない • 静的シーンを前提とした点マップでは、シーンの動的な変化を表現できない • これがDUSt3Rの限界 4 𝑃1 𝑡1 , 𝜋1 (𝑢1 ) ≠ 𝑃2 𝑡2 , 𝜋1 𝑢2

Slide 6

Slide 6 text

MonST3Rによる動的シーンへの拡張 • MonST3R：Optical Flowと組み合わせて、DUSt3Rを動的シーンにも適用できるように拡張 • 問題点: 3D点マップの対応付けが直接行なわれていないこと • 処理パイプラインが複雑で、DUSt3Rの強みであった”誤差の蓄積がない”とは言い難い • DUSt3Rで推定した点マップにRAFTを適用するため、途中でカメラ姿勢を推定 • 時間的な一貫性を保つために複数フレームの統合処理 5 Zhang et al., MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion, ICLR, 2025

Slide 7

Slide 7 text

Dynamic Point Mapsのアイデア: 時間の固定 • 座標系𝜋に加えて時間tも固定し、時空間で不変性を担保する制約を提案 • 画像𝑖 = 1, 2と時間𝑡 = 1, 2の全4通りの組み合わせに対して点マップを定義 6 𝑃1 𝑡1 , 𝜋1 (𝑢1 ) = 𝑃2 𝑡1 , 𝜋1 𝑢2 p4ではtも変化させたため等式が成立しなかった 𝑃𝑖 𝑡𝑗 , 𝜋1 𝑖,𝑗 ∈{1,2}

Slide 8

Slide 8 text

ネットワーク構造 • 画像𝑖 = 1, 2と時間𝑡 = 1, 2の全組合わせに対し、点マップ𝑃と確信度𝐶を出力できるように DUSt3Rに予測ヘッド𝜙𝑖𝑗 を追加 • ヘッドそれぞれの重み初期化にはDUSt3rのものを利用 • 共有のbackboneからの出力される特徴をFとすると、以下で表現可能 7 𝑃𝑖 𝑡𝑗 , 𝜋1 , 𝐶𝑖 𝑡𝑗 , 𝜋1 = 𝜙𝑖𝑗 𝐹 𝑖, 𝑗 ∈ {1, 2}

Slide 9

Slide 9 text

Loss関数 • DUSt3Rと同様に、画素それぞれに対するGTとの距離の誤差を最小化 • カメラ中心から各点までの距離の平均が1になるように正規化 • 出力される4つの点マップ全てを連結して一度に計算することで高速化 8

Slide 10

Slide 10 text

学習に用いたデータセット • 動的、静的、合成、実写の全てを含む、7つのデータセットで学習 • (a) 動的シーンで、4つの点マップ全てのGTを含む • (b) 動的シーンだが、同じ時刻に対する点マップのみのGTを含む • (c) 静的シーン 9

Slide 11

Slide 11 text

実験結果: 深度推定 • Optical flowの推定を介さず効率的に計算でき、MonST3Rに匹敵する精度を達成 10

Slide 12

Slide 12 text

実験結果: Dynamic Point Mapsの推定精度 • 合成データと実データのそれぞれで、各画素の相対誤差を計算 • Kub.-Fはカメラの動きが線形、Kub.-Gは複雑な動き • MonST3Rを圧倒する精度で点マップを推定可能 11

Slide 13

Slide 13 text

実験結果: Scene Flowの推定精度 • 𝑃1 𝑡2 , 𝜋1 − 𝑃1 𝑡1 , 𝜋1 より、簡単にScene Flowの計算が可能 • MonST3Rと比較して76%の誤差削減に成功 • optical flowを用いたワープ処理よりも、時空間の不変性を学習した方が高精度と主張 • 深度のGTを入力に用いたRAFT-3Dよりも高精度 12

Slide 14

Slide 14 text

実験結果: 物体トラッキングの推定精度 • 𝑡0と𝑡1における物体の相対姿勢から計算した回転と並進成分と、GTのBboxとを比較 • 𝑅𝑃𝐸 𝑟𝑜𝑡 = arccos( 𝑡𝑟 𝑅𝑇 ෠ 𝑅 − 1 /2) • 𝑅𝑃𝐸 𝑡𝑟𝑎𝑠 = | 𝑡 − Ƹ 𝑡 |2 • MonST3Rと比較して40%誤差が減少 13

Slide 15

Slide 15 text

定性評価 14

Slide 16

Slide 16 text

まとめ・所感 • まとめ • 画像ペアから直接4D再構成タスクを解く単一のニューラルネットワークを提案 • 点マップを動的シーンへ拡張するため、𝑃1 𝑡1 , 𝜋1 (𝑢1 ) = 𝑃2 𝑡1 , 𝜋1 𝑢2 の時空間の不変性を提案 • 先行研究のMonST3Rと同等以上のパフォーマンスを達成 • Optical Flowを介した2D上での推定よりも、直接3D空間中の点を回帰した方が精度が高い • 所感 • MonST3Rよりも処理が大幅に簡素化されており、DUSt3Rの拡張感を強く感じた • 深度を入力するRAFT-3Dよりも高精度にシーンフロー推定ができるのは驚き • 学習コスト(マシン、詳細な学習設定)が不明で気になる • Project pageにcodeボタンはあるが、まだ公開されていない 15