Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
Dynamic Point Maps: A Versatile Representation for Dynamic 3D Reconstruction 辻 栄翔(京都大学) Spatial AI Network勉強会, 2025.4.22 https://www.robots.ox.ac.uk/~vgg/research/dynamic-point-maps/ Edgar Sucar, Zihang Lai, Eldar Insafutdinov, Andrea Vedaldi
Slide 2
Slide 2 text
概要 • 動的なシーンにおいても点マップを推定できるようにDUSt3Rを拡張 • シーンフロー推定などの4Dタスクを、画像のペアのみを入力として簡単に処理可能に 1
Slide 3
Slide 3 text
DUSt3Rのおさらい • 2枚の画像ペアを入力とし、共通のカメラ座標系上で画素ごとの点マップを直接回帰 • カメラパラメタや対応点などは、点マップから後処理として導出 • 標準的なTransformer encoder-decoder の構造を用いた完全教師あり学習 2 Wang et al., DUSt3R: Geometric 3D Vision Made Easy, CVPR, 2024
Slide 4
Slide 4 text
DUSt3Rのおさらい • 点マップ:画像の各画素𝑢と、カメラ座標系𝜋における3D点𝑝 ∈ ℝ3の対応付け • 𝑝 = (𝑥, 𝑦, 𝑧)のベクトルであり、カメラの内部パラメタの情報を含む • 深度マップ(画素ごとのカメラからの距離)よりも情報が多い* • 画像ペア 𝐼1 , 𝐼2 で、以下の不変性が成立** • ネットワーク𝜙の入出力は以下の通り 3 𝑃 𝜋 ∈ ℝ3×(𝐻𝑊) 𝑃1 𝜋1 (𝑢1 ) = 𝑃2 (𝜋1 )(𝑢2 ) 静的シーンでは、どのカメラから見ても 対応する画素は同じ3D空間上の位置を示す ( 𝑃1 𝜋1 , 𝑃2 𝜋1 ) = 𝜙(𝐼1 , 𝐼2 ) 厳密な議論は*Appendix A.1、**A.2にあり
Slide 5
Slide 5 text
動的シーンにおける不変性の破綻 • 時間𝑡を含む動的なシーンでは、前ページの不変性が破綻 • シーン内の物体が動くと、対応する画素同士が同じ3D空間上の位置を示さない • 静的シーンを前提とした点マップでは、シーンの動的な変化を表現できない • これがDUSt3Rの限界 4 𝑃1 𝑡1 , 𝜋1 (𝑢1 ) ≠ 𝑃2 𝑡2 , 𝜋1 𝑢2
Slide 6
Slide 6 text
MonST3Rによる動的シーンへの拡張 • MonST3R:Optical Flowと組み合わせて、DUSt3Rを動的シーンにも適用できるように拡張 • 問題点: 3D点マップの対応付けが直接行なわれていないこと • 処理パイプラインが複雑で、DUSt3Rの強みであった”誤差の蓄積がない”とは言い難い • DUSt3Rで推定した点マップにRAFTを適用するため、途中でカメラ姿勢を推定 • 時間的な一貫性を保つために複数フレームの統合処理 5 Zhang et al., MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion, ICLR, 2025
Slide 7
Slide 7 text
Dynamic Point Mapsのアイデア: 時間の固定 • 座標系𝜋に加えて時間tも固定し、時空間で不変性を担保する制約を提案 • 画像𝑖 = 1, 2と時間𝑡 = 1, 2の全4通りの組み合わせに対して点マップを定義 6 𝑃1 𝑡1 , 𝜋1 (𝑢1 ) = 𝑃2 𝑡1 , 𝜋1 𝑢2 p4ではtも変化させたため 等式が成立しなかった 𝑃𝑖 𝑡𝑗 , 𝜋1 𝑖,𝑗 ∈{1,2}
Slide 8
Slide 8 text
ネットワーク構造 • 画像𝑖 = 1, 2と時間𝑡 = 1, 2の全組合わせに対し、点マップ𝑃と確信度𝐶を出力できるように DUSt3Rに予測ヘッド𝜙𝑖𝑗 を追加 • ヘッドそれぞれの重み初期化にはDUSt3rのものを利用 • 共有のbackboneからの出力される特徴をFとすると、以下で表現可能 7 𝑃𝑖 𝑡𝑗 , 𝜋1 , 𝐶𝑖 𝑡𝑗 , 𝜋1 = 𝜙𝑖𝑗 𝐹 𝑖, 𝑗 ∈ {1, 2}
Slide 9
Slide 9 text
Loss関数 • DUSt3Rと同様に、画素それぞれに対するGTとの距離の誤差を最小化 • カメラ中心から各点までの距離の平均が1になるように正規化 • 出力される4つの点マップ全てを連結して一度に計算することで高速化 8
Slide 10
Slide 10 text
学習に用いたデータセット • 動的、静的、合成、実写 の全てを含む、7つのデータセットで学習 • (a) 動的シーンで、4つの点マップ全てのGTを含む • (b) 動的シーンだが、同じ時刻に対する点マップのみのGTを含む • (c) 静的シーン 9
Slide 11
Slide 11 text
実験結果: 深度推定 • Optical flowの推定を介さず効率的に計算でき、MonST3Rに匹敵する精度を達成 10
Slide 12
Slide 12 text
実験結果: Dynamic Point Mapsの推定精度 • 合成データと実データのそれぞれで、各画素の相対誤差を計算 • Kub.-Fはカメラの動きが線形、Kub.-Gは複雑な動き • MonST3Rを圧倒する精度で点マップを推定可能 11
Slide 13
Slide 13 text
実験結果: Scene Flowの推定精度 • 𝑃1 𝑡2 , 𝜋1 − 𝑃1 𝑡1 , 𝜋1 より、簡単にScene Flowの計算が可能 • MonST3Rと比較して76%の誤差削減に成功 • optical flowを用いたワープ処理よりも、時空間の不変性を学習した方が高精度と主張 • 深度のGTを入力に用いたRAFT-3Dよりも高精度 12
Slide 14
Slide 14 text
実験結果: 物体トラッキングの推定精度 • 𝑡0と𝑡1における物体の相対姿勢から計算した回転と並進成分と、GTのBboxとを比較 • 𝑅𝑃𝐸 𝑟𝑜𝑡 = arccos( 𝑡𝑟 𝑅𝑇 𝑅 − 1 /2) • 𝑅𝑃𝐸 𝑡𝑟𝑎𝑠 = | 𝑡 − Ƹ 𝑡 |2 • MonST3Rと比較して40%誤差が減少 13
Slide 15
Slide 15 text
定性評価 14
Slide 16
Slide 16 text
まとめ・所感 • まとめ • 画像ペアから直接4D再構成タスクを解く単一のニューラルネットワークを提案 • 点マップを動的シーンへ拡張するため、𝑃1 𝑡1 , 𝜋1 (𝑢1 ) = 𝑃2 𝑡1 , 𝜋1 𝑢2 の時空間の不変性を提案 • 先行研究のMonST3Rと同等以上のパフォーマンスを達成 • Optical Flowを介した2D上での推定よりも、直接3D空間中の点を回帰した方が精度が高い • 所感 • MonST3Rよりも処理が大幅に簡素化されており、DUSt3Rの拡張感を強く感じた • 深度を入力するRAFT-3Dよりも高精度にシーンフロー推定ができるのは驚き • 学習コスト(マシン、詳細な学習設定)が不明で気になる • Project pageにcodeボタンはあるが、まだ公開されていない 15