Matching 2D Images in 3D: Metric Relative Pose from Metric Correspondences

Slide 1

Slide 1 text

Matching 2D Images in 3D: Metric Relative Pose from Metric Correspondences GO株式会社　小林茂樹第61回　コンピュータビジョン勉強会＠関東 (後編)

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

© GO Inc. 6 関連研究 (特徴点マッチングと深度推定) 絶対スケールでの画像間相対姿勢推定のための ▪ データセットを構築 ▪ 2つのアプローチを提案・評価アプローチ1：特徴点マッチングと深度推定を組み合わせる 😄 特徴点マッチングの良さを活かせる 🥲 特徴点はコーナーやエッジなどで多く検出されるが深度推定はこれらが苦手 🥲 深度の教師データが必要 [1] Eduardo Arnold, Jamie Wynn, Sara Vicente, Guillermo Garcia-Hernando, ́ Aron Monszpart, Victor Adrian Prisacariu, Daniyar Turmukhambetov, and Eric Brachmann. Map-free visual relocalization: Metric pose relative to a single image. Proceedings of the European Conference on Computer Vision (ECCV), 2022.

Slide 7

Slide 7 text

© GO Inc. 7 関連研究 (相対姿勢推定) 絶対スケールでの画像間相対姿勢推定のための ▪ データセットを構築 ▪ 2つのアプローチを提案・評価アプローチ2：相対姿勢を直接推定 😄 画像間の重複が少ない状況においても有効 🥲 推定結果に対する信頼度推定が難しい [1] Eduardo Arnold, Jamie Wynn, Sara Vicente, Guillermo Garcia-Hernando, ́ Aron Monszpart, Victor Adrian Prisacariu, Daniyar Turmukhambetov, and Eric Brachmann. Map-free visual relocalization: Metric pose relative to a single image. Proceedings of the European Conference on Computer Vision (ECCV), 2022.

Slide 8

Slide 8 text

© GO Inc. 8 既存研究との違い MicKey (Metric Keypoint) ● 絶対スケールで3D特徴点を抽出 ○ 実際には特徴点 + 絶対スケールの深度マップ絶対スケールで3D特徴点 (Mickey) 抽出 → 特徴点マッチング → 絶対スケールで相対姿勢推定 ● 絶対スケールの相対姿勢推定に対して3D特徴点からのアプローチは初 😄 相対姿勢のスケールが分かる 😄 特徴点マッチングに適した深度推定ができる 😄 GTの深度が不要 (poseのみ必要) 😄 推定結果に対する信頼度推定ができる

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

© GO Inc. 12 特徴点抽出 shared encoder + multi headの構成 ▪ encoderは学習済みDINOv2 ▪ ここは学習しない ▪ headはresnet block + self attention ▪ headは1/14スケールの以下の情報を出力 ▪ 特徴点の位置 ▪ 各パッチ内の相対位置として表現 ▪ 深度マップ ▪ 信頼度マップ ▪ 特徴点の特徴ベクトル (descriptor) 14 14 14 14

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

© GO Inc. 15 descriptorマッチング確率特徴点の特徴ベクトルの類似度から算出するマッチング確率 ▪ 画像I、I’の特徴点の全ての組み合わせに対してcos類似度を算出して行列として保持 ▪ 画像Iの特徴点に対する画像I’の特徴点の確率的な類似度をsoftmaxで算出 (横方向に softmaxをかける) ▪ 画像I’→画像Iに対しても同様のことを行う (縦方向にsoftmaxをかける) 画像Iの各特徴点の特徴ベクトル画像I’の各特徴点の特徴ベクトル cos類似度行列 softmax softmax

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Slide 22

Slide 22 text

Slide 23

Slide 23 text

Slide 24

Slide 24 text

Slide 25

Slide 25 text

Slide 26

Slide 26 text

Slide 27

Slide 27 text

© GO Inc. 27 ScanNet Dataset (屋内) 屋内での画像間の絶対スケールの相対姿勢推定を評価学習データの画像に視野の重複がなくても性能差はなし [19] Angela Dai, Angel X Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, and Matthias Nießner. ScanNet: Richly-annotated 3d reconstructions of indoor scenes. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 5828–5839, 2017.

Slide 28

Slide 28 text

Slide 29

Slide 29 text

Slide 30

Slide 30 text

Slide 31

Slide 31 text

Slide 32

Slide 32 text

Slide 33

Slide 33 text

© GO Inc. 33 まとめ絶対スケールで3D特徴点マッチングを行い画像間の相対姿勢推定 ▪ 特徴点マッチング・深度推定・姿勢推定を1つのネットワークで予測 😄 必要なGTは姿勢のみ 😄 屋内外のデータセットにおいて絶対スケールの相対姿勢推定でSOTAに匹敵 😄 MicKeyの深度推定が特徴点マッチングとの組み合わせに有効 🥲　推論速度は特徴点マッチングの中では遅め 🥲　カメラの内部パラメータが必要