Slide 1

Slide 1 text

Matching 2D Images in 3D: Metric Relative Pose from Metric Correspondences GO株式会社 小林茂樹 第61回 コンピュータビジョン勉強会@関東 (後編)

Slide 2

Slide 2 text

© GO Inc. 2 自己紹介 プロフィール写真 正方形にトリミングした写 真を「図形に合わせてトリ ミング」で円形にすると真 円になる 略歴 ● 会津大 (学士) → 筑波大 (修士) ● ティアフォー → GO (現職) 好きなディズニーの乗り物 ● 海底2万マイル ● ヴェネツィアン・ゴンドラ 小林茂樹 @soreike1234 GO株式会社 AI技術開発部 AI研究開発第一グループ

Slide 3

Slide 3 text

© GO Inc. 3 01 概要・導入

Slide 4

Slide 4 text

© GO Inc. 4 どんな論文? ● Oral ● Paper:CVPR_2024_open_access ● 動画:https://www.youtube.com/watch?v=39f1Gh9jJiU ● 略称:MicKey 概要 ● 画像間の3D対応点を絶対スケールで求める ● 画像間の相対姿勢を絶対スケールで推定

Slide 5

Slide 5 text

© GO Inc. 5 特徴点マッチング 特徴点をもとに画像の対応点を求める これができると画像間の相対姿勢がわかる 😄 大きく離れた画像間でも相対姿勢が分かる 😄 照明などの変化に強い 🥲 相対姿勢のスケールが分からない https://huggingface.co/spaces/Realcat/image-matching-webuiを使用

Slide 6

Slide 6 text

© GO Inc. 6 関連研究 (特徴点マッチングと深度推定) 絶対スケールでの画像間相対姿勢推定のための ▪ データセットを構築 ▪ 2つのアプローチを提案・評価 アプローチ1:特徴点マッチングと深度推定を組み合わせる 😄 特徴点マッチングの良さを活かせる 🥲 特徴点はコーナーやエッジなどで多く検出されるが深度推定はこれらが苦手 🥲 深度の教師データが必要 [1] Eduardo Arnold, Jamie Wynn, Sara Vicente, Guillermo Garcia-Hernando, ́ Aron Monszpart, Victor Adrian Prisacariu, Daniyar Turmukhambetov, and Eric Brachmann. Map-free visual relocalization: Metric pose relative to a single image. Proceedings of the European Conference on Computer Vision (ECCV), 2022.

Slide 7

Slide 7 text

© GO Inc. 7 関連研究 (相対姿勢推定) 絶対スケールでの画像間相対姿勢推定のための ▪ データセットを構築 ▪ 2つのアプローチを提案・評価 アプローチ2:相対姿勢を直接推定 😄 画像間の重複が少ない状況においても有効 🥲 推定結果に対する信頼度推定が難しい [1] Eduardo Arnold, Jamie Wynn, Sara Vicente, Guillermo Garcia-Hernando, ́ Aron Monszpart, Victor Adrian Prisacariu, Daniyar Turmukhambetov, and Eric Brachmann. Map-free visual relocalization: Metric pose relative to a single image. Proceedings of the European Conference on Computer Vision (ECCV), 2022.

Slide 8

Slide 8 text

© GO Inc. 8 既存研究との違い MicKey (Metric Keypoint) ● 絶対スケールで3D特徴点を抽出 ○ 実際には特徴点 + 絶対スケールの深度マップ 絶対スケールで3D特徴点 (Mickey) 抽出 → 特徴点マッチング → 絶対スケールで相対姿勢推定 ● 絶対スケールの相対姿勢推定に対して3D特徴点からのアプローチは初 😄 相対姿勢のスケールが分かる 😄 特徴点マッチングに適した深度推定ができる 😄 GTの深度が不要 (poseのみ必要) 😄 推定結果に対する信頼度推定ができる

Slide 9

Slide 9 text

© GO Inc. 9 02 手法

Slide 10

Slide 10 text

© GO Inc. 10 パイプライン 1. 特徴点 (+深度、信頼度) を抽出 2. 特徴点マッチング 3. 絶対スケール相対姿勢推定 上記の処理をend-to-endで学習/推論する

Slide 11

Slide 11 text

© GO Inc. 11 パイプライン 1. 特徴点 (+深度、信頼度) を抽出 2. 特徴点マッチング 3. 絶対スケール相対姿勢推定 上記の処理をend-to-endで学習/推論する

Slide 12

Slide 12 text

© GO Inc. 12 特徴点抽出 shared encoder + multi headの構成 ▪ encoderは学習済みDINOv2 ▪ ここは学習しない ▪ headはresnet block + self attention ▪ headは1/14スケールの以下の情報を出力 ▪ 特徴点の位置 ▪ 各パッチ内の相対位置として表現 ▪ 深度マップ ▪ 信頼度マップ ▪ 特徴点の特徴ベクトル (descriptor) 14 14 14 14

Slide 13

Slide 13 text

© GO Inc. 13 パイプライン 1. 特徴点 (+深度、信頼度) を抽出 2. 特徴点マッチング 3. 絶対スケール相対姿勢推定 上記の処理をend-to-endで学習/推論する

Slide 14

Slide 14 text

© GO Inc. 14 キーポイント確率 各特徴点 (キーポイント) が選択される確率 画像内の全ての特徴点の信頼度に対してsoftmaxを適用して算出

Slide 15

Slide 15 text

© GO Inc. 15 descriptorマッチング確率 特徴点の特徴ベクトルの類似度から算出するマッチング確率 ▪ 画像I、I’の特徴点の全ての組み合わせに対してcos類似度を算出して行列として保持 ▪ 画像Iの特徴点に対する画像I’の特徴点の確率的な類似度をsoftmaxで算出 (横方向に softmaxをかける) ▪ 画像I’→画像Iに対しても同様のことを行う (縦方向にsoftmaxをかける) 画像Iの各特徴点の 特徴ベクトル 画像I’の各特徴点の特徴ベクトル cos類似度行列 softmax softmax

Slide 16

Slide 16 text

© GO Inc. 16 マッチング確率 最終的なマッチング確率を上の (2) 式で求める ▪ 特徴点抽出と特徴ベクトルから得られた確率のかけ合わせ ▪ マッチング確率の高い対応点のみ後段の姿勢推定に入力する I→I’へのdescriptorマッチング確率 Iのキーポイント確率 I’のキーポイント確率 I’→Iへのdescriptorマッチング確率

Slide 17

Slide 17 text

© GO Inc. 17 パイプライン 1. 特徴点 (+深度、信頼度) を抽出 2. 特徴点マッチング 3. 絶対スケール相対姿勢推定 上記の処理をend-to-endで学習/推論する

Slide 18

Slide 18 text

© GO Inc. 18 Kabschソルバー 3D対応点の残差の二乗を最小化する姿勢を見つける ▪ kabschソルバーは微分可能 姿勢変換 3D対応点 誤差関数 マッチング確率を元にサンプ リングされた3D対応点群

Slide 19

Slide 19 text

© GO Inc. 19 Soft Inlier Counting サンプリングした対応点群のスコアリングを行う 推定した姿勢変換の信頼度として使用 シグモイド関数を用いてインライア カウントの微分可能な近似を計算 ▪ βはヒューリスティックに5/τとする 閾値 誤差関数 シグモイド関数 スケーリングパラメータ

Slide 20

Slide 20 text

© GO Inc. 20 微分可能なrefinement 姿勢変換とインライアを交互に更新していきrefinementする ▪ 指定した最大反復回数に達するかインライアの数が増えなくなるまで繰り返す kabschソルバー 誤差関数 新しい 姿勢変換 新しい 姿勢変換 閾値 新しい インライア インライア 3D対応点

Slide 21

Slide 21 text

© GO Inc. 21 loss 仮想的な対応点の再投影誤差をlossとする ▪ GTに必要なのは姿勢のみ (深度は必要ない) ▪ Soft Inlier Countingのスコアが最も高い対応点群を用いて推定された姿勢を使用 投影関数 GTの姿勢変換 仮想対応点群 仮想対応点の再投影誤差

Slide 22

Slide 22 text

© GO Inc. 22 03 実験

Slide 23

Slide 23 text

© GO Inc. 23 実験条件 環境 ▪ GPU:V100x4 ▪ 学習時間:7日 ▪ Optimizer:ADAM パラメータ ▪ 学習時 ▪ RANSAC反復回数:20 ▪ サンプリングする対応点:5 ▪ 全ての推定された姿勢に対してrefinement ▪ 推論時 ▪ RANSAC反復回数:100 ▪ サンプリングする対応点:3 ▪ ソフトインライアースコアが最良の姿勢のみrefinement

Slide 24

Slide 24 text

© GO Inc. 24 定性結果 (屋外)

Slide 25

Slide 25 text

© GO Inc. 25 定性結果 (屋内)

Slide 26

Slide 26 text

© GO Inc. 26 Map-free Dataset (屋外) 屋外での画像間の絶対スケールの相対姿勢推定を評価 以下2つの手法に対して良い性能を達成 ▪ 特徴点マッチング + 深度推定 ▪ 相対姿勢回帰 (RPR) https://research.nianticlabs.com/mapfree-reloc-benchmark/dataset

Slide 27

Slide 27 text

© GO Inc. 27 ScanNet Dataset (屋内) 屋内での画像間の絶対スケールの 相対姿勢推定を評価 学習データの画像に視野の重複が なくても性能差はなし [19] Angela Dai, Angel X Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, and Matthias Nießner. ScanNet: Richly-annotated 3d reconstructions of indoor scenes. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 5828–5839, 2017.

Slide 28

Slide 28 text

© GO Inc. 28 MicKeyの理解① 視野の重複が少ない状況でも良好な性能を発揮

Slide 29

Slide 29 text

© GO Inc. 29 MicKeyの理解② 特徴点マッチング + 深度推定の構成においてMicKeyの深度推定がより良い性能を達成 ▪ 特徴点マッチングに適した深度推定が出来ていると主張

Slide 30

Slide 30 text

© GO Inc. 30 MicKeyの理解③ 古典的なPose Solverに対して提案の Pose Solverの方が良い性能を達成

Slide 31

Slide 31 text

© GO Inc. 31 Limitation MicKeyは細かい姿勢推定が苦手 ▪ DINOv2の出力の特徴マップが粗いから

Slide 32

Slide 32 text

© GO Inc. 32 01 まとめ

Slide 33

Slide 33 text

© GO Inc. 33 まとめ 絶対スケールで3D特徴点マッチングを行い画像間の相対姿勢推定 ▪ 特徴点マッチング・深度推定・姿勢推定を1つのネットワークで予測 😄 必要なGTは姿勢のみ 😄 屋内外のデータセットにおいて絶対スケールの相対姿勢推定でSOTAに匹敵 😄 MicKeyの深度推定が特徴点マッチングとの組み合わせに有効 🥲 推論速度は特徴点マッチングの中では遅め 🥲 カメラの内部パラメータが必要