R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual Localization

Embed

Start on current slide

Slide 1

Slide 1 text

第64回 CV勉強会@関東「CVPR2025読み会(後編)」 R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual Localization 2025/08/24 takmin

Slide 2

Slide 2 text

自己紹介 2 株式会社ビジョン＆ITラボ代表取締役皆川卓也（みながわたくや）博士（工学）「コンピュータビジョン勉強会＠関東」主催株式会社フューチャースタンダード技術顧問略歴： 1999-2003年日本HP（後にアジレント・テクノロジーへ分社）にて、ITエンジニアとしてシステム構築、プリセールス、プロジェクトマネジメント、サポート等の業務に従事 2004-2009年コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事 2007-2010年慶應義塾大学大学院後期博士課程にて、コンピュータビジョンを専攻単位取得退学後、博士号取得（2014年） 2009年-現在フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事（2018年法人化） http://visitlab.jp

Slide 3

Slide 3 text

3 この本の第７章「CV をとりまく環境」を執筆 • コンピュータビジョンのオープンソースやプラットフォームの紹介 • コンピュータビジョンを使ったビジネス事例

Slide 4

Slide 4 text

Slide 5

Slide 5 text

紹介する論文 5  R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual Localization  Xudong Jiang, FangjinhuaWang, Silvano Galliani, Christoph Vogel, Marc Pollefeys  チューリッヒ工科大 & MS Spatial AI Labのニューラルネットワークを使ったVisual Localizationの論文 Aachen Day-Night Datasetから R-SCoReで三次元再構成した結果

Slide 6

Slide 6 text

Visual Localization 6  入力画像から撮影位置（６自由度）を推定するタスク  大量の画像＋カメラ姿勢のペアから学習

Slide 7

Slide 7 text

Visual Localizationの主なアプローチ 7 入力画像姿勢推定 Pose (6DoF) 局所特徴抽出対応点探索 RANSAC + PnP 局所特徴の3D世界座標推定 RANSAC + PnP 局所特徴抽出 3D点群＋特徴量 Feature Matching (FM) Pose Regression (PR) Scene Coordinate Regression (SCR)

Slide 8

Slide 8 text

Visual Localizationの主なアプローチ 8 入力画像姿勢推定 Pose (6DoF) 局所特徴抽出対応点探索 RANSAC + PnP 局所特徴の3D世界座標推定 RANSAC + PnP 局所特徴抽出 3D点群＋特徴量 Feature Matching (FM) Pose Regression (PR) Scene Coordinate Regression (SCR) SIFT, Superpoint, etc 近似最近傍探索, SuperGlue, etc 局所特徴と地図上の点との対応からカメラ姿勢を計算

Slide 9

Slide 9 text

Visual Localizationの主なアプローチ 9 入力画像姿勢推定 Pose (6DoF) 局所特徴抽出対応点探索 RANSAC + PnP 局所特徴の3D世界座標推定 RANSAC + PnP 局所特徴抽出 3D点群＋特徴量 Feature Matching (FM) Pose Regression (PR) Scene Coordinate Regression (SCR) ニューラルネットワークで画像から直接姿勢を回帰

Slide 10

Slide 10 text

Visual Localizationの主なアプローチ 10 入力画像姿勢推定 Pose (6DoF) 局所特徴抽出対応点探索 RANSAC + PnP 局所特徴の3D世界座標推定 RANSAC + PnP 局所特徴抽出 3D点群＋特徴量 Feature Matching (FM) Pose Regression (PR) Scene Coordinate Regression (SCR) SIFT, Superpoint, etc ニューラルネットワークで直接回帰推定局所特徴の三次元座標からカメラ姿勢を回帰推定本手法

Slide 11

Slide 11 text

R-SCoRe: 他のアプローチとの比較 11 モデルサイズ処理時間精度学習時の深度情報不要

Slide 12

Slide 12 text

SCRの例: ACE 12  １シーンの学習に数時間から数日がかかっていたSCRの手法を、シーン非依存の特徴抽出部分とシーン依存の姿勢推定部分に分離することで、300倍高速化 Brachmann, E., Cavallari, T., & Prisacariu, V. A. (2023). Accelerated Coordinate Encoding: Learning to Relocalize in Minutes Using RGB and Poses. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition

Slide 13

Slide 13 text

SCRの例: GLACE 13 似た局所特徴をニューラルネットワークに入力すると、似た三次元座標を出力する Wang, F., Jiang, X., Galliani, S., Vogel, C., & Pollefeys, M. (2024). GLACE: Global Local Accelerated Coordinate Encoding. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition 大規模なマップでは、似た特徴を持つ点が異なるシーンで現れることがあり、精度低下の原因となる画像全体の特徴を局所特徴に追加することで、異なるシーンで異なる座標を出力するようにネットワークを学習する

Slide 14

Slide 14 text

SCRの例: GLACE 14 画像全体の特徴（Global Encoding）を使用してSCRを大規模シーン対応 Wang, F., Jiang, X., Galliani, S., Vogel, C., & Pollefeys, M. (2024). GLACE: Global Local Accelerated Coordinate Encoding. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition

Slide 15

Slide 15 text

SCRの例: GLACE 15 画像全体の特徴（Global Encoding）を使用してSCRを大規模シーン対応 Wang, F., Jiang, X., Galliani, S., Vogel, C., & Pollefeys, M. (2024). GLACE: Global Local Accelerated Coordinate Encoding. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition 同じ対象を撮影した画像のGlobal特徴が類似するように、Triplet Lossを使用してR2 Formerを学習 SuperPoint等の局所特徴

Slide 16

Slide 16 text

SCRの例: GLACE 16 画像全体の特徴（Global Encoding）を使用してSCRを大規模シーン対応 Wang, F., Jiang, X., Galliani, S., Vogel, C., & Pollefeys, M. (2024). GLACE: Global Local Accelerated Coordinate Encoding. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition Global特徴＋画像インデックスへ格納局所特徴量のバッファ

Slide 17

Slide 17 text

SCRの例: GLACE 17 画像全体の特徴（Global Encoding）を使用してSCRを大規模シーン対応 Wang, F., Jiang, X., Galliani, S., Vogel, C., & Pollefeys, M. (2024). GLACE: Global Local Accelerated Coordinate Encoding. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition 対応するGlobal特徴を選択学習データのサンプリング

Slide 18

Slide 18 text

SCRの例: GLACE 18 画像全体の特徴（Global Encoding）を使用してSCRを大規模シーン対応 Wang, F., Jiang, X., Galliani, S., Vogel, C., & Pollefeys, M. (2024). GLACE: Global Local Accelerated Coordinate Encoding. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition Global特徴にガウスノイズを追加（Data Augmentation）

Slide 19

Slide 19 text

SCRの例: GLACE 19 画像全体の特徴（Global Encoding）を使用してSCRを大規模シーン対応 Wang, F., Jiang, X., Galliani, S., Vogel, C., & Pollefeys, M. (2024). GLACE: Global Local Accelerated Coordinate Encoding. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition 6DoFの姿勢を推定再投影誤差から Lossを計算

Slide 20

Slide 20 text

R-SCoRe 20  SCRは各点の三次元座標と特徴ベクトルを保持する必要がないため、Feature Matching (FM)の手法よりもモデルサイズが小さいという利点があるものの、小さなマップにしか対応できず、精度でも劣っていた。  GLACEによって大規模なマップに対応できるようになったが、照明変化に弱いなど、精度面ではFMに劣っていた。  R-SCoReでは以下の工夫によって、照明変化のある環境でも精度向上し、FMに匹敵する精度を達成  共視野グラフ（Covisibility Graph）に基づくGlobal Encoding  奥行に基づいた再投影誤差の導入

Slide 21

Slide 21 text

R-SCoRe: Aachen Day-Night Datasetの結果 21  Daytimeで学習し、Night で評価  ●がSCR  ▲がFeature Matchingや Pose Regression  既存SCR手法よりも Accuracyを大幅改善  既存のFeature Matching手法に精度が匹敵しつつ、モデルサイズがずっと小さい

Slide 22

Slide 22 text

R-SCoReのワークフロー: 概要 22  Global Encodingを追加することで、Local Encodingの特徴が似ていても、異なる場所では異なる姿勢を推定させる GLACEと同じワークフローを採用学習時：再投影誤差推論時：画像上のキーポイント座標と推論した３次元座標からカメラの姿勢を算出

Slide 23

Slide 23 text

R-SCoReのワークフロー: 概要 23  Global Encodingを追加することで、Local Encodingの特徴が似ていても、異なる場所では異なる姿勢を推定させる学習時：再投影誤差推論時：画像上のキーポイント座標と推論した３次元座標からカメラの姿勢を算出 LoFTRやDedodeなどの既存特徴＋ PCAによる次元圧縮

Slide 24

Slide 24 text

R-SCoReのワークフロー: 概要 24  Global Encodingを追加することで、Local Encodingの特徴が似ていても、異なる場所では異なる姿勢を推定させる学習時：再投影誤差推論時：画像上のキーポイント座標と推論した３次元座標からカメラの姿勢を算出視野が重なる画像同士の特徴は近く、重ならない画像同士の特徴は遠くになるように！

Slide 25

Slide 25 text

R-SCoRe: Global Encodingの検討 25 共視野グラフを作成し、学習画像の視野の重なり具合をグラフ化視野が重なる画像同士の特徴は近く、重ならない画像同士の特徴は遠くになるように！ Node2Vecを用いて、各グラフノードのGlobal Encodingを学習

Slide 26

Slide 26 text

共視野グラフ(Covisiblity Graph) 26  画像をノードとし、視野が重なるノード間にエッジを生成エッジを作成共視野グラフ

Slide 27

Slide 27 text

Node2Vec 27 Grover, A., & Leskovec, J. (2016). Node2vec: Scalable feature learning for networks. Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining  ノードを低次元ベクトルに写像し、ネットワークの「近傍構造」を保存するように学習  各ノードから複数回ランダムウォークを実行し、Skip-gramを用いてノードの埋め込みベクトルを学習  各ノードから周辺ノードを予測できるように  ランダムウォークは幅優先探索(BFS)と深さ優先探索(DFS)の重みづけでバイアスを設定

Slide 28

Slide 28 text

Global Encodingの比較 28  ２枚の画像で、視野が重なるケースとそうでないケースでのGlobal Encodingの距離  Node2Vecの方がR2Formerより明らかに視野の重なりを表現

Slide 29

Slide 29 text

Global Encodingの比較 29  視野が重なりの有無をGlobal Encodingベクトルの距離から予測した結果  Node2Vec, NetVlad, R2Formerの順

Slide 30

Slide 30 text

R-SCoReのワークフロー: 概要 30  Global Encodingを追加することで、Local Encodingの特徴が似ていても、異なる場所では異なる姿勢を推定させる学習時：再投影誤差推論時：画像上のキーポイント座標と推論した３次元座標からカメラの姿勢を算出 Node2Vec LoFTRやDedodeなどの既存特徴＋ PCAによる次元圧縮

Slide 31

Slide 31 text

R-SCoReのワークフロー: 概要 31  Global Encodingを追加することで、Local Encodingの特徴が似ていても、異なる場所では異なる姿勢を推定させる学習時：再投影誤差推論時：画像上のキーポイント座標と推論した３次元座標からカメラの姿勢を算出 ACE/GLACEでは外れ値に強いロバスト関数としてtanh lossを使用カメラに近い点に弱い

Slide 32

Slide 32 text

R-SCoRe: 再投影誤差と深度の関係 32  カメラから近い位置の点ほど再投影誤差が大きくなる傾向  大きい再投影誤差がロバスト関数により無視されてしまう  再投影誤差を予測深度に合わせて補正することで対応異なるデータセット/キーポイント検出における視差（深度）と投影誤差の関係

Slide 33

Slide 33 text

R-SCoReのワークフロー: 概要 33  Global Encodingを追加することで、Local Encodingの特徴が似ていても、異なる場所では異なる姿勢を推定させる学習時：再投影誤差推論時：画像上のキーポイント座標と推論した３次元座標からカメラの姿勢を算出 Node2Vec LoFTRやDedodeなどの既存特徴＋ PCAによる次元圧縮再投影誤差を予測深度で補正して、ロバスト関数で外れ値対策

Slide 34

Slide 34 text

R-SCoReのワークフロー: 詳細 34

Slide 35

Slide 35 text

R-SCoReのワークフロー: 詳細 35 画像全体の特徴局所特徴+PCA ２つのSCRで Coarse-to-Fineに姿勢推定

Slide 36

Slide 36 text

R-SCoReのワークフロー: 詳細 36 Global Encoding: 学習時学習データから共視野グラフ作成 Node2Vecで学習画像の特徴算出ランダムに隣接ノードの特徴に置き換え（Data Augmentation）

Slide 37

Slide 37 text

R-SCoReのワークフロー: 詳細 37 Global Encoding: 推論時 NetVLADで学習データからK近傍画像を取得近傍画像の Node2Vec埋め込みベクトルを利用 K近傍のうち、最も inlierの多かった推定結果を採用

Slide 38

Slide 38 text

R-SCoReのワークフロー: 詳細 38 Depth補正した再投影誤差+ ロバスト関数 Coarse-to-Fineな姿勢推定再投影誤差＋ロバスト関数

Slide 39

Slide 39 text

実験: Aachen Day-Night 39  ３つの閾値で精度算出  (0.25m, 2度), (0.5m, 5度), (5m, 10度)  HLocと比べて精度はやや劣るもののモデルサイズはずっと小さい  既存のSCR手法よりも高い精度 FM PR SCR

Slide 40

Slide 40 text

実験: Hyundai Department Store Test Set 40  ３つの閾値で精度算出  (0.1m, 1度),(0.25m, 2度), (1m, 5度)  HLocと比べて精度はやや劣るもののモデルサイズはずっと小さい  既存のSCR手法よりも高い精度  学習に深度を使うと、より高い精度

Slide 41

Slide 41 text

Ablation Study: Local Encoders 41  Hyundai Department Store Datasetに対し、３つの閾値で精度算出  (0.1m, 1度),(0.25m, 2度), (1m, 5度)  LoFTRおよびDedodeは、既成の学習済みモデルを使用（Hyundai Datasetで学習したものではない）

Slide 42

Slide 42 text

Ablation Study: Global Encoders 42  GLACEで使用しているGlobal Encoder (R2 Former + Gaussianノイズによるデータ拡張)に対し、推論時の複数仮説、共視野を用いたデータ拡張、共視野グラフによる Global Encodingへ順次置き換えていった時の精度評価

Slide 43

Slide 43 text

Ablation Study: Supervision 43  深度による再投影誤差の補正による精度と分布補正前補正後 Ground Truth 局所特徴の深度分布

Slide 44

Slide 44 text

まとめ 44  SCRを用いて、大規模かつ複雑な環境ににおけるVisual Localizationタスクで、Feature Matchingベースの手法に匹敵する精度を、小さいサイズで達成  従来のSCRに対して主に以下の点を改善  共視野グラフを使用したGlobal Encodingとデータ拡張  再投影誤差の深度による調整  Local Encoderの最適化とPCAによる次元圧縮  閾値を厳しく設定した場合や分布外一般化などは課題