しくじり先生 Image Matching Challenge 2024 編

Slide 1

Slide 1 text

Image Matching Challenge 2024 編

Slide 2

Slide 2 text

自己紹介ぐちやま　@goosehaaan - 社会人4年目のメーカーDS - 物理系出身 - 東京在住（一昨年まで2年間京都） - コンペは雑食・ソロ参加 - 趣味ランニング（毎日7km）旅行

Slide 3

Slide 3 text

Agenda - コンペ概要 - 上位解法 - しくじり紹介 - 教訓・まとめ

Slide 4

Slide 4 text

Image Matching Challenge 2024 - Hexathlon - CVPR Workshopの併設コンペ - 2022年から始まり今年で3回目（2024/3/26 - 2024/6/4） - シーン毎の画像セットから、カメラ位置・角度を推定するタスク - train: 36 ~ 1148枚、test: ~100枚 / シーン教会シーンの場合 1) より引用

Slide 5

Slide 5 text

Image Matching Challenge 2024 - Hexathlon - 評価指標は全画像ペアの回転・並進行列の差の誤差を用いたmAA（mean Average Accuracy） - シーンに応じて与えられた6段階の閾値ごとに正解率を計算、平均化 - シーンごとに正解率を計算、平均化教会シーンの場合 1) より引用

Slide 6

Slide 6 text

Image Matching Challenge 2024 - Hexathlon 今年はHexathlon（六種競技）の名の通り、6種類の課題に該当するシーンが対象だった。 simmetories-and-repeats historical-preventation air-to-ground day-night nature transparent

Slide 7

Slide 7 text

以下ベースライン（ホスト提供）を元にしたパイプラインが基本となる。パイプライン 1. 画像マッチング（DINOv2） 3. 特徴点マッチング（LightGlue） 4. カメラポーズ推定（COLMAP） 2. 特徴点抽出（ALIKED） keypoints (n_kpts , 2) descriptions (n_kpts , n_dim) keypoints (n_kpts , 2) matches (n_mchs , 2) 1) より引用特徴点の座標とペア情報を COLMAP DBに保存 RANSACを用いた基礎行列計算シーン再構成

Slide 8

Slide 8 text

Agenda - コンペ概要 - 上位解法 - しくじり紹介 - 教訓・まとめ

Slide 9

Slide 9 text

多くのチームが　1. 通常シーンと、2. 透明シーン　で別々のパイプラインを組んでいた。上位解法 1. 通常シーン 2. 透明シーン

Slide 10

Slide 10 text

1. 通常シーン - 大きく3種類の工夫ポイントがあった 1. 画像マッチング 2. 特徴点マッチング 3. カメラポーズ推定上位解法

Slide 11

Slide 11 text

1. 通常シーン 1. 画像マッチング上位解法 - 画像特徴による類似度マッチング - 特徴抽出の工夫 - ベースラインのDINOv2を用いるチームが多かった - 画像：頂点、類似度：辺とする最小全域木を計算 - 網羅的マッチング - 全マッチングを試す - 今回は1シーンあたり画像数が最大100枚 - 高速化で対応可能だった 2位解法より引用

Slide 12

Slide 12 text

1. 通常シーン 2. 特徴点マッチング上位解法 - モデル - ベースラインのALIKED + LightGlueを用いるチームが多かった - division - 画像を分割して、より細かい特徴点を抽出 - rotation - 画像を90度ずつ回転させ、最もマッチする特徴点数が多い方向でマッチング - crop - マッチする特徴点の密集領域をcrop 1位解法より引用 6位解法より引用

Slide 13

Slide 13 text

1. 通常シーン 3. カメラポーズ推定上位解法 - 独自のSfMパイプラインでCOLMAPのモデルを精緻化 - できるだけ多くの画像を再構成結果に登録 3位解法より引用 6位解法より引用

Slide 14

Slide 14 text

上位解法 2. 透明シーン - カメラが物体を取り囲むように撮影方法が特徴的だった - 通常パイプラインだと一見変化していない輪郭や背景でマッチしてしまう - 大きく2つのアプローチがあった 1) より引用

Slide 15

Slide 15 text

上位解法 2. 透明シーン 2位解法より引用 1. DIP (Direct Image Pose estimation) - 画像の類似度を元に画像の順序を推定後，カメラパラメータを直接推定するアプローチ - SSIM、画像・特徴点の特徴などが類似度に用いられた

Slide 16

Slide 16 text

上位解法 2. 透明シーン 2. マッチングの工夫 - 前処理の工夫により微細特徴を元に通常通りマッチングをおこなうアプローチ - 物体表面のcropなど 4位解法より引用 6位解法より引用

Slide 17

Slide 17 text

自分の結果 - 通常シーン - 画像マッチング：dinov2-base, netvlad - 特徴点マッチング： - ALIKED + LightGlue - rotation -> 4 divisions -> resize -> extract keypoint - 透明シーン - 画像マッチング：全マッチング - 特徴点マッチング： - ALIKED + LightGlue - padding -> object detection -> resize -> 9 divisions -> extract keypoint CVはいい感じ...!!

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Agenda - コンペ概要 - 上位解法 - しくじり紹介 - 教訓・まとめ

Slide 20

Slide 20 text

僕の苦労・失敗談4つを紹介年一コンペの割に公開codeも少なく参入障壁が高めのコンペに感じたので来年以降初参加される方々の参考になれば幸いです

Slide 21

Slide 21 text

推論結果が毎回変わる - COLMAPの出力結果が毎回変わる - 自環境では以下でパイプライン全体の再現性を確保 - pycolmapのパラメータ変更 - torch系ライブラリのversion変更 - torch.backends設定変更 - 公開codeでPB300~800位程度のスコアのばらつき - 非対処の上位解法もあり 1

Slide 22

Slide 22 text

- 明らかにマッチングが改善しているのにスコアが向上しない - 画像に対しておこなった変換を、 colmap DBに保存する特徴点に反映していなかった - 画像変換 -> 特徴点逆変換のクラスを用意して対処 2 特徴点の逆変換を忘れる

Slide 23

Slide 23 text

透明シーンの検証が足りない - 指紋や傷で特徴点を得るというアイデアはあったが、やりきれず - 汎用detectorで輪郭内部を検出 - classは無視してscore最大のbboxを cropする戦略をとった - 一方で上位解法では”bottle” classのあるデータセットで事前学習された segmenterを使用 - モデル調査やsegmentationをもっと試すべきだった 3

Slide 24

Slide 24 text

テストシーンの仕様を間違える 4 - 史上最大のやらかし - testシーン名がtrainシーン名を含むものと思い込む（実際はunknown） - シーン毎に名前で条件分岐させたため、全パイプラインがelse処理に - discussionにはちゃんと書いてあった

Slide 25

Slide 25 text

colmapのログ出力が長すぎる公開notebookのALIKEDのresizeが機能していない LightGlueとHierarchical-Localizationがkaggle notebookでインストールできない特徴点をアンサンブルしすぎてごく近傍なのに別の特徴点がマッチングしてしまう透明シーンの順番推定を検証前に諦める可視化が不十分で教会シーンの再構成の偏りに気付けない出張期間用に自宅マシンの外部接続設定をするも使わない kaggle notebook上でプライベートレポジトリをcloneできない何故か実験管理ツールが動かない全く効かないcrop+アンサンブル+nmsのためにめちゃくちゃ時間を溶かす提出ID以外の画像がtestセットに含まれていることに気付けないカメラ位置の閾値から透明シーンにおけるオブジェクトとの距離を推測できなかった： ∞

Slide 26

Slide 26 text

Agenda - コンペ概要 - 上位解法 - しくじり紹介 - 教訓・まとめ

Slide 27

Slide 27 text

教訓 - discussionはきちんと読む - ローカルでの実験が上手くいっているとdiscussionやcodeを読む優先度を下げがち - 定期的に時間を作ってupdateを追う - 本当にだいじ - 信じたアイデアにはとことん向き合う - 心中しても良いと思えるアイデアを見つける - ソロだと特に向かうべき道が定まらないことも多いイメージ - 微妙なアイデアも一旦試してみる - あきらめるのは簡単 - あまねく試せる手の速さを！

Slide 28

Slide 28 text

まとめ - Image Matching Challengeはアイデア次第で結果を出せる（はずの）面白いコンペ - しくじりを知ることで圧倒的成長 - つよつよな方々のしくじりも聞いてみたい - Masterなりたい!!!! だ  な  り  た  い  っ 

Slide 29

Slide 29 text

参考 1) kaggle IMC2024コンペ上位解法まとめ