GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization

Slide 1

Slide 1 text

GeoCLIP: Clip-Inspired Alignment between Locations  and Images for Effective Worldwide Geo-localization  株式会社アークエッジ・スペース  湯原弘大  1 資料に出てくる図引用を明記しない場合 Vicente Vivanco Cepeda et al. (2023), “GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization (https://arxiv.org/abs/2309.16020)”, NeurIPS 2023 より引用

Slide 2

Slide 2 text

目次   2 ● 自己紹介スライド  ● 研究の1ページサマリ紹介   ● 研究の背景（Introduction）   ● 手法について（Method）   ● 実験（Experimet）  ● 結論（Conclusion） 

Slide 3

Slide 3 text

3 著者紹介 This image was generated by ChatGPT

Slide 4

Slide 4 text

湯原弘大株式会社アークエッジ・スペース自己紹介 Twitter 4 経歴などサグリ株式会社 -> 株式会社アークエッジ・スペース農業リモートセンシングに興味あり、リモートセンシング関わり始めたのはここ5年前から現職ではWEBバックエンド、機械学習関連を兼任で担当しています STAC API利用してプラットフォーム開発が現在メインの業務です。資格など最近取得しました→ 生成AIへの理解を、リモートセンシングの親和性を探るため取得 AWS Certified Machine Learning Engineer も取得に向け勉強中

Slide 5

Slide 5 text

5 研究の1ページサマリ紹介 This image was generated by ChatGPT

Slide 6

Slide 6 text

GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective   Worldwide Geo-localization   6 ● 目的:  ○ 画像が撮影されたGPS座標を高精度に特定する「Worldwide Geo-localization」   ● 課題:  ○ 既存手法の限界:  ■ 画像検索ベース: 全世界をカバーする画像データベース構築は非現実的   ■ 分類ベース: 地球を区画に分割するため、区画の境界や中心から離れた場所での精度が低い。予測場所も限定的。  ● 提案手法: GeoCLIP   ○ 【新規性/重要性】画像の特徴とGPS座標の特徴を直接結びつけ、全世界での高精度な位置特定を実現   ○ CLIPに着想: 画像の特徴と対応するGPS座標の特徴を直接対応付ける学習   ○ 画像からGPS座標を検索: クエリ画像の特徴量と、GPS座標データベースの特徴量を比較し、最も似ているGPS座標を予測  ○ Location Encoder: GPS座標を高次元の特徴量へ (RFFと階層表現を活用)   ○ Image Encoder: CLIPのVision Transformerを利用   ● 主な貢献:  ○ 初の画像からGPSを検索する方式での全世界ジオロケーション   ○ 高性能なLocation Encoder   ○ 少ない学習データでも高い性能   ○ テキストによるジオロケーションも可能    

Slide 7

Slide 7 text

7 研究の背景（ Introduction） This image was generated by ChatGPT

Slide 8

Slide 8 text

1. ジオロケーションとは？画像撮影地のGPS座標を特定 (ナビ, 観光, etc.)   2. 課題: 全世界が対象だと探索範囲が膨大、目印となる建物や地形がない場所での特定が困難   3. 既存アプローチ:  a. 画像検索: 全世界の画像データベース構築が困難   b. 分類: 事前定義された区画に依存、区画境界/中心外で精度低下   4. 本研究: 既存の限界を克服する新しい仕組みを提案   研究の背景 (Introduction)   8

Slide 9

Slide 9 text

9 手法について（ Method） This image was generated by ChatGPT

Slide 10

Slide 10 text

● GeoCLIP: 画像の特徴とGPS座標の特徴を対応付ける   ● 基本コンセプト:  ○ 問題を「画像からGPS座標を検索する」タスクとして定義   ■ クエリ: 入力画像  ■ 検索対象: GPS座標データベース   ○ 画像とGPS座標を「類似度」を測れる共通の空間に変換し、   対応するペアの類似度を高めるように学習   手法について (Method Overview)   10

Slide 11

Slide 11 text

● 主要コンポーネント:   ○ Location Encoder (L(·)): GPS座標 → 高次元の特徴量ベクトル   ○ Image Encoder (V(·)): 画像 → （Location Encoderと同じ次元の）特徴量ベクトル   (CLIP ViTベース)  ● 予測プロセス:  ○ クエリ画像の特徴量を計算   ○ GPS座標データベースの特徴量と比較   ○ 最も類似度が高い特徴量に対応するGPS座標を予測結果とする   手法について (Method Overview)   11

Slide 12

Slide 12 text

● Location Encoder (L(·)): 2D GPSを高次元特徴量へ   ● 課題: 標準的な座標系の歪み、MLPが高周波情報を捉えにくい問題 (Spectral Bias)     ● 工夫点:  ○ EEP: 座標系の歪みを軽減   ○ RFF: 高周波情報を捉えやすくする (Spectral Bias緩和)   ○ 階層表現: 複数解像度の特徴量を統合し、粗いスケールから細かいスケールまで対応   手法について (Location Encoder)   12

Slide 13

Slide 13 text

● Image Encoder (V(·)):   ○ CLIP ViT[15] (凍結) + 追加層のみ学習   ○ 強力な特徴と計算効率を両立   ● 学習戦略: 対比学習 (Contrastive Learning)   ○ (画像 Vi ⇔ 対応GPS Li) の類似度を高める   ○ (画像 Vi ⇔ 非対応GPS Lj, L̃) の類似度を低める   ● データ拡張: 画像 (SimCLR風) + GPS (ノイズ付加で頑健性向上)   ● Dynamic Queue: 多様な「非対応GPS」を効率的に利用   ● 損失: InfoNCE (Eq. 4)     手法について (Image Encoder & Training)   13

Slide 14

Slide 14 text

14 実験（Experimet） This image was generated by ChatGPT

Slide 15

Slide 15 text

● データセット: 学習: MP-16 / 評価: Im2GPS3k, GWS15k, YFCC26k   ○ 評価指標: Accuracy@K km (予測地点と正解地点の距離が K km 以内の割合: 1, 25, 200, 750, 2500 km)     実験 (Experiment Setup)   15 ● 評価方法: 画像からGPSを検索 (比較対象のGPS座標データベース: 100k/500k点), Ten Crop評価  

Slide 16

Slide 16 text

● Optimizerと学習率:  ○ 「学習にはAdam optimizerを使用し、学習率は全体で3e-5、Weight Decayは1e-6としました。」  ○ 「学習率スケジューラとしてStep Decayを用い、ガンマ0.87、ステップサイズ1 epochとしました。」  ● バッチサイズと学習時間:  ○ 「全データでの学習時のバッチサイズは512です。限定データ設定ではデータ量に応じて調整しました（例: 20%データで256）。」  ○ 「学習は収束するまで行い、通常10エポック程度でした。」  ● Location Encoderの構成:  ○ 「Location EncoderのMLPは、入力512次元、隠れ層4層（各1024次元、ReLU）、出力512次元です。」  ○ 「RFFの入力は2次元（座標）、出力は512次元としました。」  ○ 「階層数は3 (M=3) とし、σの範囲は2^0から2^8としました。」  ● Image Encoderの構成:  ○ 「Image EncoderにはOpenAIの事前学習済みCLIP ViT-L/14をバックボーンとして使用しました。」  ○ 「バックボーンは凍結し、768次元から512次元に変換する2つの線形層のみを学習対象としました。」  ● ノイズとキュー:  ○ 「学習時、バッチ内のGPS座標には標準偏差150のガウスノイズを加えました (ση=150)。」  ○ 「ダイナミックキュー内のGPS座標には、より大きな標準偏差1000のノイズを加えました (ση'=1000)。」  ○ 「ダイナミックキューのサイズは4096としました (|Q|=4096)。」  ● 温度パラメータ:  ○ 「Contrastive Lossで用いる温度パラメータτは0.07で初期化しました。」  実験 (実装詳細)   16

Slide 17

Slide 17 text

● 1. 少ないデータでの性能:   ○ 学習データ削減 (5%まで) に対し性能低下は緩やか (特に分類手法比較で顕著)   ○ データ効率が良い  実験 (Data Efficiency & Ablations)   17   ● 2. 要素技術の有効性検証 (Ablation Study):   ○ Location Encoderの各要素 (EEP, RFF, DQ) が精度向上に貢献   ○ 階層学習が単一階層より全てのスケールで優れる  

Slide 18

Slide 18 text

● 1. テキストによるジオロケーション:   ○ 画像とテキストの対応付け能力 (CLIP由来) により   追加学習なしでテキストから場所を推定可能     ● 2. Location Encoderの汎用性:   ○ 画像分類タスクでもSOTA達成   (GPS特徴が地理的な意味情報を保持)     実験 (Qualitative & Additional Utilities)   18

Slide 19

Slide 19 text

● 3. 事前知識の活用:  ○ 予め大まかな地域が分かっていれば   探索範囲を絞って精度向上 (実用的)     実験 (Qualitative & Additional Utilities)   19

Slide 20

Slide 20 text

● Table 1 (a) Results on the Im2GPS3k [7] dataset   ○ これは、比較的古くから使われているベンチマークデータセット   「Im2GPS3k」での比較結果です。   ● Table 1 (b) Results on the recent GWS15k [5] dataset   ○ これは、より新しく挑戦的なデータセット「GWS15k」での比較結果です。   GeoCLIPの優位性が特に顕著に表れています。   実験 (Main Results)   20

Slide 21

Slide 21 text

21 結論（Conclusion） This image was generated by ChatGPT

Slide 22

Slide 22 text

● 提案: 画像からGPS座標を検索する新ジオロケーション手法「GeoCLIP」   ● 特徴: 高性能Location Encoder (EEP, RFF, 階層), 画像とGPS特徴の直接的な対応付け   ● 成果: SOTA性能、高いデータ効率、テキストによる位置特定、Location Encoderの汎用性   ● 限界/今後: 事前計算コスト、他タスク応用   ● 影響: 代替測位、自動運転等への貢献と倫理的配慮   まとめ   22