Slide 1

Slide 1 text

GeoCLIP: Clip-Inspired Alignment between Locations
 and Images for Effective Worldwide Geo-localization
 株式会社アークエッジ・スペース
 湯原弘大
 1 資料に出てくる図 引用を明記しない場合 Vicente Vivanco Cepeda et al. (2023), “GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization (https://arxiv.org/abs/2309.16020)”, NeurIPS 2023 より引用

Slide 2

Slide 2 text

目次 
 2 ● 自己紹介スライド
 ● 研究の1ページサマリ紹介 
 ● 研究の背景(Introduction) 
 ● 手法について(Method) 
 ● 実験(Experimet)
 ● 結論(Conclusion)


Slide 3

Slide 3 text

3 著者紹介 This image was generated by ChatGPT

Slide 4

Slide 4 text

湯原 弘大 株式会社アークエッジ・スペース 自己紹介 Twitter 4 経歴など サグリ株式会社 -> 株式会社アークエッジ・スペース 農業リモートセンシングに興味あり、リモートセンシング関わり始めたのは ここ5年前から 現職ではWEBバックエンド、機械学習関連を兼任で担当しています STAC API利用してプラットフォーム開発が現在メインの業務です。 資格など 最近取得しました→ 生成AIへの理解を、リモートセンシングの親和性を探るため取得 AWS Certified Machine Learning Engineer も取得に向け勉強中

Slide 5

Slide 5 text

5 研究の1ページサマリ紹介 This image was generated by ChatGPT

Slide 6

Slide 6 text

GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective 
 Worldwide Geo-localization 
 6 ● 目的:
 ○ 画像が撮影されたGPS座標を高精度に特定する「Worldwide Geo-localization」 
 ● 課題:
 ○ 既存手法の限界:
 ■ 画像検索ベース: 全世界をカバーする画像データベース構築は非現実的 
 ■ 分類ベース: 地球を区画に分割するため、区画の境界や中心から離れた場所での精度が低い。予 測場所も限定的。
 ● 提案手法: GeoCLIP 
 ○ 【新規性/重要性】画像の特徴とGPS座標の特徴を直接結びつけ、全世界での高精度な位置特定を実現 
 ○ CLIPに着想: 画像の特徴と対応するGPS座標の特徴を直接対応付ける学習 
 ○ 画像からGPS座標を検索: クエリ画像の特徴量と、GPS座標データベースの特徴量を比較し、最も似てい るGPS座標を予測
 ○ Location Encoder: GPS座標を高次元の特徴量へ (RFFと階層表現を活用) 
 ○ Image Encoder: CLIPのVision Transformerを利用 
 ● 主な貢献:
 ○ 初の画像からGPSを検索する方式での全世界ジオロケーション 
 ○ 高性能なLocation Encoder 
 ○ 少ない学習データでも高い性能 
 ○ テキストによるジオロケーションも可能 
 


Slide 7

Slide 7 text

7 研究の背景( Introduction) This image was generated by ChatGPT

Slide 8

Slide 8 text

1. ジオロケーションとは? 画像撮影地のGPS座標を特定 (ナビ, 観光, etc.) 
 2. 課題: 全世界が対象だと探索範囲が膨大、目印となる建物や地形がない場所での特定が困難 
 3. 既存アプローチ:
 a. 画像検索: 全世界の画像データベース構築が困難 
 b. 分類: 事前定義された区画に依存、区画境界/中心外で精度低下 
 4. 本研究: 既存の限界を克服する新しい仕組みを提案 
 研究の背景 (Introduction) 
 8

Slide 9

Slide 9 text

9 手法について( Method) This image was generated by ChatGPT

Slide 10

Slide 10 text

● GeoCLIP: 画像の特徴とGPS座標の特徴を対応付ける 
 ● 基本コンセプト:
 ○ 問題を「画像からGPS座標を検索する」タスクとして定義 
 ■ クエリ: 入力画像
 ■ 検索対象: GPS座標データベース 
 ○ 画像とGPS座標を「類似度」を測れる共通の空間に変換し、 
 対応するペアの類似度を高めるように学習 
 手法について (Method Overview) 
 10

Slide 11

Slide 11 text

● 主要コンポーネント: 
 ○ Location Encoder (L(·)): GPS座標 → 高次元の特徴量ベクトル 
 ○ Image Encoder (V(·)): 画像 → (Location Encoderと同じ次元の)特徴量ベクトル 
 (CLIP ViTベース)
 ● 予測プロセス:
 ○ クエリ画像の特徴量を計算 
 ○ GPS座標データベースの特徴量と比較 
 ○ 最も類似度が高い特徴量に対応するGPS座標を予測結果とする 
 手法について (Method Overview) 
 11

Slide 12

Slide 12 text

● Location Encoder (L(·)): 2D GPSを高次元特徴量へ 
 ● 課題: 標準的な座標系の歪み、MLPが高周波情報を捉えにくい問題 (Spectral Bias) 
 
 ● 工夫点:
 ○ EEP: 座標系の歪みを軽減 
 ○ RFF: 高周波情報を捉えやすくする (Spectral Bias緩和) 
 ○ 階層表現: 複数解像度の特徴量を統合し、粗いスケールから細かいスケールまで対応 
 手法について (Location Encoder) 
 12

Slide 13

Slide 13 text

● Image Encoder (V(·)): 
 ○ CLIP ViT[15] (凍結) + 追加層のみ学習 
 ○ 強力な特徴と計算効率を両立 
 ● 学習戦略: 対比学習 (Contrastive Learning) 
 ○ (画像 Vi ⇔ 対応GPS Li) の類似度を高める 
 ○ (画像 Vi ⇔ 非対応GPS Lj, L̃) の類似度を低める 
 ● データ拡張: 画像 (SimCLR風) + GPS (ノイズ付加で頑健性向上) 
 ● Dynamic Queue: 多様な「非対応GPS」を効率的に利用 
 ● 損失: InfoNCE (Eq. 4) 
 
 手法について (Image Encoder & Training) 
 13

Slide 14

Slide 14 text

14 実験(Experimet) This image was generated by ChatGPT

Slide 15

Slide 15 text

● データセット: 学習: MP-16 / 評価: Im2GPS3k, GWS15k, YFCC26k 
 ○ 評価指標: Accuracy@K km (予測地点と正解地点の距離が K km 以内の割合: 1, 25, 200, 750, 2500 km) 
 
 実験 (Experiment Setup) 
 15 ● 評価方法: 画像からGPSを検索 (比較対象のGPS座標データベース: 100k/500k点), Ten Crop評価 


Slide 16

Slide 16 text

● Optimizerと学習率:
 ○ 「学習にはAdam optimizerを使用し、学習率は全体で3e-5、Weight Decayは1e-6としました。」
 ○ 「学習率スケジューラとしてStep Decayを用い、ガンマ0.87、ステップサイズ1 epochとしました。」
 ● バッチサイズと学習時間:
 ○ 「全データでの学習時のバッチサイズは512です。限定データ設定ではデータ量に応じて調整しました(例: 20%データで256)。」
 ○ 「学習は収束するまで行い、通常10エポック程度でした。」
 ● Location Encoderの構成:
 ○ 「Location EncoderのMLPは、入力512次元、隠れ層4層(各1024次元、ReLU)、出力512次元です。」
 ○ 「RFFの入力は2次元(座標)、出力は512次元としました。」
 ○ 「階層数は3 (M=3) とし、σの範囲は2^0から2^8としました。」
 ● Image Encoderの構成:
 ○ 「Image EncoderにはOpenAIの事前学習済みCLIP ViT-L/14をバックボーンとして使用しました。」
 ○ 「バックボーンは凍結し、768次元から512次元に変換する2つの線形層のみを学習対象としました。」
 ● ノイズとキュー:
 ○ 「学習時、バッチ内のGPS座標には標準偏差150のガウスノイズを加えました (ση=150)。」
 ○ 「ダイナミックキュー内のGPS座標には、より大きな標準偏差1000のノイズを加えました (ση'=1000)。」
 ○ 「ダイナミックキューのサイズは4096としました (|Q|=4096)。」
 ● 温度パラメータ:
 ○ 「Contrastive Lossで用いる温度パラメータτは0.07で初期化しました。」
 実験 (実装詳細) 
 16

Slide 17

Slide 17 text

● 1. 少ないデータでの性能: 
 ○ 学習データ削減 (5%まで) に対し性能低下は緩やか (特に分類手法比較で顕著) 
 ○ データ効率が良い
 実験 (Data Efficiency & Ablations) 
 17 
 ● 2. 要素技術の有効性検証 (Ablation Study): 
 ○ Location Encoderの各要素 (EEP, RFF, DQ) が精度向上に貢献 
 ○ 階層学習が単一階層より全てのスケールで優れる 


Slide 18

Slide 18 text

● 1. テキストによるジオロケーション: 
 ○ 画像とテキストの対応付け能力 (CLIP由来) により 
 追加学習なしでテキストから場所を推定可能 
 
 ● 2. Location Encoderの汎用性: 
 ○ 画像分類タスクでもSOTA達成 
 (GPS特徴が地理的な意味情報を保持) 
 
 実験 (Qualitative & Additional Utilities) 
 18

Slide 19

Slide 19 text

● 3. 事前知識の活用:
 ○ 予め大まかな地域が分かっていれば 
 探索範囲を絞って精度向上 (実用的) 
 
 実験 (Qualitative & Additional Utilities) 
 19

Slide 20

Slide 20 text

● Table 1 (a) Results on the Im2GPS3k [7] dataset 
 ○ これは、比較的古くから使われているベンチマークデータセット 
 「Im2GPS3k」での比較結果です。 
 ● Table 1 (b) Results on the recent GWS15k [5] dataset 
 ○ これは、より新しく挑戦的なデータセット「GWS15k」での比較結果です。 
 GeoCLIPの優位性が特に顕著に表れています。 
 実験 (Main Results) 
 20

Slide 21

Slide 21 text

21 結論(Conclusion) This image was generated by ChatGPT

Slide 22

Slide 22 text

● 提案: 画像からGPS座標を検索する新ジオロケーション手法「GeoCLIP」 
 ● 特徴: 高性能Location Encoder (EEP, RFF, 階層), 画像とGPS特徴の直接的な対応付け 
 ● 成果: SOTA性能、高いデータ効率、テキストによる位置特定、Location Encoderの汎用性 
 ● 限界/今後: 事前計算コスト、他タスク応用 
 ● 影響: 代替測位、自動運転等への貢献と倫理的配慮 
 まとめ 
 22