GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization
by
SatAI.challenge
×
Copy
Open
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Slide 1
Slide 1 text
GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization 株式会社アークエッジ・スペース 湯原弘大 1 資料に出てくる図 引用を明記しない場合 Vicente Vivanco Cepeda et al. (2023), “GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization (https://arxiv.org/abs/2309.16020)”, NeurIPS 2023 より引用
Slide 2
Slide 2 text
目次 2 ● 自己紹介スライド ● 研究の1ページサマリ紹介 ● 研究の背景(Introduction) ● 手法について(Method) ● 実験(Experimet) ● 結論(Conclusion)
Slide 3
Slide 3 text
3 著者紹介 This image was generated by ChatGPT
Slide 4
Slide 4 text
湯原 弘大 株式会社アークエッジ・スペース 自己紹介 Twitter 4 経歴など サグリ株式会社 -> 株式会社アークエッジ・スペース 農業リモートセンシングに興味あり、リモートセンシング関わり始めたのは ここ5年前から 現職ではWEBバックエンド、機械学習関連を兼任で担当しています STAC API利用してプラットフォーム開発が現在メインの業務です。 資格など 最近取得しました→ 生成AIへの理解を、リモートセンシングの親和性を探るため取得 AWS Certified Machine Learning Engineer も取得に向け勉強中
Slide 5
Slide 5 text
5 研究の1ページサマリ紹介 This image was generated by ChatGPT
Slide 6
Slide 6 text
GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization 6 ● 目的: ○ 画像が撮影されたGPS座標を高精度に特定する「Worldwide Geo-localization」 ● 課題: ○ 既存手法の限界: ■ 画像検索ベース: 全世界をカバーする画像データベース構築は非現実的 ■ 分類ベース: 地球を区画に分割するため、区画の境界や中心から離れた場所での精度が低い。予 測場所も限定的。 ● 提案手法: GeoCLIP ○ 【新規性/重要性】画像の特徴とGPS座標の特徴を直接結びつけ、全世界での高精度な位置特定を実現 ○ CLIPに着想: 画像の特徴と対応するGPS座標の特徴を直接対応付ける学習 ○ 画像からGPS座標を検索: クエリ画像の特徴量と、GPS座標データベースの特徴量を比較し、最も似てい るGPS座標を予測 ○ Location Encoder: GPS座標を高次元の特徴量へ (RFFと階層表現を活用) ○ Image Encoder: CLIPのVision Transformerを利用 ● 主な貢献: ○ 初の画像からGPSを検索する方式での全世界ジオロケーション ○ 高性能なLocation Encoder ○ 少ない学習データでも高い性能 ○ テキストによるジオロケーションも可能
Slide 7
Slide 7 text
7 研究の背景( Introduction) This image was generated by ChatGPT
Slide 8
Slide 8 text
1. ジオロケーションとは? 画像撮影地のGPS座標を特定 (ナビ, 観光, etc.) 2. 課題: 全世界が対象だと探索範囲が膨大、目印となる建物や地形がない場所での特定が困難 3. 既存アプローチ: a. 画像検索: 全世界の画像データベース構築が困難 b. 分類: 事前定義された区画に依存、区画境界/中心外で精度低下 4. 本研究: 既存の限界を克服する新しい仕組みを提案 研究の背景 (Introduction) 8
Slide 9
Slide 9 text
9 手法について( Method) This image was generated by ChatGPT
Slide 10
Slide 10 text
● GeoCLIP: 画像の特徴とGPS座標の特徴を対応付ける ● 基本コンセプト: ○ 問題を「画像からGPS座標を検索する」タスクとして定義 ■ クエリ: 入力画像 ■ 検索対象: GPS座標データベース ○ 画像とGPS座標を「類似度」を測れる共通の空間に変換し、 対応するペアの類似度を高めるように学習 手法について (Method Overview) 10
Slide 11
Slide 11 text
● 主要コンポーネント: ○ Location Encoder (L(·)): GPS座標 → 高次元の特徴量ベクトル ○ Image Encoder (V(·)): 画像 → (Location Encoderと同じ次元の)特徴量ベクトル (CLIP ViTベース) ● 予測プロセス: ○ クエリ画像の特徴量を計算 ○ GPS座標データベースの特徴量と比較 ○ 最も類似度が高い特徴量に対応するGPS座標を予測結果とする 手法について (Method Overview) 11
Slide 12
Slide 12 text
● Location Encoder (L(·)): 2D GPSを高次元特徴量へ ● 課題: 標準的な座標系の歪み、MLPが高周波情報を捉えにくい問題 (Spectral Bias) ● 工夫点: ○ EEP: 座標系の歪みを軽減 ○ RFF: 高周波情報を捉えやすくする (Spectral Bias緩和) ○ 階層表現: 複数解像度の特徴量を統合し、粗いスケールから細かいスケールまで対応 手法について (Location Encoder) 12
Slide 13
Slide 13 text
● Image Encoder (V(·)): ○ CLIP ViT[15] (凍結) + 追加層のみ学習 ○ 強力な特徴と計算効率を両立 ● 学習戦略: 対比学習 (Contrastive Learning) ○ (画像 Vi ⇔ 対応GPS Li) の類似度を高める ○ (画像 Vi ⇔ 非対応GPS Lj, L̃) の類似度を低める ● データ拡張: 画像 (SimCLR風) + GPS (ノイズ付加で頑健性向上) ● Dynamic Queue: 多様な「非対応GPS」を効率的に利用 ● 損失: InfoNCE (Eq. 4) 手法について (Image Encoder & Training) 13
Slide 14
Slide 14 text
14 実験(Experimet) This image was generated by ChatGPT
Slide 15
Slide 15 text
● データセット: 学習: MP-16 / 評価: Im2GPS3k, GWS15k, YFCC26k ○ 評価指標: Accuracy@K km (予測地点と正解地点の距離が K km 以内の割合: 1, 25, 200, 750, 2500 km) 実験 (Experiment Setup) 15 ● 評価方法: 画像からGPSを検索 (比較対象のGPS座標データベース: 100k/500k点), Ten Crop評価
Slide 16
Slide 16 text
● Optimizerと学習率: ○ 「学習にはAdam optimizerを使用し、学習率は全体で3e-5、Weight Decayは1e-6としました。」 ○ 「学習率スケジューラとしてStep Decayを用い、ガンマ0.87、ステップサイズ1 epochとしました。」 ● バッチサイズと学習時間: ○ 「全データでの学習時のバッチサイズは512です。限定データ設定ではデータ量に応じて調整しました(例: 20%データで256)。」 ○ 「学習は収束するまで行い、通常10エポック程度でした。」 ● Location Encoderの構成: ○ 「Location EncoderのMLPは、入力512次元、隠れ層4層(各1024次元、ReLU)、出力512次元です。」 ○ 「RFFの入力は2次元(座標)、出力は512次元としました。」 ○ 「階層数は3 (M=3) とし、σの範囲は2^0から2^8としました。」 ● Image Encoderの構成: ○ 「Image EncoderにはOpenAIの事前学習済みCLIP ViT-L/14をバックボーンとして使用しました。」 ○ 「バックボーンは凍結し、768次元から512次元に変換する2つの線形層のみを学習対象としました。」 ● ノイズとキュー: ○ 「学習時、バッチ内のGPS座標には標準偏差150のガウスノイズを加えました (ση=150)。」 ○ 「ダイナミックキュー内のGPS座標には、より大きな標準偏差1000のノイズを加えました (ση'=1000)。」 ○ 「ダイナミックキューのサイズは4096としました (|Q|=4096)。」 ● 温度パラメータ: ○ 「Contrastive Lossで用いる温度パラメータτは0.07で初期化しました。」 実験 (実装詳細) 16
Slide 17
Slide 17 text
● 1. 少ないデータでの性能: ○ 学習データ削減 (5%まで) に対し性能低下は緩やか (特に分類手法比較で顕著) ○ データ効率が良い 実験 (Data Efficiency & Ablations) 17 ● 2. 要素技術の有効性検証 (Ablation Study): ○ Location Encoderの各要素 (EEP, RFF, DQ) が精度向上に貢献 ○ 階層学習が単一階層より全てのスケールで優れる
Slide 18
Slide 18 text
● 1. テキストによるジオロケーション: ○ 画像とテキストの対応付け能力 (CLIP由来) により 追加学習なしでテキストから場所を推定可能 ● 2. Location Encoderの汎用性: ○ 画像分類タスクでもSOTA達成 (GPS特徴が地理的な意味情報を保持) 実験 (Qualitative & Additional Utilities) 18
Slide 19
Slide 19 text
● 3. 事前知識の活用: ○ 予め大まかな地域が分かっていれば 探索範囲を絞って精度向上 (実用的) 実験 (Qualitative & Additional Utilities) 19
Slide 20
Slide 20 text
● Table 1 (a) Results on the Im2GPS3k [7] dataset ○ これは、比較的古くから使われているベンチマークデータセット 「Im2GPS3k」での比較結果です。 ● Table 1 (b) Results on the recent GWS15k [5] dataset ○ これは、より新しく挑戦的なデータセット「GWS15k」での比較結果です。 GeoCLIPの優位性が特に顕著に表れています。 実験 (Main Results) 20
Slide 21
Slide 21 text
21 結論(Conclusion) This image was generated by ChatGPT
Slide 22
Slide 22 text
● 提案: 画像からGPS座標を検索する新ジオロケーション手法「GeoCLIP」 ● 特徴: 高性能Location Encoder (EEP, RFF, 階層), 画像とGPS特徴の直接的な対応付け ● 成果: SOTA性能、高いデータ効率、テキストによる位置特定、Location Encoderの汎用性 ● 限界/今後: 事前計算コスト、他タスク応用 ● 影響: 代替測位、自動運転等への貢献と倫理的配慮 まとめ 22