×
Copy
Open
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization 株式会社アークエッジ・スペース 湯原弘大 1 資料に出てくる図 引用を明記しない場合 Vicente Vivanco Cepeda et al. (2023), “GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization (https://arxiv.org/abs/2309.16020)”, NeurIPS 2023 より引用
Slide 2
Slide 2 text
目次 2 ● 自己紹介スライド ● 研究の1ページサマリ紹介 ● 研究の背景(Introduction) ● 手法について(Method) ● 実験(Experimet) ● 結論(Conclusion)
Slide 3
Slide 3 text
3 著者紹介 This image was generated by ChatGPT
Slide 4
Slide 4 text
湯原 弘大 株式会社アークエッジ・スペース 自己紹介 Twitter 4 経歴など サグリ株式会社 -> 株式会社アークエッジ・スペース 農業リモートセンシングに興味あり、リモートセンシング関わり始めたのは ここ5年前から 現職ではWEBバックエンド、機械学習関連を兼任で担当しています STAC API利用してプラットフォーム開発が現在メインの業務です。 資格など 最近取得しました→ 生成AIへの理解を、リモートセンシングの親和性を探るため取得 AWS Certified Machine Learning Engineer も取得に向け勉強中
Slide 5
Slide 5 text
5 研究の1ページサマリ紹介 This image was generated by ChatGPT
Slide 6
Slide 6 text
GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization 6 ● 目的: ○ 画像が撮影されたGPS座標を高精度に特定する「Worldwide Geo-localization」 ● 課題: ○ 既存手法の限界: ■ 画像検索ベース: 全世界をカバーする画像データベース構築は非現実的 ■ 分類ベース: 地球を区画に分割するため、区画の境界や中心から離れた場所での精度が低い。予 測場所も限定的。 ● 提案手法: GeoCLIP ○ 【新規性/重要性】画像の特徴とGPS座標の特徴を直接結びつけ、全世界での高精度な位置特定を実現 ○ CLIPに着想: 画像の特徴と対応するGPS座標の特徴を直接対応付ける学習 ○ 画像からGPS座標を検索: クエリ画像の特徴量と、GPS座標データベースの特徴量を比較し、最も似てい るGPS座標を予測 ○ Location Encoder: GPS座標を高次元の特徴量へ (RFFと階層表現を活用) ○ Image Encoder: CLIPのVision Transformerを利用 ● 主な貢献: ○ 初の画像からGPSを検索する方式での全世界ジオロケーション ○ 高性能なLocation Encoder ○ 少ない学習データでも高い性能 ○ テキストによるジオロケーションも可能
Slide 7
Slide 7 text
7 研究の背景( Introduction) This image was generated by ChatGPT
Slide 8
Slide 8 text
1. ジオロケーションとは? 画像撮影地のGPS座標を特定 (ナビ, 観光, etc.) 2. 課題: 全世界が対象だと探索範囲が膨大、目印となる建物や地形がない場所での特定が困難 3. 既存アプローチ: a. 画像検索: 全世界の画像データベース構築が困難 b. 分類: 事前定義された区画に依存、区画境界/中心外で精度低下 4. 本研究: 既存の限界を克服する新しい仕組みを提案 研究の背景 (Introduction) 8
Slide 9
Slide 9 text
9 手法について( Method) This image was generated by ChatGPT
Slide 10
Slide 10 text
● GeoCLIP: 画像の特徴とGPS座標の特徴を対応付ける ● 基本コンセプト: ○ 問題を「画像からGPS座標を検索する」タスクとして定義 ■ クエリ: 入力画像 ■ 検索対象: GPS座標データベース ○ 画像とGPS座標を「類似度」を測れる共通の空間に変換し、 対応するペアの類似度を高めるように学習 手法について (Method Overview) 10
Slide 11
Slide 11 text
● 主要コンポーネント: ○ Location Encoder (L(·)): GPS座標 → 高次元の特徴量ベクトル ○ Image Encoder (V(·)): 画像 → (Location Encoderと同じ次元の)特徴量ベクトル (CLIP ViTベース) ● 予測プロセス: ○ クエリ画像の特徴量を計算 ○ GPS座標データベースの特徴量と比較 ○ 最も類似度が高い特徴量に対応するGPS座標を予測結果とする 手法について (Method Overview) 11
Slide 12
Slide 12 text
● Location Encoder (L(·)): 2D GPSを高次元特徴量へ ● 課題: 標準的な座標系の歪み、MLPが高周波情報を捉えにくい問題 (Spectral Bias) ● 工夫点: ○ EEP: 座標系の歪みを軽減 ○ RFF: 高周波情報を捉えやすくする (Spectral Bias緩和) ○ 階層表現: 複数解像度の特徴量を統合し、粗いスケールから細かいスケールまで対応 手法について (Location Encoder) 12
Slide 13
Slide 13 text
● Image Encoder (V(·)): ○ CLIP ViT[15] (凍結) + 追加層のみ学習 ○ 強力な特徴と計算効率を両立 ● 学習戦略: 対比学習 (Contrastive Learning) ○ (画像 Vi ⇔ 対応GPS Li) の類似度を高める ○ (画像 Vi ⇔ 非対応GPS Lj, L̃) の類似度を低める ● データ拡張: 画像 (SimCLR風) + GPS (ノイズ付加で頑健性向上) ● Dynamic Queue: 多様な「非対応GPS」を効率的に利用 ● 損失: InfoNCE (Eq. 4) 手法について (Image Encoder & Training) 13
Slide 14
Slide 14 text
14 実験(Experimet) This image was generated by ChatGPT
Slide 15
Slide 15 text
● データセット: 学習: MP-16 / 評価: Im2GPS3k, GWS15k, YFCC26k ○ 評価指標: Accuracy@K km (予測地点と正解地点の距離が K km 以内の割合: 1, 25, 200, 750, 2500 km) 実験 (Experiment Setup) 15 ● 評価方法: 画像からGPSを検索 (比較対象のGPS座標データベース: 100k/500k点), Ten Crop評価
Slide 16
Slide 16 text
● Optimizerと学習率: ○ 「学習にはAdam optimizerを使用し、学習率は全体で3e-5、Weight Decayは1e-6としました。」 ○ 「学習率スケジューラとしてStep Decayを用い、ガンマ0.87、ステップサイズ1 epochとしました。」 ● バッチサイズと学習時間: ○ 「全データでの学習時のバッチサイズは512です。限定データ設定ではデータ量に応じて調整しました(例: 20%データで256)。」 ○ 「学習は収束するまで行い、通常10エポック程度でした。」 ● Location Encoderの構成: ○ 「Location EncoderのMLPは、入力512次元、隠れ層4層(各1024次元、ReLU)、出力512次元です。」 ○ 「RFFの入力は2次元(座標)、出力は512次元としました。」 ○ 「階層数は3 (M=3) とし、σの範囲は2^0から2^8としました。」 ● Image Encoderの構成: ○ 「Image EncoderにはOpenAIの事前学習済みCLIP ViT-L/14をバックボーンとして使用しました。」 ○ 「バックボーンは凍結し、768次元から512次元に変換する2つの線形層のみを学習対象としました。」 ● ノイズとキュー: ○ 「学習時、バッチ内のGPS座標には標準偏差150のガウスノイズを加えました (ση=150)。」 ○ 「ダイナミックキュー内のGPS座標には、より大きな標準偏差1000のノイズを加えました (ση'=1000)。」 ○ 「ダイナミックキューのサイズは4096としました (|Q|=4096)。」 ● 温度パラメータ: ○ 「Contrastive Lossで用いる温度パラメータτは0.07で初期化しました。」 実験 (実装詳細) 16
Slide 17
Slide 17 text
● 1. 少ないデータでの性能: ○ 学習データ削減 (5%まで) に対し性能低下は緩やか (特に分類手法比較で顕著) ○ データ効率が良い 実験 (Data Efficiency & Ablations) 17 ● 2. 要素技術の有効性検証 (Ablation Study): ○ Location Encoderの各要素 (EEP, RFF, DQ) が精度向上に貢献 ○ 階層学習が単一階層より全てのスケールで優れる
Slide 18
Slide 18 text
● 1. テキストによるジオロケーション: ○ 画像とテキストの対応付け能力 (CLIP由来) により 追加学習なしでテキストから場所を推定可能 ● 2. Location Encoderの汎用性: ○ 画像分類タスクでもSOTA達成 (GPS特徴が地理的な意味情報を保持) 実験 (Qualitative & Additional Utilities) 18
Slide 19
Slide 19 text
● 3. 事前知識の活用: ○ 予め大まかな地域が分かっていれば 探索範囲を絞って精度向上 (実用的) 実験 (Qualitative & Additional Utilities) 19
Slide 20
Slide 20 text
● Table 1 (a) Results on the Im2GPS3k [7] dataset ○ これは、比較的古くから使われているベンチマークデータセット 「Im2GPS3k」での比較結果です。 ● Table 1 (b) Results on the recent GWS15k [5] dataset ○ これは、より新しく挑戦的なデータセット「GWS15k」での比較結果です。 GeoCLIPの優位性が特に顕著に表れています。 実験 (Main Results) 20
Slide 21
Slide 21 text
21 結論(Conclusion) This image was generated by ChatGPT
Slide 22
Slide 22 text
● 提案: 画像からGPS座標を検索する新ジオロケーション手法「GeoCLIP」 ● 特徴: 高性能Location Encoder (EEP, RFF, 階層), 画像とGPS特徴の直接的な対応付け ● 成果: SOTA性能、高いデータ効率、テキストによる位置特定、Location Encoderの汎用性 ● 限界/今後: 事前計算コスト、他タスク応用 ● 影響: 代替測位、自動運転等への貢献と倫理的配慮 まとめ 22