CSP: Self-Supervised Contrastive Spatial Pre-Training for Geospatial-Visual Representations

Slide 1

Slide 1 text

CSP: Self-Supervised Contrastive Spatial Pre-Training for Geospatial-Visual Representations  山口大学  中田和真  1 SatAI.challenge 勉強会（4/12（土）13:50-14:15）   みんなで作るメタサーベイ：衛生データを活用したマルチモーダルAI   この資料に出てくる図は引用を明記しない場合は G. Mai et al. (2023), “CSP: Self-Supervised Contrastive Spatial Pre-Training for Geospatial-Visual Representations”, ICML 2023 より引用

Slide 2

Slide 2 text

目次   2 ● 自己紹介スライド  ● 研究の1ページサマリ紹介   ● 研究の背景（Introduction）   ● 手法について（Method）   ● 実験（Experimet）  ● 結論（Conclusion） 

Slide 3

Slide 3 text

3 著者紹介 This image was generated by ChatGPT

Slide 4

Slide 4 text

自己紹介   4 中田　和真所属：山口大学情報認識工学研究室 D3 研究テーマ：機械学習による超音波画像を用いた肝硬変の検出その他活動： ● 2024年度山口大学 SPRINGスカラシップ研究学生 ● 第23回 IEEE広島支部学生シンポジウム運営 ● cvpaper.challenge コラボ AI論文解説

Slide 5

Slide 5 text

5 1ページサマリ This image was generated by ChatGPT

Slide 6

Slide 6 text

CSP: Self-Supervised Contrastive Spatial Pre-Training   for Geospatial-Visual Representations   6 ● 画像↔位置情報のペアを事前学習するため、自己教師で学習可能   ● 推論時に画像だけでなく、画像の位置情報（緯度、経度）も追加情報として入力可能になる   ○ 従来：画像 → クラス予測。提案手法：画像+位置情報 → クラス予測   ○ 画像特徴が似たクラスの分類で精度向上が期待できる   ● 生物種の分類（iNet2018）とリモセン画像分類（fMoW）にCSPを適用   ○ 最大 10-34%の精度向上を実現   地球上の位置情報と、対応する画像の特徴を学習する自己教師あり事前学習を提案   画像特徴が似ているが、生息する位置が異なるクラスの例  

Slide 7

Slide 7 text

7 研究の背景 This image was generated by ChatGPT

Slide 8

Slide 8 text

1. 位置情報付き画像を用いた教師なし学習 / 自己教師あり学習（Tile2Vec, Geo-SSL, SeCo, GeoKR）   ○ 位置情報が事前学習時の positive / negative ペア作成のために、補助的に使用する   → ファインチューニングやテストデータ推論時に位置情報も   モデルへの入力とすることで、分類性能向上が見込める     2. 位置表現学習  ○ 画像と位置情報（緯度・経度）それぞれからクラスを学習・予測する   → 完全な教師あり学習が主なケースであり、   大量のラベルなしデータ活用による分類性能向上が見込める   背景：従来手法   8 1. のイメージ  2. のイメージ 

Slide 9

Slide 9 text

9 手法について This image was generated by ChatGPT

Slide 10

Slide 10 text

● 本手法のねらい  ○ 2つのエンコーダーを使用し、画像・位置情報を特徴空間に埋め込むことでマルチモーダルを実現   ○ 大量の教師なし画像を用いた（ペア: 画像↔位置情報）事前学習で推論時の分類性能を向上   ● ①エンコーダーの事前学習 → ②エンコーダーの教師ありFT → ③テストデータ推論の流れで構成   手法：全体像   10 ロケーションエンコーダー e() の事前学習   画像エンコーダー f() の事前学習  ロケーションエンコーダー e() のFT   画像エンコーダー f() のFT   テストデータに対する推論  F: 学習済みニューラルネット   W: プロジェクションレイヤー  

Slide 11

Slide 11 text

● エンコーダー事前学習の方針は、特徴空間上で似ているペアを近づけて、似ていないペアを遠ざける   ● 事前学習で使用するロスは2つを検討   ○ ① noise contrastive estimation (NCE)         ■ Posペア（真の、画像↔位置情報ペア）に対するコサイン類似度を最大化   ■ Negペア（偽の、画像↔位置情報ペア）に対するコサイン類似度を最小化   ■ 単純にPosペアを近づけ、Negペアを遠ざける     ○ ② multi-class classification (MC)           ■ 分子: Posペアのコサイン類似度   ■ 分母: すべてのペア（Pos, Neg）の類似度を合計   ■ 式全体でPosペアの類似度を分子にもつSoftmax関数の形となる   ● 全ペアの分類問題とし、正解ペア（Posペア）に対しての予測を最大化する   手法：①エンコーダーの事前学習 - Contrastive Spatial Pre-Training (CSP)   11

Slide 12

Slide 12 text

● 工夫点：  画像エンコーダー f() はロケーションエンコーダー e() の100倍のパラメーター数のため、   両方を同時にスクラッチから学習すると、e() に対して過学習、 f() に対して過少学習となる   → 学習済み公開モデルを F() に使用 or ImageNetなどで事前に f() を学習   → 学習済み F() の重みを固定   → Contrastive Spatial Pre-Training では、e() とプロジェクションレイヤー W() の学習を行う       手法：①エンコーダーの事前学習 - Contrastive Spatial Pre-Training (CSP)   12

Slide 13

Slide 13 text

● 各エンコーダーごとに少数ラベル付きデータを用いてFTを行う     ● 画像エンコーダー：  ○ プロジェクションレイヤー W() を外し、分類ヘッド g() を取り付けて多クラスの予測を行う   ○ W() は位置埋め込みと次元数を揃え、画像↔位置情報のペアを予測するタスクに特化していた   ○ g() では推論時の多クラス分類に応じた出力数を用意   ○ Cross entropy lossで多クラス分類を学習   手法： ②エンコーダーのFT   13

Slide 14

Slide 14 text

手法： ②エンコーダーのFT   14 ● 位置情報エンコーダー：  ○ [Mac Aodha et al. (2019)] に従い、presence-absence loss関数を使用         ○ Q個のクラスを扱う時、各クラスに対応するd次元の列ベクトルがあるとし、モデルが保持する   学習パラメーター(クラス埋め込み)T を乱数で用意  ○ モデルの出力と正しいクラスの列ベクトルの類似度を高める・異なるクラスの列ベクトルの     類似度を低くする形で T, のパラメーターを更新していく       極端な例 (d=4  Q=3) クラス埋め込み T   （初期値）   の出力  （クラス0〜2）   クラス埋め込み T   （FT後）   Posペアの類似度を   高くする  Negペアの類似度を   低くする  [Posペア]  お互いに  近づける  [Negペア]  お互いに  遠ざける 

Slide 15

Slide 15 text

● 画像と位置情報の入力ペアに対して、を予測 (I：画像、 x：位置情報)     ○ I と x が独立の時、ベイズの定理より     ○ はFT済みの分類ヘッドで求められる     ○ は位置情報エンコーダーとクラス埋め込みTの各クラスとの類似度     で求められる     例：d=4, Q=3の時の  手法： ③テストデータ推論   15 位置情報  エンコーダー出力クラス埋め込み T  （FT後）  , クラス0〜2   に対する推論値  

Slide 16

Slide 16 text

16 実験 This image was generated by ChatGPT

Slide 17

Slide 17 text

● 2つのタスクを扱う    ○ ①生物種の分類   ■ データセット：iNat2018   ■ クラス数：8142  ● 両生類、鳥類、昆虫、植物等   ■ 画像↔位置情報ペア：436,063   ■ ImageNet で学習済みの InceptionV3 を画像特徴抽出 F*() に使用     ○ ②衛星画像の分類   ■ データセット：fMoW  ■ クラス数：62  ● 空港、遊園地、養殖所、建設現場、畑、ダム等   ■ 画像↔位置情報ペア：363,570   ■ 本データセットで教師なし学習済みの ResNet50 を画像特徴抽出 F*() に使用     ● few-shot では教師ありデータを複数の割合（5, 10, 20, 100%）で用意し、分類精度への影響を検証   ○ 100%は完全な教師あり学習   実験   17 https://github.com/visipedia/inat_comp/blob/ master/2018/README.md https://arxiv.org/pdf/1711.07846

Slide 18

Slide 18 text

実験：比較する手法   18 従来手法1：  推論に位置情報を用いず、画像のみ入力   従来手法2：  教師あり学習（ラベルありデータのみ学習）   比較手法 (MSE) ：  Posペア・Negペアの対象学習を行わず、単純な位置ベクトル→画像ベクトルの回帰を行う   となるように MSE を最小化   Negペアを考慮しないため精度が低くなる   CSP-NCE-BLD ： CSP-MC-BLD ：

Slide 19

Slide 19 text

1) Img. Only (ImageNet) が最も低い精度であり、推論に位置情報を用いることが有効であると分かる   2) Sup. Only よりも CSP-NCE/MC-BLD が良い精度であり、ラベルなしデータを用いた   事前学習の有効性が分かる   3) MSE よりも CSP-NCE/MC-BLD が良い精度であり、単純な位置情報↔画像の回帰による   事前学習よりも Pos・Neg ペアによる対象学習の有効性が分かる   実験：①生物種の分類   19

Slide 20

Slide 20 text

● グリッド上にサンプリングした位置情報をエンコーダーに入力すると、出力がクラスターを   形成しており、位置情報表現をうまく学習できていると分かる   実験：①生物種の分類   20 CSP で自己教師学習  (a) 後に few shot 学習   CSP で自己教師学習  (c) 後に few shot 学習  

Slide 21

Slide 21 text

● 従来手法（Img. Only, Sup. Only）、比較手法（MSE）については実験①の 1〜3)と同様の結果   ● ①生物種の分類と比較して提案手法 vs 従来手法の差が小さい   ○ 生物種の分布がある程度位置情報に依存して広く分布しているのに対して、衛星画像における   特定の建物クラスなどが複雑に分布しており位置情報の有効性が低くなってしまうのが原因   ○ 5%のラベル付きデータによるFTでも精度が高いため、画像エンコーダーの事前学習が大きく貢献していると分かる  実験：②衛星画像の分類   21

Slide 22

Slide 22 text

● グリッド上にサンプリングした位置情報をエンコーダーに入力すると、出力がクラスターを   形成しており、位置情報表現をうまく学習できていると分かる   実験：②衛星画像の分類   22 CSP で自己教師学習  (a) 後に few shot 学習   CSP で自己教師学習  (c) 後に few shot 学習  

Slide 23

Slide 23 text

23 結論 This image was generated by ChatGPT

Slide 24

Slide 24 text

● 位置情報と画像特徴を同時に扱う教師なし事前学習法を提案   ○ マルチモーダルでの学習と、大量のラベルなしデータによる学習で精度向上を実現   ○ 位置情報エンコーダーの出力を可視化し、位置情報によるクラスごとの特徴を捉えられていることを確認   ● 今後は時間、テキストデータといったモダリティも活用することでより高い分類性能の実現が期待できる   結論   24

Slide 25

Slide 25 text

(Appendix) 手法：①エンコーダーの事前学習 - Contrastive Spatial Pre-Training (CSP)   25 ● 自己教師あり学習におけるペア作成の方法   ○ In-batch negative sampling (B)  ■ N個の画像↔位置情報ペアで構成されるミニバッチを扱う   ■ N✕N個のコサイン類似度を計算     ○ Random negative location sampling (L)  ■ 1つの画像↔位置情報ペアに対して、Negペアを全ラベルなしデータからランダムに選択   ■ 事前学習中のエポックごとにNegペアがランダムに入れ替わる     ○ SimCSE sampling (D)  ■ N個の位置情報で構成されるミニバッチを扱う   ■ ロケーションエンコーダーに異なるDropoutを適用し、N✕N個のコサイン類似度を計算   In-batch negative sampling (B)  SimCSE sampling (D)  Random negative location sampling (L) 

Slide 26

Slide 26 text

● The self-supervised binary (NCE) loss       ● The self-supervised multi-class (MC) loss   (Appendix) 手法：①エンコーダーの事前学習 - Contrastive Spatial Pre-Training (CSP)   26 In-batch negative sampling (B)  SimCSE sampling (D)  Random negative location sampling (L)  ※ α1, α2, β1, β2はバランス調整用の係数  

Slide 27

Slide 27 text

● Pos・Negペアの作り方3種類の有効性を確認               ● 画像エンコーダーにViTを使用した場合でも、   CSPは精度向上を実現   ● 位置情報エンコーダーの次元数では、 few-shot での教師データが少ないと過学習になりやすい傾向 (Appendix) 実験：①生物種の分類   27