Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment

Slide 1

Slide 1 text

Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment  修　浩毅  1 第5回 SatAI.challenge勉強会 

Slide 2

Slide 2 text

目次   2 ● 自己紹介スライド  ● 研究の1ページサマリ紹介   ● 研究の背景（Introduction）   ● 手法について（Method）   ● 実験（Experiment）  ● 結論（Conclusion） 

Slide 3

Slide 3 text

3 著者紹介 This image was generated by ChatGPT

Slide 4

Slide 4 text

修　浩毅産総研データプラットフォーム研究チーム ● 3次元点群解析 ● コンピュータ・グラフィックス ● 建物被害検知点群セグメンテーション自己紹介 4 GitHub Linkedin 点群からの法線推定航空ライダーからの建物被害検知

Slide 5

Slide 5 text

5 研究の1ページサマリ紹介 This image was generated by ChatGPT

Slide 6

Slide 6 text

Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment     6 ● ジオタグで地上画像と衛星画像ペアデータセットを作成  ● GRAFT: 衛星画像エンコーダと CLIP の地上画像エンコーダを接続することで、衛星画像と CLIP のテキスト表現を間接的に接続し、テキストアノテーションを必要とせずにOpen-vocabulary VLM を構築する手法を提案  ● Zero-shot の Open-vocabulary 画像分類・検索、セグメンテーション、VQA タスクにおいて、テキストアノテーションを必要とするCLIP系ベースラインを大幅に上回る性能を達成。     テキストアノテーションを必要としないリモセン画像ー言語基盤モデル（VLM）の構築方法を提案   Mall et al. (2024), “Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment”, ICLR 2024. より引用

Slide 7

Slide 7 text

7 研究の背景 This image was generated by ChatGPT

Slide 8

Slide 8 text

背景：Open-vocabulary な分析手法の必要性   8 ● 地上は日々衛星によって観測され、膨大なデータが撮られている。このデータを有効活用するためには、自動分析手法が不可欠である。   ● 膨大なデータには、建物、植生、車両など、多様な概念が含まれている。しかし、従来の自動分析手法は固定された概念しか認識できず、新しい概念の識別には対応できない。   ● そこで、新しい概念も認識可能な Open-vocabulary な手法の開発が求められている。   training   Model  building tree car ✔   ✔   ✔   test   building tree Model  park ✔   ✔   ？  test   building tree Model  park ✔   ✔   ✔   lake … ✔   ✔   Model  open-vocabulary training  

Slide 9

Slide 9 text

背景：Open-vocabulary な分析手法を構築する難点と本研究の狙い   9 ● CV・NLPでは、数百万〜数十億規模のインターネットスケールの画像キャプションペアを用いてモデルを訓練することで、Open-vocabulary を実現してきた   ● 一方、リモートセンシングでは衛星画像にキャプションが付与されていないため、大量の画像キャプションペアを用意することが困難である     Radford et al. (2021), “Learning Transferable Visual Models From Natural Language Supervision”, ICML 2021. より引用インターネット  Open-vocabularyな訓練手法 (CLIP)   本研究の狙い   テキストアノテーション（キャプション）を必要としないOpen-vocabularyモデルを構築する方法を提案する   衛星画像のキャプションを用意するのは難しい。。。 

Slide 10

Slide 10 text

10 手法について This image was generated by ChatGPT

Slide 11

Slide 11 text

予備知識：Contrastive Language-Image Pre-training (CLIP)   11 ● 4億のインターネット上の画像とキャプションをペアにしたデータセットを作成   ● 画像とペアになってるキャプションの類似度を最大化するようにモデルを訓練する   ● インターネット画像キャプションペアを使用しているため、インターネットスケールのコンセプト（open-vocabulary）を獲得    Radford et al. (2021), “Learning Transferable Visual Models From Natural Language Supervision”, ICML 2021. より引用インターネット 

Slide 12

Slide 12 text

Key insight: 地上画像をテキストと衛星画像の仲介役として活用する   12 ● Open-vocabularyモデルを構築するには、衛星画像版のCLIPを作成する必要がある。   ● CLIPは地上（＝インターネット）画像とキャプションを結び付けることができる。   ● そこで、地上画像のジオタグを活用し、地上画像と衛星画像を紐付けることで、衛星画像とキャプションを間接的に紐付ける手法 GRAFT を提案する。  Mall et al. (2024), “Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment”, ICLR 2024. より引用

Slide 13

Slide 13 text

GRAFT: Ground Remote Alignment for Training VLMS   13 ● 衛星画像と地上画像を繋げるためには、衛星画像エンコーダ（Satellite Image Encoder）と地上画像エンコーダ（CLIP Image Encoder）を接続する必要がある。   ● 具体的には、Satellite Image Encoder が出力する表現と CLIP Image Encoder が出力する表現の類似度を最大化することで、両者を結び付ける。   ● さらに、画像レベルのタスク（例: 画像分類）とピクセルレベルのタスク（例: セグメンテーション）に対応するため、それぞれに適した2種類のモデルを構築する。   Mall et al. (2024), “Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment”, ICLR 2024. より引用

Slide 14

Slide 14 text

Image-level VLMs   14 ● Contrastive Loss を用いて、衛星画像の表現と対応する全ての地上画像表現の類似度を最大化し、対応していない地上画像表現との類似度を最小化する。   ● 上記の最大化と最小化を同時に進めることで、この損失関数を最小化できる   ● 画像レベルの表現は画像分類などの大局理解が必要なタスクに有効   Mall et al. (2024), “Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment”, ICLR 2024. より引用 image-level VLMsを訓練する際の損失関数   衛星画像の表現  対応する全て地上画像の表現  衛星画像の表現  対応する・しない全ての地上画像の表現 

Slide 15

Slide 15 text

Pixel-level VLMs   15 ● Contrastive Loss を用いて、衛星画像内の地上画像が含まれる場所のパッチ表現と対応する全ての地上画像表現の similarity を最大化し、対応していない地上画像表現との similarity を最小化する。   ● 上記の最大化と最小化を同時に進めることで、この損失関数を最小化できる   ● パッチ表現はセグメンテーションのような局所的な理解が必要なタスクに有効   Mall et al. (2024), “Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment”, ICLR 2024. より引用 pixel-level VLMsを訓練する際の損失関数   衛星画像内の地上画像が含まれる場所のパッチ表現  対応する全て地上画像の表現  衛星画像内の地上画像が含まれる場所のパッチ表現    対応する・しない全ての地上画像の表現 

Slide 16

Slide 16 text

地上ー衛星画像ペアデータセット構築   16 ● 地上画像：ジオタグ付きの外画像をFlickrから取得   ● 衛星画像：ジオタグが衛星画像の中心に来るようにNAIP（1m）とSentinel-2（10m）から衛星画像を取得（224x224）。衛星画像中に含まれる全ての地上画像をペアとみなす。   ● NAIPは10.2M ペア、sentinel-2は８.7Mペア取得   Mall et al. (2024), “Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment”, ICLR 2024. より引用 NAIP（上）とsentinel-2（下）画像の分布  

Slide 17

Slide 17 text

17 実験 This image was generated by ChatGPT

Slide 18

Slide 18 text

実験（Experiment): zero-shot image classification and text-based image retrieval   18 ● 画像レベルのタスクにおいてCLIPベースラインやvariantsに比べて大幅な性能向上   ● テキストアノテーションありの衛星画像でトレーニングしたRemoteCLIPよりも高性能→衛星画像にキャプションをつけるよりも地上ー衛星画像ペアでトレーニングした方がいい   Mall et al. (2024), “Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment”, ICLR 2024. より引用 zero-shot  one-shot  zero-shot  Sentinel-2画像で構築されたデータセット  

Slide 19

Slide 19 text

実験（Experiment): zero-shot image classification and text-based image retrieval   19 ● 画像レベルのタスクにおいてCLIPベースラインやvariantsに比べて大幅な性能向上   ● テキストアノテーションありの衛星画像でトレーニングしたRemoteCLIPよりも高性能→衛星画像にキャプションをつけるよりも地上ー衛星画像ペアでトレーニングした方がいい   Mall et al. (2024), “Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment”, ICLR 2024. より引用 NAIP画像で構築されたデータセット  

Slide 20

Slide 20 text

実験（Experiment): zero-shot segmentation and visual question answering   20 ● ピクセルレベルのタスクにおいてもCLIPやGLIPなどのベースラインに比べ高性能   Mall et al. (2024), “Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment”, ICLR 2024. より引用データセット：Satlas   データセット：RSVQA  

Slide 21

Slide 21 text

実験（Experiment): applications   21 ● テキストを入力することで、衛星画像から対応する領域を抽出可能   ○ 例：”Farmlands”→農用地のマップ   Mall et al. (2024), “Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment”, ICLR 2024. より引用

Slide 22

Slide 22 text

22 結論 This image was generated by ChatGPT

Slide 23

Slide 23 text

限界点（Limitation）と結論（Conclusion）   23 限界点  ● 動的な物体を検知するのは難しい                 結論  ● テキストアノテーションを必要としない VLM 構築手法 GRAFT を提案   ● 地上画像と衛星画像のペアデータセットを作成し、GRAFT を用いて VLM を構築   ● 画像レベルおよびピクセルレベルのタスクにおいて、CLIP 系ベースラインと比較して大幅な精度向上を達成したことを確認      Mall et al. (2024), “Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment”, ICLR 2024. より引用