Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Remote Sensing Vision-Language Foundation Model...

Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment

本資料はSatAI.challengeのサーベイメンバーと共に作成したものです。
SatAI.challengeは、リモートセンシング技術にAIを適用した論文の調査や、より俯瞰した技術トレンドの調査や国際学会のメタサーベイを行うグループです。speakerdeckではSatAI.challenge内での勉強会で使用した資料をWeb上で共有しています。
https://x.com/sataichallenge
紹介する論文は、「Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment」(ICLR 2024)です。AIをはじめとする自動分析手法は、日々取得される膨大な衛星画像データを効率的に処理する上で不可欠です。特に、Open-vocabularyモデルは、従来のAIモデルのように固定された概念(例: 建物、植生、車両など)しか認識できないのではなく、多種多様な概念を認識できる点で、衛星画像分析に適しています。
しかし、Open-vocabularyモデルを構築するには、膨大な数の衛星画像と言語(キャプション)のペアデータセットを用いてモデルをトレーニングする必要があります。ところが、衛星画像にキャプションを付与する作業には多大な労力がかかり、実現は非常に困難です。そこで本研究では、ジオタグ付き地上画像を活用して地上画像と衛星画像のペアを構築し、それを介して、Open-vocabularyモデルである CLIP が獲得したテキスト表現にアクセスすることで、テキストアノテーションを必要としない衛星画像向けOpen-vocabularyモデルを構築する手法 GRAFT を提案しました。
GRAFTによって構築されたモデルは、従来のテキストアノテーションを用いてトレーニングされたCLIPモデルと比較して、Zero-shotの画像レベルおよびピクセルレベルのタスクにおいて大幅に優れた性能を示しました。本研究は、大量のテキストアノテーションを用意するよりも、大量の地上画像を活用し、間接的にテキスト表現を獲得するアプローチがより効果的であることを証明しました。

SatAI.challenge

January 11, 2025
Tweet

More Decks by SatAI.challenge

Other Decks in Research

Transcript

  1. Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote

    Alignment
 修 浩毅
 1 第5回 SatAI.challenge勉強会

  2. 目次 
 2 • 自己紹介スライド
 • 研究の1ページサマリ紹介 
 • 研究の背景(Introduction)

    
 • 手法について(Method) 
 • 実験(Experiment)
 • 結論(Conclusion)

  3. Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote

    Alignment 
 
 6 • ジオタグで地上画像と衛星画像ペアデータセットを 作成
 • GRAFT: 衛星画像エンコーダと CLIP の地上画像 エンコーダを接続することで、衛星画像と CLIP の テキスト表現を間接的に接続し、テキストアノテー ションを必要とせずにOpen-vocabulary VLM を構 築する手法を提案
 • Zero-shot の Open-vocabulary 画像分類・検索、 セグメンテーション、VQA タスクにおいて、テキスト アノテーションを必要とするCLIP系ベースラインを 大幅に上回る性能を達成。 
 
 テキストアノテーションを必要としないリモセン画像ー言語基盤モデル(VLM)の構築方法を提案 
 Mall et al. (2024), “Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment”, ICLR 2024. より引用
  4. 背景:Open-vocabulary な分析手法の必要性 
 8 • 地上は日々衛星によって観測され、膨大なデータが撮られている。このデータを有効活用するためには、自動分 析手法が不可欠である。 
 • 膨大なデータには、建物、植生、車両など、多様な概念が含まれている。しかし、従来の自動分析手法は固定さ

    れた概念しか認識できず、新しい概念の識別には対応できない。 
 • そこで、新しい概念も認識可能な Open-vocabulary な手法の開発が求められている。 
 training 
 Model
 building tree car ✔ 
 ✔ 
 ✔ 
 test 
 building tree Model
 park ✔ 
 ✔ 
 ?
 test 
 building tree Model
 park ✔ 
 ✔ 
 ✔ 
 lake … ✔ 
 ✔ 
 Model
 open-vocabulary training 

  5. 背景:Open-vocabulary な分析手法を構築する難点と本研究の狙い 
 9 • CV・NLPでは、数百万〜数十億規模のインターネットスケールの画像キャプションペアを用いてモデルを訓練す ることで、Open-vocabulary を実現してきた 
 •

    一方、リモートセンシングでは衛星画像にキャプションが付与されていないため、大量の画像キャプションペアを 用意することが困難である 
 
 Radford et al. (2021), “Learning Transferable Visual Models From Natural Language Supervision”, ICML 2021. より引用 インターネット
 Open-vocabularyな訓練手法 (CLIP) 
 本研究の狙い 
 テキストアノテーション(キャプション)を必要と しないOpen-vocabularyモデルを構築する方 法を提案する 
 衛星画像のキャプ ションを用意するの は難しい。。。

  6. 予備知識:Contrastive Language-Image Pre-training (CLIP) 
 11 • 4億のインターネット上の画像とキャプションをペアにしたデータセットを作成 
 •

    画像とペアになってるキャプションの類似度を最大化するようにモデルを訓練する 
 • インターネット画像キャプションペアを使用しているため、インターネットスケールのコンセプト(open-vocabulary) を獲得
 
 Radford et al. (2021), “Learning Transferable Visual Models From Natural Language Supervision”, ICML 2021. より引用 インターネット

  7. Key insight: 地上画像をテキストと衛星画像の仲介役として活用する 
 12 • Open-vocabularyモデルを構築するには、衛星画像版のCLIPを作成する必要がある。 
 • CLIPは地上(=インターネット)画像とキャプションを結び付けることができる。

    
 • そこで、地上画像のジオタグを活用し、 地上画像と衛星画像を紐付ける ことで、衛星画像とキャプショ ンを間接的に紐付ける手法 GRAFT を提案する。
 Mall et al. (2024), “Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment”, ICLR 2024. より引用
  8. GRAFT: Ground Remote Alignment for Training VLMS 
 13 •

    衛星画像と地上画像を繋げるためには、衛星画像エンコーダ(Satellite Image Encoder) と 地上画像エン コーダ(CLIP Image Encoder) を接続する必要がある。 
 • 具体的には、Satellite Image Encoder が出力する表現と CLIP Image Encoder が出力する表現の 類似度を 最大化することで、両者を結び付ける。 
 • さらに、画像レベルのタスク(例: 画像分類)とピクセルレベルのタスク(例: セグメンテーション)に対応するた め、それぞれに適した2種類のモデルを構築する。 
 Mall et al. (2024), “Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment”, ICLR 2024. より引用
  9. Image-level VLMs 
 14 • Contrastive Loss を用いて、衛星画像の表現と対応する 全ての地上画像表現の類似度を最大化し、対応し ていない地上画像表現との類似度を最小化する。

    
 • 上記の最大化と最小化を同時に進めることで、この損失関数を最小化できる 
 • 画像レベルの表現は画像分類などの大局理解が必要なタスクに有効 
 Mall et al. (2024), “Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment”, ICLR 2024. より引用 image-level VLMsを訓練する際の損失関数 
 衛星画像の表現
 対応する全て地上 画像の表現
 衛星画像の表現
 対応する・しない全 ての地上画像の表 現

  10. Pixel-level VLMs 
 15 • Contrastive Loss を用いて、 衛星画像内の地上画像が含まれる場所のパッチ表現 と対応する全ての地上

    画像表現の similarity を最大化し、対応していない地上画像表現との similarity を最小化する。 
 • 上記の最大化と最小化を同時に進めることで、この損失関数を最小化できる 
 • パッチ表現はセグメンテーションのような局所的な理解が必要なタスクに有効 
 Mall et al. (2024), “Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment”, ICLR 2024. より引用 pixel-level VLMsを訓練する際の損失関数 
 衛星画像内の地上 画像が含まれる場 所のパッチ表現
 対応する全て地上 画像の表現
 衛星画像内の地上 画像が含まれる場 所のパッチ表現
 
 対応する・しない全 ての地上画像の表 現

  11. 地上ー衛星画像ペアデータセット構築 
 16 • 地上画像:ジオタグ付きの外画像をFlickrから取得 
 • 衛星画像:ジオタグが衛星画像の中心に来るようにNAIP(1m)とSentinel-2(10m)から衛星画像を取得 (224x224)。衛星画像中に含まれる全ての地上画像をペアとみなす。 


    • NAIPは10.2M ペア、sentinel-2は8.7Mペア取得 
 Mall et al. (2024), “Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment”, ICLR 2024. より引用 NAIP(上)とsentinel-2(下)画像の分布 

  12. 実験(Experiment): zero-shot image classification and text-based image retrieval 
 18

    • 画像レベルのタスクにおいてCLIPベースラインやvariantsに比べて大幅な性能向上 
 • テキストアノテーションありの衛星画像でトレーニングしたRemoteCLIPよりも高性能→衛星画像にキャプショ ンをつけるよりも地上ー衛星画像ペアでトレーニングした方がいい 
 Mall et al. (2024), “Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment”, ICLR 2024. より引用 zero-shot
 one-shot
 zero-shot
 Sentinel-2画像で構築されたデータセット 

  13. 実験(Experiment): zero-shot image classification and text-based image retrieval 
 19

    • 画像レベルのタスクにおいてCLIPベースラインやvariantsに比べて大幅な性能向上 
 • テキストアノテーションありの衛星画像でトレーニングしたRemoteCLIPよりも高性能→衛星画像にキャプショ ンをつけるよりも地上ー衛星画像ペアでトレーニングした方がいい 
 Mall et al. (2024), “Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment”, ICLR 2024. より引用 NAIP画像で構築されたデータセット 

  14. 実験(Experiment): zero-shot segmentation and visual question answering 
 20 •

    ピクセルレベルのタスクにおいてもCLIPやGLIPなどのベースラインに比べ高性能 
 Mall et al. (2024), “Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment”, ICLR 2024. より引用 データセット:Satlas 
 データセット:RSVQA 

  15. 実験(Experiment): applications 
 21 • テキストを入力することで、衛星画像から対応する領域を抽出可能 
 ◦ 例:”Farmlands”→農用地のマップ 


    Mall et al. (2024), “Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment”, ICLR 2024. より引用
  16. 限界点(Limitation)と結論(Conclusion) 
 23 限界点
 • 動的な物体を検知するのは難しい 
 
 
 


    
 
 
 
 結論
 • テキストアノテーションを必要としない VLM 構築手法 GRAFT を提案 
 • 地上画像と衛星画像のペアデータセットを作成し、GRAFT を用いて VLM を構築 
 • 画像レベルおよびピクセルレベルのタスクにおいて、CLIP 系ベースラインと比較して大幅な精度向上を達成 したことを確認
 
 
 Mall et al. (2024), “Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment”, ICLR 2024. より引用