Slide 1

Slide 1 text

Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment
 修 浩毅
 1 第5回 SatAI.challenge勉強会


Slide 2

Slide 2 text

目次 
 2 ● 自己紹介スライド
 ● 研究の1ページサマリ紹介 
 ● 研究の背景(Introduction) 
 ● 手法について(Method) 
 ● 実験(Experiment)
 ● 結論(Conclusion)


Slide 3

Slide 3 text

3 著者紹介 This image was generated by ChatGPT

Slide 4

Slide 4 text

修 浩毅 産総研 データプラットフォーム研究チーム ● 3次元点群解析 ● コンピュータ・グラフィックス ● 建物被害検知 点群セグメンテーション 自己紹介 4 GitHub Linkedin 点群からの法線推定 航空ライダーからの建物被害検知

Slide 5

Slide 5 text

5 研究の1ページサマリ紹介 This image was generated by ChatGPT

Slide 6

Slide 6 text

Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment 
 
 6 ● ジオタグで地上画像と衛星画像ペアデータセットを 作成
 ● GRAFT: 衛星画像エンコーダと CLIP の地上画像 エンコーダを接続することで、衛星画像と CLIP の テキスト表現を間接的に接続し、テキストアノテー ションを必要とせずにOpen-vocabulary VLM を構 築する手法を提案
 ● Zero-shot の Open-vocabulary 画像分類・検索、 セグメンテーション、VQA タスクにおいて、テキスト アノテーションを必要とするCLIP系ベースラインを 大幅に上回る性能を達成。 
 
 テキストアノテーションを必要としないリモセン画像ー言語基盤モデル(VLM)の構築方法を提案 
 Mall et al. (2024), “Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment”, ICLR 2024. より引用

Slide 7

Slide 7 text

7 研究の背景 This image was generated by ChatGPT

Slide 8

Slide 8 text

背景:Open-vocabulary な分析手法の必要性 
 8 ● 地上は日々衛星によって観測され、膨大なデータが撮られている。このデータを有効活用するためには、自動分 析手法が不可欠である。 
 ● 膨大なデータには、建物、植生、車両など、多様な概念が含まれている。しかし、従来の自動分析手法は固定さ れた概念しか認識できず、新しい概念の識別には対応できない。 
 ● そこで、新しい概念も認識可能な Open-vocabulary な手法の開発が求められている。 
 training 
 Model
 building tree car ✔ 
 ✔ 
 ✔ 
 test 
 building tree Model
 park ✔ 
 ✔ 
 ?
 test 
 building tree Model
 park ✔ 
 ✔ 
 ✔ 
 lake … ✔ 
 ✔ 
 Model
 open-vocabulary training 


Slide 9

Slide 9 text

背景:Open-vocabulary な分析手法を構築する難点と本研究の狙い 
 9 ● CV・NLPでは、数百万〜数十億規模のインターネットスケールの画像キャプションペアを用いてモデルを訓練す ることで、Open-vocabulary を実現してきた 
 ● 一方、リモートセンシングでは衛星画像にキャプションが付与されていないため、大量の画像キャプションペアを 用意することが困難である 
 
 Radford et al. (2021), “Learning Transferable Visual Models From Natural Language Supervision”, ICML 2021. より引用 インターネット
 Open-vocabularyな訓練手法 (CLIP) 
 本研究の狙い 
 テキストアノテーション(キャプション)を必要と しないOpen-vocabularyモデルを構築する方 法を提案する 
 衛星画像のキャプ ションを用意するの は難しい。。。


Slide 10

Slide 10 text

10 手法について This image was generated by ChatGPT

Slide 11

Slide 11 text

予備知識:Contrastive Language-Image Pre-training (CLIP) 
 11 ● 4億のインターネット上の画像とキャプションをペアにしたデータセットを作成 
 ● 画像とペアになってるキャプションの類似度を最大化するようにモデルを訓練する 
 ● インターネット画像キャプションペアを使用しているため、インターネットスケールのコンセプト(open-vocabulary) を獲得
 
 Radford et al. (2021), “Learning Transferable Visual Models From Natural Language Supervision”, ICML 2021. より引用 インターネット


Slide 12

Slide 12 text

Key insight: 地上画像をテキストと衛星画像の仲介役として活用する 
 12 ● Open-vocabularyモデルを構築するには、衛星画像版のCLIPを作成する必要がある。 
 ● CLIPは地上(=インターネット)画像とキャプションを結び付けることができる。 
 ● そこで、地上画像のジオタグを活用し、 地上画像と衛星画像を紐付ける ことで、衛星画像とキャプショ ンを間接的に紐付ける手法 GRAFT を提案する。
 Mall et al. (2024), “Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment”, ICLR 2024. より引用

Slide 13

Slide 13 text

GRAFT: Ground Remote Alignment for Training VLMS 
 13 ● 衛星画像と地上画像を繋げるためには、衛星画像エンコーダ(Satellite Image Encoder) と 地上画像エン コーダ(CLIP Image Encoder) を接続する必要がある。 
 ● 具体的には、Satellite Image Encoder が出力する表現と CLIP Image Encoder が出力する表現の 類似度を 最大化することで、両者を結び付ける。 
 ● さらに、画像レベルのタスク(例: 画像分類)とピクセルレベルのタスク(例: セグメンテーション)に対応するた め、それぞれに適した2種類のモデルを構築する。 
 Mall et al. (2024), “Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment”, ICLR 2024. より引用

Slide 14

Slide 14 text

Image-level VLMs 
 14 ● Contrastive Loss を用いて、衛星画像の表現と対応する 全ての地上画像表現の類似度を最大化し、対応し ていない地上画像表現との類似度を最小化する。 
 ● 上記の最大化と最小化を同時に進めることで、この損失関数を最小化できる 
 ● 画像レベルの表現は画像分類などの大局理解が必要なタスクに有効 
 Mall et al. (2024), “Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment”, ICLR 2024. より引用 image-level VLMsを訓練する際の損失関数 
 衛星画像の表現
 対応する全て地上 画像の表現
 衛星画像の表現
 対応する・しない全 ての地上画像の表 現


Slide 15

Slide 15 text

Pixel-level VLMs 
 15 ● Contrastive Loss を用いて、 衛星画像内の地上画像が含まれる場所のパッチ表現 と対応する全ての地上 画像表現の similarity を最大化し、対応していない地上画像表現との similarity を最小化する。 
 ● 上記の最大化と最小化を同時に進めることで、この損失関数を最小化できる 
 ● パッチ表現はセグメンテーションのような局所的な理解が必要なタスクに有効 
 Mall et al. (2024), “Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment”, ICLR 2024. より引用 pixel-level VLMsを訓練する際の損失関数 
 衛星画像内の地上 画像が含まれる場 所のパッチ表現
 対応する全て地上 画像の表現
 衛星画像内の地上 画像が含まれる場 所のパッチ表現
 
 対応する・しない全 ての地上画像の表 現


Slide 16

Slide 16 text

地上ー衛星画像ペアデータセット構築 
 16 ● 地上画像:ジオタグ付きの外画像をFlickrから取得 
 ● 衛星画像:ジオタグが衛星画像の中心に来るようにNAIP(1m)とSentinel-2(10m)から衛星画像を取得 (224x224)。衛星画像中に含まれる全ての地上画像をペアとみなす。 
 ● NAIPは10.2M ペア、sentinel-2は8.7Mペア取得 
 Mall et al. (2024), “Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment”, ICLR 2024. より引用 NAIP(上)とsentinel-2(下)画像の分布 


Slide 17

Slide 17 text

17 実験 This image was generated by ChatGPT

Slide 18

Slide 18 text

実験(Experiment): zero-shot image classification and text-based image retrieval 
 18 ● 画像レベルのタスクにおいてCLIPベースラインやvariantsに比べて大幅な性能向上 
 ● テキストアノテーションありの衛星画像でトレーニングしたRemoteCLIPよりも高性能→衛星画像にキャプショ ンをつけるよりも地上ー衛星画像ペアでトレーニングした方がいい 
 Mall et al. (2024), “Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment”, ICLR 2024. より引用 zero-shot
 one-shot
 zero-shot
 Sentinel-2画像で構築されたデータセット 


Slide 19

Slide 19 text

実験(Experiment): zero-shot image classification and text-based image retrieval 
 19 ● 画像レベルのタスクにおいてCLIPベースラインやvariantsに比べて大幅な性能向上 
 ● テキストアノテーションありの衛星画像でトレーニングしたRemoteCLIPよりも高性能→衛星画像にキャプショ ンをつけるよりも地上ー衛星画像ペアでトレーニングした方がいい 
 Mall et al. (2024), “Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment”, ICLR 2024. より引用 NAIP画像で構築されたデータセット 


Slide 20

Slide 20 text

実験(Experiment): zero-shot segmentation and visual question answering 
 20 ● ピクセルレベルのタスクにおいてもCLIPやGLIPなどのベースラインに比べ高性能 
 Mall et al. (2024), “Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment”, ICLR 2024. より引用 データセット:Satlas 
 データセット:RSVQA 


Slide 21

Slide 21 text

実験(Experiment): applications 
 21 ● テキストを入力することで、衛星画像から対応する領域を抽出可能 
 ○ 例:”Farmlands”→農用地のマップ 
 Mall et al. (2024), “Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment”, ICLR 2024. より引用

Slide 22

Slide 22 text

22 結論 This image was generated by ChatGPT

Slide 23

Slide 23 text

限界点(Limitation)と結論(Conclusion) 
 23 限界点
 ● 動的な物体を検知するのは難しい 
 
 
 
 
 
 
 
 結論
 ● テキストアノテーションを必要としない VLM 構築手法 GRAFT を提案 
 ● 地上画像と衛星画像のペアデータセットを作成し、GRAFT を用いて VLM を構築 
 ● 画像レベルおよびピクセルレベルのタスクにおいて、CLIP 系ベースラインと比較して大幅な精度向上を達成 したことを確認
 
 
 Mall et al. (2024), “Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment”, ICLR 2024. より引用