Slide 1

Slide 1 text

EarthMarker: A Visual Prompting Multimodal Large Language Model for Remote Sensing
 修 浩毅
 1 第9回 SatAI.challenge勉強会


Slide 2

Slide 2 text

目次 
 2 ● 自己紹介スライド
 ● 研究の1ページサマリ紹介 
 ● 研究の背景(Introduction) 
 ● 手法について(Method) 
 ● 実験(Experiment)
 ● 結論(Conclusion)


Slide 3

Slide 3 text

3 著者紹介 This image was generated by ChatGPT

Slide 4

Slide 4 text

修 浩毅 産総研 データプラットフォーム研究チーム ● 3次元点群解析 ● コンピュータ・グラフィックス ● 建物被害検知 点群セグメンテーション 自己紹介 4 GitHub Linkedin 点群からの法線推定 航空ライダーからの建物被害検知

Slide 5

Slide 5 text

5 研究の1ページサマリ紹介 This image was generated by ChatGPT

Slide 6

Slide 6 text

EarthMarker: A Visual Prompting Multimodal Large Language Model for Remote Sensing 
 
 6 ● 初のRS visual prompting対応MLLMを提案。衛星 画像をpoint, region, imageレベルで判読可能。 
 ● visual prompting 学習フレームワークを提案 
 ● RS visual promptingデータセット(RSVP)を提案 
 ● 下流タスクにてSoTAを達成 
 RS分野初のvisual promptingに対応可能マルチモーダル大規模言語モデル(MLLM) EarthMarkerを構 築
 Zhang et al. (2025), “EarthMarker: A Visual Prompting Multimodal Large Language Model for Remote Sensing”, IEEE TGRS より引用

Slide 7

Slide 7 text

7 研究の背景 This image was generated by ChatGPT

Slide 8

Slide 8 text

背景: Prompting 
 8 ● 大規模言語モデル(LLM)は、事前学習後にpromptを与えることで、学習時に見たことのないタスクやデータ分布 にも対応できる
 Brown et al. (2020), “Language Models are Few-Shot Learners”, arxiv より引用

Slide 9

Slide 9 text

背景: Visual prompting 
 9 ● Visual prompting に対応するモデルを構築することで、学習時に見たことのないタスクやデータ分布にも対応で きるビジョンモデルを構築可能 
 Kirillov et al. (2023), “Segment Anything”, arxiv より引用

Slide 10

Slide 10 text

背景: Visual prompting for remote sensing 
 10 ● Visual prompting に対応するRSモデルを構築するこ とで
 ○ 未知のタスクやデータに対応 
 ○ 興味があるところだけ解析 
 Zhang et al. (2025), “EarthMarker: A Visual Prompting Multimodal Large Language Model for Remote Sensing”, IEEE TGRS より引用

Slide 11

Slide 11 text

背景: Visual prompting for remote sensing 
 11 ● visual prompting をRS 画像に適用する際の問題点 
 ○ リモセン画像の判読は難しい 
 ■ scale variations
 ■ cross-category diversity 
 ■ complex contextual semantic information
 ○ 自然言語だけでは領域を正確に定義できない 
 ○ (先行研究)image-levelの判読は可能だが、 より詳細な判読(region-level, point-level)は 難しい
 Zhang et al. (2025), “EarthMarker: A Visual Prompting Multimodal Large Language Model for Remote Sensing”, IEEE TGRS より引用 上記の問題を考慮し、visual prompting に対応するRS MLLMを構築する


Slide 12

Slide 12 text

12 手法について This image was generated by ChatGPT

Slide 13

Slide 13 text

Model architecture 
 13 Sharing visual encoding module 
 ● 画像とvisual promptを共通のencoderで処理すること によって、両者の関係性をより考慮した特徴量を作 成
 ● MoV: parallel encoder (DINOv2-ViT L/14 & CLIP-ConvNeXt)
 ● 画像はmulti-resolution化 
 ● visual promptは画像化 
 
 Zhang et al. (2025), “EarthMarker: A Visual Prompting Multimodal Large Language Model for Remote Sensing”, IEEE TGRS より引用

Slide 14

Slide 14 text

Model architecture 
 14 modality-align projection 
 ● visual tokens (画像とvisual prompt特徴量)を言語モ デルが扱える特徴量空間に投影 
 
 text tokenizer
 ● text tokenizerでtext instructionを埋め込む 
 
 上記の二つを組み合わせ、multimodal input sequenceを作 成し、LLMに入れる
 
 Zhang et al. (2025), “EarthMarker: A Visual Prompting Multimodal Large Language Model for Remote Sensing”, IEEE TGRS より引用

Slide 15

Slide 15 text

Model architecture 
 15 LLM decoder
 ● 画像、visual promptを組み合わせることによって、 image, region, point-levelの表現を扱う 
 ● text instructionを組み合わせることによって、テキス トに応じた判読結果を生成 
 Zhang et al. (2025), “EarthMarker: A Visual Prompting Multimodal Large Language Model for Remote Sensing”, IEEE TGRS より引用

Slide 16

Slide 16 text

Cross-domain training 
 16 自然画像とリモートセンシング(RS)データのドメインギャッ プを埋め、一般的なドメインの知識を効果的にRSドメイン へ適応させるため、Cross-domain trainingを提案 
 
 
 Zhang et al. (2025), “EarthMarker: A Visual Prompting Multimodal Large Language Model for Remote Sensing”, IEEE TGRS より引用

Slide 17

Slide 17 text

Cross-domain training 
 17 Phase 1: multi-domain image-text alignment 
 自然画像とRS画像を同時用いて画像とテキストをalignし、 包括的なvision-langauge表現を獲得 
 ● データセット
 ○ COCO Caption
 ○ RSVP (本研究で提案) 
 ● projectionだけトレーニングし、画像とテキストの alignmentだけを学習 
 Zhang et al. (2025), “EarthMarker: A Visual Prompting Multimodal Large Language Model for Remote Sensing”, IEEE TGRS より引用

Slide 18

Slide 18 text

Cross-domain training 
 18 Phase 2: Spatial Perception Tuning 
 空間的な、オブジェクトレベルの表現を獲得する 
 ● データセット
 ○ RefCOCO
 ○ RefCOCO+
 ● LLMをトレーニングし、より詳細な空間的概念を扱え るようにする
 Zhang et al. (2025), “EarthMarker: A Visual Prompting Multimodal Large Language Model for Remote Sensing”, IEEE TGRS より引用

Slide 19

Slide 19 text

Cross-domain training 
 19 Phase 3: RS Visual Prompting Tuning 
 モデルがtext instructionに従い、region-level、point-level のタスクを実行できるようにする 
 ● データセット:RSVP (本研究で提案) 
 ○ region-text, point-text ペア 
 ● LoRAでparameter-efficient training 
 Zhang et al. (2025), “EarthMarker: A Visual Prompting Multimodal Large Language Model for Remote Sensing”, IEEE TGRS より引用

Slide 20

Slide 20 text

RS visual prompting dataset construction 
 20 既存のRSデータセットからの変換 
 ● タスク:scene classification, referring object classification, image captioning, region captioning, and relationship analyses 
 ● 解像度
 ● グローバル
 
 data structure
 for each item, 
 ● Visual prompts 
 ● User instructions
 ● (answers)
 ● an image 
 
 Zhang et al. (2025), “EarthMarker: A Visual Prompting Multimodal Large Language Model for Remote Sensing”, IEEE TGRS より引用

Slide 21

Slide 21 text

RS visual prompting dataset construction 
 21 image-level 
 ● image classification and image captioning のデータ セットから変換
 ● text instruction: “Please provide a detailed description of the ⟨Region i⟩ in the image”
 ● バウンディングボックスは画像全体 
 
 Zhang et al. (2025), “EarthMarker: A Visual Prompting Multimodal Large Language Model for Remote Sensing”, IEEE TGRS より引用 region-level 
 ● object detection のデータセットから変換 
 ● GTバウンディングボックスをそのままRegionに使用 
 ● text instruction: “please provide the brief caption of each marked region in the image” 
 ● answer format: “⟨Region 1⟩ : A big airplane on the left\n < ⟨Region 2⟩ : A small vehicle on the top\n, . . . ,‘bbox’: [x1, y1, x2, y2], . . .” 
 
 point-level 
 ● instance, semantic segmentation のデータ セットから変換
 ○ ins. seg.: representative points (?) 
 ○ sem. seg.: 32x32 patch に分割し、各 パッチからランダムにPointを一つサ ンプリング
 ● text instruction: “please identify the category of each marked point in the image.” 
 ● answer format “⟨Mark 1⟩ : Label 1\n⟨Mark 2⟩ : Label 2\n, . . . ,‘points’: [x1, y1], [x2, y2], . . .” 
 


Slide 22

Slide 22 text

GPT4V-Assisted Visual Prompting Data Generation 
 ● クラスラベルや既存のデータセットのキャプションは シンプル
 ● GPT4Vによって既存データを拡張 
 ○ Set-of-Mark (SoM) promptingを使用 
 RS visual prompting dataset construction 
 22 Yang et al. (2023), “Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V”, arxiv より引用

Slide 23

Slide 23 text

23 実験 This image was generated by ChatGPT

Slide 24

Slide 24 text

● prompt: 
 ○ image-level bounding box 
 ○ ”Please identify the object category of each marked region in the image” 
 ● findings 
 ○ Non-RSのMLLMを大幅に上回る 
 ○ GeoChatよりも高精度 
 24 Zhang et al. (2025), “EarthMarker: A Visual Prompting Multimodal Large Language Model for Remote Sensing”, IEEE TGRS より引用 zero-shot scene classification 
 Non RS
 RS


Slide 25

Slide 25 text

● prompt: 
 ○ image-level bounding box 
 ○ ”Please provide a brief caption of each marked region in the image.” 
 ● findings 
 ○ 既存のexpertモデルよりも高い精度を達成 
 25 Zhang et al. (2025), “EarthMarker: A Visual Prompting Multimodal Large Language Model for Remote Sensing”, IEEE TGRS より引用 Image Captioning on NWPU-Captions dataset 
 Non RS
 RS


Slide 26

Slide 26 text

● prompt: 
 ○ region-level bounding box 
 ○ ”Please identify the category of the marked region in the image” 
 ● findings 
 ○ 既存のNon-RS 高性能 
 ○ 既存のRSモデルと比べても大幅に性能アップ 
 26 Zhang et al. (2025), “EarthMarker: A Visual Prompting Multimodal Large Language Model for Remote Sensing”, IEEE TGRS より引用 Referring Object Classification on DIOR-RSVG dataset 
 Non RS
 RS


Slide 27

Slide 27 text

● prompt: 
 ○ region-level bounding box 
 ○ ”Please provide a brief caption of each marked region in the image” 
 ● findings 
 ○ 既存のNon-RS 高性能 
 ○ 既存のRSモデルと比べても大幅に性能アップ 
 27 Zhang et al. (2025), “EarthMarker: A Visual Prompting Multimodal Large Language Model for Remote Sensing”, IEEE TGRS より引用 Region Captioning on DIOR-RSVG dataset 


Slide 28

Slide 28 text

ablation studies
 ● shared encoder:CNNとViTの組 み合わせが一番いい 
 ● データセットの組み合わせ:全部 合わせたほうがいい 
 
 計算コスト
 ● GPU:an NVIDIA RTX A6000 
 ● 計算コストは比較的高い 
 28 Zhang et al. (2025), “EarthMarker: A Visual Prompting Multimodal Large Language Model for Remote Sensing”, IEEE TGRS より引用 Ablation studies and computation analysis 


Slide 29

Slide 29 text

29 Zhang et al. (2025), “EarthMarker: A Visual Prompting Multimodal Large Language Model for Remote Sensing”, IEEE TGRS より引用 Visualization 


Slide 30

Slide 30 text

30 Zhang et al. (2025), “EarthMarker: A Visual Prompting Multimodal Large Language Model for Remote Sensing”, IEEE TGRS より引用 Visualization 


Slide 31

Slide 31 text

31 Zhang et al. (2025), “EarthMarker: A Visual Prompting Multimodal Large Language Model for Remote Sensing”, IEEE TGRS より引用 Visualization 


Slide 32

Slide 32 text

32 Zhang et al. (2025), “EarthMarker: A Visual Prompting Multimodal Large Language Model for Remote Sensing”, IEEE TGRS より引用 Visualization (failure cases) 


Slide 33

Slide 33 text

33 結論 This image was generated by ChatGPT

Slide 34

Slide 34 text

結論 
 34 ● RSで初のvisual prompting MLLMを構築 
 ● visual prompting MLLM構築のためのフレームワークとデータセットを提案 
 ● image-level, region-level 及びpoint-levelの下流タスクにおいてNon-RS、RSモデルよりも大幅に性能向上 
 
 
 Zhang et al. (2025), “EarthMarker: A Visual Prompting Multimodal Large Language Model for Remote Sensing”, IEEE TGRS より引用