Slide 21
Slide 21 text
RS visual prompting dataset construction
21
image-level
● image classification and image captioning のデータ
セットから変換
● text instruction: “Please provide a detailed
description of the ⟨Region i⟩ in the image”
● バウンディングボックスは画像全体
Zhang et al. (2025), “EarthMarker: A Visual Prompting Multimodal Large Language Model for Remote Sensing”, IEEE TGRS より引用
region-level
● object detection のデータセットから変換
● GTバウンディングボックスをそのままRegionに使用
● text instruction: “please provide the brief caption of
each marked region in the image”
● answer format: “⟨Region 1⟩ : A big airplane on the
left\n < ⟨Region 2⟩ : A small vehicle on the top\n, . .
. ,‘bbox’: [x1, y1, x2, y2], . . .”
point-level
● instance, semantic segmentation のデータ
セットから変換
○ ins. seg.: representative points (?)
○ sem. seg.: 32x32 patch に分割し、各
パッチからランダムにPointを一つサ
ンプリング
● text instruction: “please identify the
category of each marked point in the
image.”
● answer format “⟨Mark 1⟩ : Label 1\n⟨Mark
2⟩ : Label 2\n, . . . ,‘points’: [x1, y1], [x2,
y2], . . .”