Upgrade to Pro — share decks privately, control downloads, hide ads and more …

EarthDial: Turning Multi-sensory Earth Observat...

Avatar for SatAI.challenge SatAI.challenge
September 01, 2025

EarthDial: Turning Multi-sensory Earth Observations to Interactive Dialogues

本資料はSatAI.challengeのサーベイメンバーと共に作成したものです。
SatAI.challengeは、リモートセンシング技術にAIを適用した論文の調査や、
より俯瞰した技術トレンドの調査や国際学会のメタサーベイを行う研究グループです。
speakerdeckではSatAI.challenge内での勉強会で使用した資料をWeb上で共有しています。
https://x.com/sataichallenge
紹介する論文は、「EarthDial: Turning Multi-sensory Earth Observations to Interactive Dialogues」です。
本研究は、RGB・SAR・NIR・IR・時系列・可変解像度など“多モダリティ”の
地球観測画像を、対話での説明・分類・検出・グラウンディング・変化把握まで
一つでこなすEO特化VLMです。
11.11M指示データで段階学習し(AHR+Data Fusion)、44下流タスクで
汎用/分野特化VLMを安定して上回り、EOタスク自動化の新標準を目指してます。

Avatar for SatAI.challenge

SatAI.challenge

September 01, 2025
Tweet

More Decks by SatAI.challenge

Other Decks in Research

Transcript

  1. EarthDial:地球観測を“会話”に変える 新アプローチ Turning Multi-sensory Earth Observations to Interactive Dialogues フリーランサー

    柴田たけお 1 Soni, S., et al. (2025). Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). arXiv:2412.15190. https://arxiv.org/abs/2412.15190
  2. 目次 2 ▪ 自己紹介 ▪ 研究の1ページサマリ ▪ 研究の背景 ▪ 関連研究

    ▪ EarthDialの仕組み ▪ EarthDialデータセット ▪ 実験 ▪ アブレーション解析 ▪ 実際はどうなのか?(GPT5との比較) ▪ 所感と実務への示唆 ▪ まとめ ▪ 補足情報 ▪ 参考文献
  3. EarthDial の1ページサマリ 6 •目的:複雑な地球観測(EO)データをVision-Language Model (VLM)で自然言語対話に変換 •対応データ:マルチスペクトル(RGB, SAR:(合成開口レーダー), NIR, 赤外線)、

    マルチテンポラル(時系列)、マルチ解像度 •主な機能:分類、検出、キャプション生成、質問応答、 視覚的推論、ビジュアルグラウンディング、変化検出 •強み: • 既存汎用VLMより地球観測解析では高精度 • 解像度やセンサー種別に制限なし • 2時点・複数時点の時系列解析に対応 技術的特徴 •学習データ:1,111万以上の指示ペア(RGB, SAR, NIR, 赤外線) •モデル性能:44の下流タスクで既存汎用・分野特化VLMを上回る汎化性能
  4. 研究の背景 8 •VLM(Vision-Language Model)の進化により、 分類・位置特定・VQA・カウント・推論・ ビジュアルグラウンディング等を単一モデルで実行可能に。 •しかし、汎用VLMはリモートセンシング(RS)データに弱く、 空間・スペクトル・時間の複雑性を十分扱えない。 •既存の地理空間VLMも解像度やセンサー種別が制限され、 マルチスペクトル・マルチテンポラル解析に非対応。

    EarthDialの特徴 •初の統合型ドメイン特化VLM: マルチスペクトル(RGB, SAR, NIR, 赤外線)、 マルチテンポラル(2時点・多時点)、 マルチ解像度のEOデータを自然言語で解析。 •対応タスク:分類、検出、キャプション生成、VQA、 視覚的推論、ビジュアルグラウンディング、変化検出など。 •応用分野:環境モニタリング、災害対応、精密農業、都市計画、 インフラ管理、メタン検出など。 技術的貢献 •最大規模RS Instruction Tuning Dataset:1,111万ペア (RGB, SAR, NIR, 赤外線など複数モダリティ) •44種の下流EOタスクで既存汎用・分野特化VLMを上回る精度と汎化性能を達成
  5. 関連研究 10 •汎用 VLM(Vision-Language Model) • VisualGPT・BLIP・Flamingo・Kosmos などで多モーダル理解(OCR/図表/動画)や音声・3D まで拡張。 •

    ただし リモートセンシング(RS)の固有文脈 である 地理参照(座標・空間スケール)、分光情報、時系列 の整合には弱い。 •地理空間(RS)向け VLM • RemoteCLIP:RS 画像‐テキスト対でコントラスト学習(ゼロショット分類・検索)。 • RS-GPT:EVA-CLIP+Vicuna で caption/VQA は可能だが 検出・グラウンディングに弱い。 • GeoChat/LHRS-Bot/SkyEyeGPT:高解像度 RS で 領域理解・視覚グラウンディング を拡張。 • EarthGPT:光学・SAR・赤外を統合し マルチセンサ を前進。 • 限界:多スペクトル(MS)の多様性、時系列、可変解像度 への一般化が不十分。 •RS 向け指示データセット(Instruction Tuning) • GeoChat-Instruct/SkyEye-968k/RS5M:主に光学中心で大規模指示データを提供。 • MLLMs 系は光学・SAR・赤外のペアも提供するが、マルチ解像度/マルチスペクトル/マルチテンポラル の網羅性や 応用多様性は不足。 • 近年は事実・欺瞞質問を含め内容を拡張する試みもあるが、統一的かつ大規模で RS の文脈複雑性(地理・分光・時間)を 包括す る指示データは未整備。 •本研究の位置づけ(EarthDial) • 約 1,100 万件の指示データで、光学/マルチスペクトル/SAR/赤外/時系列を単一枠組みに統合。 • 多様な RS タスク(分類・検出・領域説明・VQA など)へ 広範に一般化することを目指す
  6. 関連研究 •各行=データセット、Type=対応センサー/モダリティ(Optical, SAR, S2=Sentinel-2, IR, NAIP など)、 #Samples=規模。 •OS /

    MS / MT / MR • OS: オープンソースか • MS: マルチスペクトル(RGB以外の波長を含む) • MT: マルチテンポラル(時系列) • MR: マルチ解像度(異なるGSD/解像度) •Tasks(右側の列群)—そのデータセットに学習/評価用アノテーションがあるタスクに ✓ が入る • IC: Image Captioning(画像キャプション) • RC: Region Captioning(領域キャプション) • VQA: Visual QA • SC / MLSC: シーン分類 / マルチラベル分類 • TSC (Temporal): 時系列シーン分類 • OD / VG: 物体検出 / ビジュアルグラウンディング • DA: 災害評価 • BTCD / MTCD: 2時期 / 多時期の変化検出 • M-TC: マルチタスク会話 • MPD / UHI / LCZ / TSC*: メタンプルーム / ヒートアイランド / ローカル気候帯 / 樹種分類 ※表では TSC が2回出てくるため、ここでは TSC (Temporal) と TSC*(Tree Species)で区別 •✓=そのタスクをカバー、×=未対応。 既存のRS-VLMデータセットは 光学中心・タスクが限定的 なものが多いのに対し ,EarthDial-Instruct は 規模・モダリティ・タスク多様性の3点で 従来を大きく上回る。 その結果、下流応用(検出/グラウンディング/時系列/物 理タスク)まで一貫して学習・評価できる土台を提供。
  7. 背景/課題 • 既存の汎用VLMや地理空間VLMは高分解能・マルチスペクトル・時系列を伴うRS画像の理解が不十分。 • 地理的・分光的・時間的コンテキストを同時に扱える統一モデルが必要。 提案 • EarthDial-Instruct:解像度・地域の多様性を網羅した1,100万超の指示チューニングデータを新規構築。 • EarthDial:このデータで学習した、マルチ解像度×マルチスペクトル×マルチテンポラルを単一モデルで処理できる統一VLM

    。 =>対応タスク:分類、VQA、領域グラウンディング、変化検出など広範。 モデル設計 • InternVLを土台に、マルチスペクトル/時系列処理のための改良を追加。 3段階の学習レシピ 1. RS事前学習:RS特有の対話・記述に適応。 2. 段階的適応:RGB+時系列画像でエンコーダ出力とLLMを下流タスク向けに整合。 3. 拡張ファインチューニング:マルチスペクトル+SARを追加学習し適用範囲を拡大。 (Phi-3 miniとInternViT-6Bをバックボーンに、指示チューニング(SFT)→ 下流タスク微調整(LoRA)) 要点 「大規模RS指示データ × 統一VLM」で、地理・分光・時間の三次元を同時に理解可能に。 EarthDial: リモートセンシング(RS)向けドメイン特化VLM
  8. モデル(4B):InternViT-300M → MLP → Phi-3-mini。 1つで多解像×多スペクトル×時系列のRSタスクを処理。 高解像対応:動的タイル化 448×448 + サムネイル。

    学習1–12枚/推論最大40枚で細部+全体文脈。 データ融合:3チャネルずつ反復でViT → AnyResでトークン縮約 → テキスト埋め込みと連結 → LLM。 学習3段階:S1 RGB多解像で整合化 → S2(LLM+MLP中心)RGB+時系列 → S3 MS/SAR拡張。 EarthDial: モデル設計
  9. ステージ 入力/モダリティ 学習するブロック 主なデータ/例 目的 1 事前学習 (RS会話) 単画像 RGB

    (Sentinel-2/Landsat/航空 ) ViT+MLP+LLM 全 体 Satlas/Skyscript 等( 計≈7.6M対) 視覚と言語の整合・ 基礎表現の獲得 2 微調整 (RGB+時系列 ) RGB+時系列 (マルチタイム) LLM+MLP 主体 (ViT多くは凍結) EarthDial-Instruct (表2の指示データ群 ) 指示追従と下流タスク: キャプション/分類/検出 /VQA/変化検出 3 微調整( MS/SAR) マルチスペクトル(MS) / RGBI / SAR LLM+MLP (ViTはStage1重み) +Data Fusion 有効 MS・SAR指示データ 多センサ対応の拡張: LCZ・樹種・メタン・UHI ・SAR船舶 等 EarthDial: 3段階の学習
  10. EarthDial: モダリティ整理(例:分類タスクでのRGB / マルチスペクトル / UHI・メタン) ①RGB(3ch) • 概要:自然画像と同じ可視光3バンド。 •代表データ:AID

    / UCM / WHU_19 / BigEarthNet_RGB(いずれも JPG 相当)。 • 得意な対象・課題:建物・道路・港・土地利用などのシーン分類、物体の形状・テクスチャが効くタスク。 • 前処理:ImageNet系正規化(reflectance スケール不要)。 • モデル:EarthDial_4B_RGB。 ②マルチスペクトル(MS:LCZs_S2 / TreeSatAI / BigEarthNet_S2) •概要: 可視〜近赤外(NIR)中心の汎用MS。反射率差で植生・水域・裸地の識別が強い。 •代表データ / バンド: LCZs_S2:Sentinel-2 10バンド, TreeSatAI:RGB+NIR(4バンド), BigEarthNet_S2:Sentinel-2 L2A 12バンド •得意な対象・課題:LCZ(都市気候区分)、樹種/植生、マルチラベルシーン分類、水域/土壌の識別。 •前処理:データセット毎の反射率正規化(s2_norm / tree_norm / s2_l2a など)。 •モデル:EarthDial_4B_MS(MS入力に合わせた学習)。 ③UHI・メタン系(STARCOP_test / UHI_test) •概要:RGBに物理量チャネルが加わる“特殊MS”。スペクトルだけでなく温度・濃度などの連続量を扱う。 •代表データ / バンド: • UHI_test:Landsat-8 8バンド(熱赤外 TIRS含む)→ 都市の暑熱評価。 • STARCOP_test:tif_pl(RGB/PL系)+mag1c(メタン濃度指標)=4バンド (元はHSI等だが、この評価セットは RGB+1ch に整形) •得意な対象・課題: • UHI:LST/NDVIに基づく暑熱クラス分類・原因説明。 • メタン:プルーム検出、位置特定、排出量推定。 •前処理:物理量に合わせた正規化(例:l8_norm=反射率/温度、rgbm_norm=RGBとメタンで別スケール)。 •モデル:EarthDial_4B_Methane_UHI(物理量チャネル・熱赤外分布に最適化)。
  11. EarthDial: データセット 目的 •多モダリティ・多解像度・多時系列のRS画像に対して、汎化する指示追従(QA)能力を大規模学習で付与。 事前学習ソース & 生成 •ソース:SkyScript, SatlasPretrain(S2, S1(SAR),

    NAIP, Landsat など+ラベル)。 •生成:InternLM-XComposer2でラベル(点/ポリゴン/カテゴリ/位置)からQA指示を自動作成。 •品質管理:①ラベル数<3除外、②輝度/被覆率で雲・低被覆除去、③属性に基づくプロンプト設計。 下流タスク向け指示データ •10タスク:分類、検出/参照表現/GRD、VQA、キャプション、変化検知、メタン、樹種、LCZ、UHI、災害評価。 •6視覚モダリティ:Optical RGB, SAR, S2, IR, NIR, Hyperspectral。 •2時系列モダリティ:Optical, SAR。 代表的な設計例 •シーン分類:9標準+多ラベル(BigEarthNet)+時系列(FMoW, ≤4枚/系列)、LCZ・樹種(TreeSatAI-TS)。 • 検出/GRD:タグ{refer, identify, grounding}、属性{カテゴリ/色/相対位置/相対サイズ}、bbox=[xmin,ymin,xmax,ymax,θ]。 •VQA/Caption:6 VQA+5 Caption データセット。 •変化検知:3二値CD+MUDS(マスクを参照し各系列5キャプション生成)。 •メタン:STARCOP(HS) → 有無/位置/排出量を質問。 •UHI:S2/L8からLST/NDVIを計算し温度帯分類+原因/緩和策。 •災害:xBD(前後RGB)+QuakeSet(SAR)で被害/地震発生と規模。 トークン例(条件付け) • センサー/モダリティ/解像度/時系列を明示:[s2 ms 30], [s1 vh 10], [changedet][hr rgb temp 0.5] など。
  12. 実験 20 評価範囲 •モダリティ:RGB/マルチスペクトル(MS, RGBI)/SAR/赤外/熱 •タスク:シーン分類・参照物体検出・リージョン説明・グラウンディング・画像キャプション・VQA・変化 検出・メタン検出 総評 •EarthDialは汎用/専門VLM(GPT-4o, InternVL2,

    GeoChat等)を安定して上回る。 •AnyRes+データフュージョンで高解像度・多バンド・時系列を一貫処理。 代表的な成果 •マルチスペクトル分類:GPT-4o比 +32.5%(平均) •RGBI(TreeSatAI):GPT-4o比 +40.2% •SAR系検出/グラウンディング:複数データセットでmAP上昇(Table 6–8) •画像キャプション/VQA:ROUGE/METEOR・精度ともに明確な上昇(Table 9–10) •変化検出:時系列トークン融合で既存VLMを上回る(Table 11) •xBD(災害・時系列):画像分類/検出/参照検出など全サブタスクで優位(Table 12) •UHI(Landsat-8):56.77% vs GPT-4o 22.68% •メタンプルーム(STARCOP, RGB+mag1c):77.09% vs GPT-4o 40.93% •QuakeSet(SAR, 地震有無):57.53% vs GPT-4o 55.86% ポイント •一つの4Bモデルでマルチ解像度×多バンド×時系列を対話的にカバー。 •実運用に近い災害・UHI・メタンなど物理量を含む課題でも効果大。
  13. •検証軸 (1) 3段階事前学習(Stage1→3)/(2) マルチスペクトル融合(平均・最大・バイリニア) •段階学習の効果 GeoChat-Instruct 参照物体検出(Multiple):[email protected] が約+5pt(事前学習なし比) → 複数対象の検出安定性が向上

    •融合戦略の効果(MS分類) BigEarthNet-MS & TreeSatAI:バイリニア融合 → 平均/最大 平均精度で 約+10〜13% 改善(データセット横断) •MSの利得(RGB対比) BigEarthNet(MS版 vs RGB版):+1.75pt 向上 → 追加バンドの相補情報を有効活用 •含意 AnyRes+データフュージョンを前提に、 段階的事前学習で表現を育てることが 多バンド・時系列・多解像度タスクの汎化に直結 アブレーション解析: 段階学習 x バンド融合の効き目
  14. 実際にはどうなのか?GPT5と比較 衛星: Harmonized Sentinel-2 MSI: MultiSpectral Instrument, Level-2A (SR) LON,

    LAT = 138.5950, 35.4865 #富士の樹海 START, END = '2024-06-01', '2024-08-31' # 葉の茂る時期 CLOUD = 50 # 雲量許容(%) ROI_WIDTH_M = 1000 # 1 km 四方(樹種パッチなら 500~1500m が目安) FALSE COLOR画像を作成: B3:緑:=>青,B4:赤=>緑,B8:近赤外=>赤 GPT5 Instant, Thinkingは説明は詳しいが 間違った回答を返した。ただしバンドと色のマッピングも PROMPTにいれてやれば正しい回答を返した
  15. 実際にはどうなのか?GPT5と比較 衛星: Sentinel-1 SAR GRD: C-band Synthetic Aperture Radar Ground

    Range Detected, log scaling LON, LAT = 139.85, 35.60 #東京湾 START, END = '2024-06-01', '2024-06-30' ORBIT = 'DESCENDING' POL = 'VH' EarthDIalは海としかかえさなかった。 GPT5 Instant, Thinkingは画像入力でフリーズ スクショであげたら黒い画面に白ぼやけたものが表 示されてますとの回答 船からの反射信号が弱すぎて判別できなかった可能 性あり
  16. 実際にはどうなのか?GPT5と比較 衛星: USGS Landsat 8, 9 Level 2, Collection 2,

    Tier 1, LON, LAT = 139.76, 35.68 #東京都心 WIDTH_KM = 40 #40km x 40km START, END = '2024-07-01', '2024-08-31’ ST10 熱赤外 GPT5 Thinkingは説明は詳しく丁寧 ただし、写真をアップできなかったためスクリーンショットで対応
  17. 所感と実務への示唆 •EarthDialはRS特化で強いが、フリーフォームQAはプロンプト設計次第 (モダリティ/タスク指定が効く)。 •1画像=3ch固定。ただし CIR/SWIR/SAR/TIR など異なる3ch合成を 複数枚入れて“多バンド相当”にできる。 •モダリティ・位置・季節・出力形式を明示すると、回答の安定度が大幅に上がる。 •汎用LLM(GPT系)でも、バンド名/合成方法をプロンプトに記すと説明精度は改善。 •RSの学習データでSFT+RoLAすれば、そのドメインでVLM自体の性能があがるのはあたり前な

    気がするがVLMをRS分野に応用したことに意義があると自分は解釈 •衛星画像はたくさんのメタデータ(緯度経度、時期、バンド帯)があるのでそれらのメタデータも 学習さるか、あるいは単純にRAGやPROMPTに注入すれば精度が飛躍的にあがるのではないか。 逆に汎用VLMにそういったメタデータを追加学習もしくはプロンプト自動注入することで 汎用VLMでも十分使えるものになる可能性はあるのではないか? •統合的なものを1つ作るのがいいいのか、それどれのTASKに特化したものを 最高精度を目指して作ったほうがいいのかというタスク別の選択も必要かもしれない。
  18. 1) Classification(シーン分類 / マルチラベル / 特殊分類) フォルダ上の データセット 論文上呼称 モダリティ/

    バンド バンド数・説明 時系列 Classification/AID AID Optical(RGB) 3ch(可視:青/緑/赤) なし Classification/UCM UCMerced Optical(RGB) 3ch なし Classification/WHU_19 WHU-RS19 Optical(RGB) 3ch なし Classification/ BigEarthNet_RGB/ BigEarthNet_test BigEarthNet (RGB) Optical(RGB) 3ch なし Classification/ BigEarthNet_S2/ BigEarthNet_S2_Test BigEarthNet (MS) S2 マルチスペクトル 12ch(一般的に B01–B12 のうち B10 を除外: Coastal(443), Blue(490), Green(560), Red(665), RedEdge1(705), RE2(740), RE3(783), NIR(842), NIRn(865), WaterVapor(945), SWIR1(1610), SWIR2(2190) nm) なし Classification/LCZs_S2/ LCZs_S2_test So2Sat-LCZ42 S2 マルチスペクトル (上記 S2 と同様。論文では S2 Type) なし Classification/TreeSatAI/ TreeSatAI_test TreeSatAI (論文では RGBI) RGB+NIR 4ch(R,G,B,NIR) なし Classification/ STARCOP_test STARCOP(メタン) Hyperspectral (論文では 4ch運用) 4ch(RGB + Mag1c)=RGBにメタン指標チャネル( mag1c)を追加 なし Classification/ UHI_temperature_landuse_test UHI (都市ヒートアイランド) Landsat-8 + S2 派生 L8: OLI/TIRS(NDVI: Red/NIR、LST: B10/11 など熱赤 外)+ S2でNDVI補助 なし 補足情報 タスク別データセットリスト Table 5(TreeSatAI=RGBI, BigEarthNet=MS)、UHI は本文で「Landsat8 バンドから LST、S2/L8 から NDVI」を計算と記載。STARCOP は「RGB+mag1c の 4ch」を明示。
  19. 補足情報 タスク別データセットリスト 2) Detection(物体検出系) フォルダ上の データセット 論文上呼称 モダリティ/バンドバンド数・説明 時系列 Detection/NWPU_VHR_10_tes

    t NWPU VHR-10 Optical(RGB) 3ch なし Detection/Swimming_pool_ dataset_test Swimming Pool Optical(RGB) 3ch なし Detection/ship_dataset_v0_tes t SAR-Ship(相当) SAR 1ch(強度画像;一般にC-band想定) なし Detection/urban_tree_crown_ detection_test Urban Tree Crown Optical(RGB) 3ch なし Detection/Geochat_Bench GeoChat-Instruct (検出評価一式) Optical (高解像RGB中心) 3ch なし Table 6–8(検出/領域記述/グラウンディングで NWPU, Swimming Pool, Urban Tree Crown, SAR-Ship 等を使用) 3) Grounding Description(位置同定含む) フォルダ上の データセット 論文上呼称 モダリティ/バンドバンド数・説明 時系列 Grounding_description/ HIT_UAV_* HIT-UAV Infrared(熱赤外) 1ch(熱赤外) なし Grounding_description/ NWPU_VHR_10_grounding_te st NWPU VHR-10 Optical(RGB) 3ch なし Grounding_description/ Swimming_pool_dataset_ test_grounding Swimming Pool Optical(RGB) 3ch なし Grounding_description/ UCAS_AOD_test_grounding UCAS-AOD Optical(RGB) 3ch なし Table 8(Grounding Description)。HIT-UAV は赤外、他は光学 。
  20. 補足情報 タスク別データセットリスト 4) Region Captioning(領域キャプション)Table 7 フォルダ上の データセット 論文上呼称 モダリティ/バンド

    バンド数・説明 時系列 Region_captioning/HIT_UAV_* HIT-UAV Infrared 1ch なし Region_captioning/ NWPU_VHR_10_test_region_captioning NWPU VHR-10 Optical(RGB) 3ch なし Region_captioning/ SRSDD_V1_0_region_captioning_test SRSDD-v1.0 SAR 1ch なし Region_captioning/ Swimming_pool_dataset_test_region_ captioning Swimming Pool Optical(RGB) 3ch なし Region_captioning/ UCAS_AOD_region_captioning UCAS-AOD Optical(RGB) 3ch なし Region_captioning/ ship_dataset_v0_region_captioning_test SAR-Ship (相当) SAR 1ch なし Region_captioning/urban_tree_crown_ detection_region_captioning Urban Tree Crown Optical(RGB) 3ch なし 5) Image Captioning(画像キャプション)Table 9 フォルダ上の データセット 論文上呼称 モダリティ/バンド バンド数・説明 時系列 Image_captioning/ NWPU_RESISC45_Captions_* NWPU-RESISC45 Captions Optical(RGB) 3ch なし Image_captioning/RSICD_Captions_* RSICD Captions Optical(RGB) 3ch なし Image_captioning/ RSITMD_Captions_test RSITMD Optical(RGB) 3ch なし Image_captioning/UCM_Captions_* UCM Captions Optical(RGB) 3ch なし Image_captioning/sydney_Captions/ sydney_Captions_test Sydney Captions Optical(RGB) 3ch なし
  21. 補足情報 タスク別データセットリスト 6) Change Detection / Disaster Assessment(変化検出/災害評価・xBD系) フォルダ上のデータセット 論文上呼称

    モダリティ/バンド バンド数・説明 時系列 Change_detection/DUBAICC/* Dubai-CC Optical(RGB) 3ch Bi-temporal Change_detection/LEVIRCC/* LEVIR-MCI Optical(RGB) 3ch Bi-temporal Change_detection/MUDS/* MUDS Optical(RGB) 3ch Multi-temporal(シーケンス) Change_detection/SYSU/* SYSU-CC Optical(RGB) 3ch Bi-temporal Change_detection/FMoW_RGB_Valid FMoW(Temporal Scene Cls.) Optical(RGB) 3ch Multi-temporal Change_detection/xBD/*(複数) xBD(災害評価) Optical(RGB) 3ch Bi-temporal(前後災) Table 11(Change Detection)と Table 12(xBD の各サブタスク)。MUDS は多時点、Dubai/LEVIR/SYSU/xBD は二時点。FMoW は Temporal Scene Classification とし て扱い 7) VQA(視覚質問応答) フォルダ上のデータセット 論文上呼称 モダリティ/バンド バンド数・説明 時系列 VQA/RSVQA_LR RSVQA-LR(低解像) Optical系(論文は Optical Type) 典型 3ch(RGB)※ なし VQA/RSVQA_HRBEN RSVQA-HRBEN Optical系(論文は Optical Type) 典型 3ch(RGB)※ なし バンド S2 マルチスペクトル:AnyRes + Data Fusion で 3chずつViTに通しつつ統合(RE/NIR/SWIR を含む)→ 多バンド活用 。 SAR:Sentinel-1 などの 強度1ch を想定して統合(船舶検出・地震判定等)。 RGBI:高解像の RGB+NIR 4ch(TreeSatAI の樹種分類など)。 Hyperspectral(STARCOP):本論文の利用は RGB+mag1c の4ch 構成でメタンプルーム有無/位置/排出量推定。 UHI:Landsat-8 の TIRS(B10/11) から LST、S2/L8 の Red/NIR から NDVI を導出して温度傾向を分類。
  22. • Soni, S., et al. (2025). EarthDial: Turning Multi-sensory Earth

    Observations to Interactive Dialogues. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). arXiv:2412.15190. https://arxiv.org/abs/2412.15190 • Bordes et al., 2024. “An Introduction to Vision-Language Modeling.” (https://arxiv.org/abs/2405.17247) • Klemmer et al., 2023. “SatCLIP: Global, General-Purpose Location Embeddings with Satellite Imagery.” (https://arxiv.org/pdf/2311.17179 ) • 石坂, 丞二. (2025). リモートセンシング データ解析演習スライド. 民間における宇宙利用2週間上級コース, 2025年2月. • 宙畑 【図解】衛星データの前処理とは~概要、レベル別の処理内容と解説~ (https://sorabatake.jp/9192/) 参考文献