EarthDial: Turning Multi-sensory Earth Observations to Interactive Dialogues

EarthDial：地球観測を“会話”に変える新アプローチ Turning Multi-sensory Earth Observations to Interactive Dialogues フリーランサー
柴田たけお 1 Soni, S., et al. (2025). Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). arXiv:2412.15190. https://arxiv.org/abs/2412.15190

目次 2 ▪ 自己紹介 ▪ 研究の１ページサマリ ▪ 研究の背景 ▪ 関連研究
▪ EarthDialの仕組み ▪ EarthDialデータセット ▪ 実験 ▪ アブレーション解析 ▪ 実際はどうなのか？(GPT5との比較) ▪ 所感と実務への示唆 ▪ まとめ ▪ 補足情報 ▪ 参考文献

3 自己紹介 This image was generated by ChatGPT

柴田たけおフリーランサー東北大学理学部、カリフォルニア大学バークレー大学院で地物専攻その後IT業界で30年近くSYSTEM ENGINNERとしてシステム開発にかかわる。現在はAIとGISやリモートセンシングを組み合わせたソリューションに興味あり最近開発活動（POCも含む） •衛星.GIS関連: 衛星画像LANDSATと統計データを利用した新潟県の収穫量予測, 物流の最適運搬システム
•一般AI関連: 開発実績: 音声特徴量での健康診断, 顔認証, 画像生成, 自動コード生成, END2ENDでのAI医療応用提案 •その他: SNSのコメントと写真情報からの災害対応システム自己紹介 Twitter LinkedIn 4

5 研究の1ページサマリ This image was generated by ChatGPT

EarthDial の１ページサマリ 6 •目的：複雑な地球観測（EO）データをVision-Language Model (VLM)で自然言語対話に変換 •対応データ：マルチスペクトル（RGB, SAR:(合成開口レーダー), NIR, 赤外線）、
マルチテンポラル（時系列）、マルチ解像度 •主な機能：分類、検出、キャプション生成、質問応答、視覚的推論、ビジュアルグラウンディング、変化検出 •強み： • 既存汎用VLMより地球観測解析では高精度 • 解像度やセンサー種別に制限なし • 2時点・複数時点の時系列解析に対応技術的特徴 •学習データ：1,111万以上の指示ペア（RGB, SAR, NIR, 赤外線） •モデル性能：44の下流タスクで既存汎用・分野特化VLMを上回る汎化性能

7 研究の背景 This image was generated by ChatGPT

研究の背景 8 •VLM（Vision-Language Model）の進化により、分類・位置特定・VQA・カウント・推論・ビジュアルグラウンディング等を単一モデルで実行可能に。 •しかし、汎用VLMはリモートセンシング（RS）データに弱く、空間・スペクトル・時間の複雑性を十分扱えない。 •既存の地理空間VLMも解像度やセンサー種別が制限され、マルチスペクトル・マルチテンポラル解析に非対応。
EarthDialの特徴 •初の統合型ドメイン特化VLM：マルチスペクトル（RGB, SAR, NIR, 赤外線）、マルチテンポラル（2時点・多時点）、マルチ解像度のEOデータを自然言語で解析。 •対応タスク：分類、検出、キャプション生成、VQA、視覚的推論、ビジュアルグラウンディング、変化検出など。 •応用分野：環境モニタリング、災害対応、精密農業、都市計画、インフラ管理、メタン検出など。技術的貢献 •最大規模RS Instruction Tuning Dataset：1,111万ペア（RGB, SAR, NIR, 赤外線など複数モダリティ） •44種の下流EOタスクで既存汎用・分野特化VLMを上回る精度と汎化性能を達成

9 関連研究 This image was generated by ChatGPT

関連研究 10 •汎用 VLM（Vision-Language Model） • VisualGPT・BLIP・Flamingo・Kosmos などで多モーダル理解（OCR／図表／動画）や音声・3D まで拡張。 •
ただしリモートセンシング（RS）の固有文脈である地理参照（座標・空間スケール）、分光情報、時系列の整合には弱い。 •地理空間（RS）向け VLM • RemoteCLIP：RS 画像‐テキスト対でコントラスト学習（ゼロショット分類・検索）。 • RS-GPT：EVA-CLIP＋Vicuna で caption/VQA は可能だが検出・グラウンディングに弱い。 • GeoChat／LHRS-Bot／SkyEyeGPT：高解像度 RS で領域理解・視覚グラウンディングを拡張。 • EarthGPT：光学・SAR・赤外を統合しマルチセンサを前進。 • 限界：多スペクトル（MS）の多様性、時系列、可変解像度への一般化が不十分。 •RS 向け指示データセット（Instruction Tuning） • GeoChat-Instruct／SkyEye-968k／RS5M：主に光学中心で大規模指示データを提供。 • MLLMs 系は光学・SAR・赤外のペアも提供するが、マルチ解像度／マルチスペクトル／マルチテンポラルの網羅性や応用多様性は不足。 • 近年は事実・欺瞞質問を含め内容を拡張する試みもあるが、統一的かつ大規模で RS の文脈複雑性（地理・分光・時間）を包括する指示データは未整備。 •本研究の位置づけ（EarthDial） • 約 1,100 万件の指示データで、光学／マルチスペクトル／SAR／赤外／時系列を単一枠組みに統合。 • 多様な RS タスク（分類・検出・領域説明・VQA など）へ広範に一般化することを目指す

関連研究 •各行＝データセット、Type＝対応センサー/モダリティ（Optical, SAR, S2=Sentinel-2, IR, NAIP など）、 #Samples＝規模。 •OS /
MS / MT / MR • OS: オープンソースか • MS: マルチスペクトル（RGB以外の波長を含む） • MT: マルチテンポラル（時系列） • MR: マルチ解像度（異なるGSD/解像度） •Tasks（右側の列群）—そのデータセットに学習/評価用アノテーションがあるタスクに ✓ が入る • IC: Image Captioning（画像キャプション） • RC: Region Captioning（領域キャプション） • VQA: Visual QA • SC / MLSC: シーン分類 / マルチラベル分類 • TSC (Temporal): 時系列シーン分類 • OD / VG: 物体検出 / ビジュアルグラウンディング • DA: 災害評価 • BTCD / MTCD: 2時期 / 多時期の変化検出 • M-TC: マルチタスク会話 • MPD / UHI / LCZ / TSC*: メタンプルーム / ヒートアイランド / ローカル気候帯 / 樹種分類 ※表では TSC が2回出てくるため、ここでは TSC (Temporal) と TSC*（Tree Species）で区別 •✓＝そのタスクをカバー、×＝未対応。既存のRS-VLMデータセットは光学中心・タスクが限定的なものが多いのに対し ,EarthDial-Instruct は規模・モダリティ・タスク多様性の3点で従来を大きく上回る。その結果、下流応用（検出/グラウンディング/時系列/物理タスク）まで一貫して学習・評価できる土台を提供。

12 EarthDialの仕組み This image was generated by ChatGPT

背景／課題 • 既存の汎用VLMや地理空間VLMは高分解能・マルチスペクトル・時系列を伴うRS画像の理解が不十分。 • 地理的・分光的・時間的コンテキストを同時に扱える統一モデルが必要。提案 • EarthDial-Instruct：解像度・地域の多様性を網羅した1,100万超の指示チューニングデータを新規構築。 • EarthDial：このデータで学習した、マルチ解像度×マルチスペクトル×マルチテンポラルを単一モデルで処理できる統一VLM
。 =>対応タスク：分類、VQA、領域グラウンディング、変化検出など広範。モデル設計 • InternVLを土台に、マルチスペクトル／時系列処理のための改良を追加。 3段階の学習レシピ 1. RS事前学習：RS特有の対話・記述に適応。 2. 段階的適応：RGB＋時系列画像でエンコーダ出力とLLMを下流タスク向けに整合。 3. 拡張ファインチューニング：マルチスペクトル＋SARを追加学習し適用範囲を拡大。 (Phi-3 miniとInternViT-6Bをバックボーンに、指示チューニング（SFT）→ 下流タスク微調整（LoRA）) 要点「大規模RS指示データ × 統一VLM」で、地理・分光・時間の三次元を同時に理解可能に。 EarthDial: リモートセンシング(RS)向けドメイン特化VLM

モデル（4B）：InternViT-300M → MLP → Phi-3-mini。 1つで多解像×多スペクトル×時系列のRSタスクを処理。高解像対応：動的タイル化 448×448 ＋サムネイル。
学習1–12枚／推論最大40枚で細部＋全体文脈。データ融合：3チャネルずつ反復でViT → AnyResでトークン縮約 → テキスト埋め込みと連結 → LLM。学習3段階：S1 RGB多解像で整合化 → S2（LLM+MLP中心）RGB＋時系列 → S3 MS/SAR拡張。 EarthDial: モデル設計

ステージ入力/モダリティ学習するブロック主なデータ/例目的 1 事前学習（RS会話）単画像 RGB
（Sentinel-2/Landsat/航空） ViT＋MLP＋LLM 全体 Satlas/Skyscript 等（計≈7.6M対）視覚と言語の整合・基礎表現の獲得 2 微調整（RGB＋時系列） RGB＋時系列（マルチタイム） LLM＋MLP 主体（ViT多くは凍結） EarthDial-Instruct （表2の指示データ群）指示追従と下流タスク：キャプション/分類/検出 /VQA/変化検出 3 微調整（ MS/SAR）マルチスペクトル(MS) / RGBI / SAR LLM＋MLP （ViTはStage1重み）＋Data Fusion 有効 MS・SAR指示データ多センサ対応の拡張： LCZ・樹種・メタン・UHI ・SAR船舶等 EarthDial: 3段階の学習

EarthDial: モダリティ整理(例:分類タスクでのRGB / マルチスペクトル / UHI・メタン) ①RGB（3ch） • 概要：自然画像と同じ可視光3バンド。 •代表データ：AID
/ UCM / WHU_19 / BigEarthNet_RGB（いずれも JPG 相当）。 • 得意な対象・課題：建物・道路・港・土地利用などのシーン分類、物体の形状・テクスチャが効くタスク。 • 前処理：ImageNet系正規化（reflectance スケール不要）。 • モデル：EarthDial_4B_RGB。 ②マルチスペクトル（MS：LCZs_S2 / TreeSatAI / BigEarthNet_S2） •概要：可視〜近赤外（NIR）中心の汎用MS。反射率差で植生・水域・裸地の識別が強い。 •代表データ / バンド： LCZs_S2：Sentinel-2 10バンド, TreeSatAI：RGB+NIR（4バンド）, BigEarthNet_S2：Sentinel-2 L2A 12バンド •得意な対象・課題：LCZ（都市気候区分）、樹種/植生、マルチラベルシーン分類、水域/土壌の識別。 •前処理：データセット毎の反射率正規化（s2_norm / tree_norm / s2_l2a など）。 •モデル：EarthDial_4B_MS（MS入力に合わせた学習）。 ③UHI・メタン系（STARCOP_test / UHI_test） •概要：RGBに物理量チャネルが加わる“特殊MS”。スペクトルだけでなく温度・濃度などの連続量を扱う。 •代表データ / バンド： • UHI_test：Landsat-8 8バンド（熱赤外 TIRS含む）→ 都市の暑熱評価。 • STARCOP_test：tif_pl（RGB/PL系）＋mag1c（メタン濃度指標）＝4バンド（元はHSI等だが、この評価セットは RGB+1ch に整形） •得意な対象・課題： • UHI：LST/NDVIに基づく暑熱クラス分類・原因説明。 • メタン：プルーム検出、位置特定、排出量推定。 •前処理：物理量に合わせた正規化（例：l8_norm＝反射率/温度、rgbm_norm＝RGBとメタンで別スケール）。 •モデル：EarthDial_4B_Methane_UHI（物理量チャネル・熱赤外分布に最適化）。

17 EarthDialデータセット This image was generated by ChatGPT

EarthDial: データセット目的 •多モダリティ・多解像度・多時系列のRS画像に対して、汎化する指示追従（QA）能力を大規模学習で付与。事前学習ソース & 生成 •ソース：SkyScript, SatlasPretrain（S2, S1(SAR),
NAIP, Landsat など＋ラベル）。 •生成：InternLM-XComposer2でラベル（点/ポリゴン/カテゴリ/位置）からQA指示を自動作成。 •品質管理：①ラベル数<3除外、②輝度/被覆率で雲・低被覆除去、③属性に基づくプロンプト設計。下流タスク向け指示データ •10タスク：分類、検出/参照表現/GRD、VQA、キャプション、変化検知、メタン、樹種、LCZ、UHI、災害評価。 •6視覚モダリティ：Optical RGB, SAR, S2, IR, NIR, Hyperspectral。 •2時系列モダリティ：Optical, SAR。代表的な設計例 •シーン分類：9標準＋多ラベル(BigEarthNet)＋時系列(FMoW, ≤4枚/系列)、LCZ・樹種(TreeSatAI-TS)。 • 検出/GRD：タグ{refer, identify, grounding}、属性{カテゴリ/色/相対位置/相対サイズ}、bbox=[xmin,ymin,xmax,ymax,θ]。 •VQA/Caption：6 VQA＋5 Caption データセット。 •変化検知：3二値CD＋MUDS（マスクを参照し各系列5キャプション生成）。 •メタン：STARCOP(HS) → 有無/位置/排出量を質問。 •UHI：S2/L8からLST/NDVIを計算し温度帯分類＋原因/緩和策。 •災害：xBD（前後RGB）＋QuakeSet（SAR）で被害/地震発生と規模。トークン例（条件付け） • センサー/モダリティ/解像度/時系列を明示：[s2 ms 30], [s1 vh 10], [changedet][hr rgb temp 0.5] など。

19 実験 This image was generated by ChatGPT

実験 20 評価範囲 •モダリティ：RGB／マルチスペクトル（MS, RGBI）／SAR／赤外／熱 •タスク：シーン分類・参照物体検出・リージョン説明・グラウンディング・画像キャプション・VQA・変化検出・メタン検出総評 •EarthDialは汎用/専門VLM（GPT-4o, InternVL2,
GeoChat等）を安定して上回る。 •AnyRes＋データフュージョンで高解像度・多バンド・時系列を一貫処理。代表的な成果 •マルチスペクトル分類：GPT-4o比 +32.5%（平均） •RGBI（TreeSatAI）：GPT-4o比 +40.2% •SAR系検出/グラウンディング：複数データセットでmAP上昇（Table 6–8） •画像キャプション／VQA：ROUGE/METEOR・精度ともに明確な上昇（Table 9–10） •変化検出：時系列トークン融合で既存VLMを上回る（Table 11） •xBD（災害・時系列）：画像分類/検出/参照検出など全サブタスクで優位（Table 12） •UHI（Landsat-8）：56.77% vs GPT-4o 22.68% •メタンプルーム（STARCOP, RGB+mag1c）：77.09% vs GPT-4o 40.93% •QuakeSet（SAR, 地震有無）：57.53% vs GPT-4o 55.86% ポイント •一つの4Bモデルでマルチ解像度×多バンド×時系列を対話的にカバー。 •実運用に近い災害・UHI・メタンなど物理量を含む課題でも効果大。

実験

実験(推論例)

25 アブレーション解析 This image was generated by ChatGPT

•検証軸 (1) 3段階事前学習（Stage1→3）／(2) マルチスペクトル融合（平均・最大・バイリニア） •段階学習の効果 GeoChat-Instruct 参照物体検出（Multiple）：[email protected] が約+5pt（事前学習なし比） → 複数対象の検出安定性が向上
•融合戦略の効果（MS分類） BigEarthNet-MS & TreeSatAI：バイリニア融合 → 平均/最大平均精度で約+10〜13% 改善（データセット横断） •MSの利得（RGB対比） BigEarthNet（MS版 vs RGB版）：+1.75pt 向上 → 追加バンドの相補情報を有効活用 •含意 AnyRes＋データフュージョンを前提に、段階的事前学習で表現を育てることが多バンド・時系列・多解像度タスクの汎化に直結アブレーション解析: 段階学習 x バンド融合の効き目

27 実際はどうなのか？ GPT5との比較 This image was generated by ChatGPT

実際にはどうなのか？GPT5と比較衛星: Harmonized Sentinel-2 MSI: MultiSpectral Instrument, Level-2A (SR) LON,
LAT = 138.5950, 35.4865 #富士の樹海 START, END = '2024-06-01', '2024-08-31' # 葉の茂る時期 CLOUD = 50 # 雲量許容（%） ROI_WIDTH_M = 1000 # 1 km 四方（樹種パッチなら 500～1500m が目安） FALSE COLOR画像を作成: B3:緑:=>青,B4:赤=>緑,B8:近赤外=>赤 GPT5 Instant, Thinkingは説明は詳しいが間違った回答を返した。ただしバンドと色のマッピングも PROMPTにいれてやれば正しい回答を返した

実際にはどうなのか？GPT5と比較衛星: Sentinel-1 SAR GRD: C-band Synthetic Aperture Radar Ground
Range Detected, log scaling LON, LAT = 139.85, 35.60 #東京湾 START, END = '2024-06-01', '2024-06-30' ORBIT = 'DESCENDING' POL = 'VH' EarthDIalは海としかかえさなかった。 GPT5 Instant, Thinkingは画像入力でフリーズスクショであげたら黒い画面に白ぼやけたものが表示されてますとの回答船からの反射信号が弱すぎて判別できなかった可能性あり

実際にはどうなのか？GPT5と比較衛星: USGS Landsat 8, 9 Level 2, Collection 2,
Tier 1, LON, LAT = 139.76, 35.68 #東京都心 WIDTH_KM = 40 #40km x 40km START, END = '2024-07-01', '2024-08-31’ ST10 熱赤外 GPT5 Thinkingは説明は詳しく丁寧ただし、写真をアップできなかったためスクリーンショットで対応

31 所感と実務への示唆 This image was generated by ChatGPT

所感と実務への示唆 •EarthDialはRS特化で強いが、フリーフォームQAはプロンプト設計次第（モダリティ/タスク指定が効く）。 •1画像=3ch固定。ただし CIR/SWIR/SAR/TIR など異なる3ch合成を複数枚入れて“多バンド相当”にできる。 •モダリティ・位置・季節・出力形式を明示すると、回答の安定度が大幅に上がる。 •汎用LLM（GPT系）でも、バンド名/合成方法をプロンプトに記すと説明精度は改善。 •RSの学習データでSFT+RoLAすれば、そのドメインでVLM自体の性能があがるのはあたり前な
気がするがVLMをRS分野に応用したことに意義があると自分は解釈 •衛星画像はたくさんのメタデータ（緯度経度、時期、バンド帯）があるのでそれらのメタデータも学習さるか、あるいは単純にRAGやPROMPTに注入すれば精度が飛躍的にあがるのではないか。逆に汎用VLMにそういったメタデータを追加学習もしくはプロンプト自動注入することで汎用VLMでも十分使えるものになる可能性はあるのではないか？ •統合的なものを１つ作るのがいいいのか、それどれのTASKに特化したものを最高精度を目指して作ったほうがいいのかというタスク別の選択も必要かもしれない。

33 まとめ This image was generated by ChatGPT

•EarthDial：地球観測（EO）向けの会話型VLM。複雑なマルチセンサ観測を自然言語対話に変換。 •入力対応：マルチ解像度／マルチスペクトル（RGB・S2・NIR・IR・SAR）／時系列を統一処理。 •タスク網羅：分類・検出・キャプション・VQA・視覚推論・グラウンディング・変化検出／災害評価。 •学習基盤：1,100万超の指示データで指示チューニング（多モダリティを包含）。 •性能：44の下流タスクで汎用／専門VLMを一貫して上回り、強い汎化を実証。 •時系列に強い：二時期・多時期の統合が得意で変化検出／災害評価に高い有効性。
•意義：EOの多様なモダリティを1つの対話モデルで横断処理 —EOタスク自動化の新しい標準へ。まとめ

35 補足情報 This image was generated by ChatGPT

1) Classification（シーン分類 / マルチラベル / 特殊分類）フォルダ上のデータセット論文上呼称モダリティ/
バンドバンド数・説明時系列 Classification/AID AID Optical（RGB） 3ch（可視：青/緑/赤）なし Classification/UCM UCMerced Optical（RGB） 3ch なし Classification/WHU_19 WHU-RS19 Optical（RGB） 3ch なし Classification/ BigEarthNet_RGB/ BigEarthNet_test BigEarthNet (RGB) Optical（RGB） 3ch なし Classification/ BigEarthNet_S2/ BigEarthNet_S2_Test BigEarthNet (MS) S2 マルチスペクトル 12ch（一般的に B01–B12 のうち B10 を除外： Coastal(443), Blue(490), Green(560), Red(665), RedEdge1(705), RE2(740), RE3(783), NIR(842), NIRn(865), WaterVapor(945), SWIR1(1610), SWIR2(2190) nm）なし Classification/LCZs_S2/ LCZs_S2_test So2Sat-LCZ42 S2 マルチスペクトル（上記 S2 と同様。論文では S2 Type）なし Classification/TreeSatAI/ TreeSatAI_test TreeSatAI （論文では RGBI） RGB+NIR 4ch（R,G,B,NIR）なし Classification/ STARCOP_test STARCOP（メタン） Hyperspectral （論文では 4ch運用） 4ch（RGB + Mag1c）＝RGBにメタン指標チャネル（ mag1c）を追加なし Classification/ UHI_temperature_landuse_test UHI （都市ヒートアイランド） Landsat-8 + S2 派生 L8: OLI/TIRS（NDVI: Red/NIR、LST: B10/11 など熱赤外）＋ S2でNDVI補助なし補足情報タスク別データセットリスト Table 5（TreeSatAI=RGBI, BigEarthNet=MS）、UHI は本文で「Landsat8 バンドから LST、S2/L8 から NDVI」を計算と記載。STARCOP は「RGB+mag1c の 4ch」を明示。

補足情報タスク別データセットリスト 2) Detection（物体検出系）フォルダ上のデータセット論文上呼称モダリティ/バンドバンド数・説明時系列 Detection/NWPU_VHR_10_tes
t NWPU VHR-10 Optical（RGB） 3ch なし Detection/Swimming_pool_ dataset_test Swimming Pool Optical（RGB） 3ch なし Detection/ship_dataset_v0_tes t SAR-Ship（相当） SAR 1ch（強度画像；一般にC-band想定）なし Detection/urban_tree_crown_ detection_test Urban Tree Crown Optical（RGB） 3ch なし Detection/Geochat_Bench GeoChat-Instruct （検出評価一式） Optical （高解像RGB中心） 3ch なし Table 6–8（検出/領域記述/グラウンディングで NWPU, Swimming Pool, Urban Tree Crown, SAR-Ship 等を使用） 3) Grounding Description（位置同定含む）フォルダ上のデータセット論文上呼称モダリティ/バンドバンド数・説明時系列 Grounding_description/ HIT_UAV_* HIT-UAV Infrared（熱赤外） 1ch（熱赤外）なし Grounding_description/ NWPU_VHR_10_grounding_te st NWPU VHR-10 Optical（RGB） 3ch なし Grounding_description/ Swimming_pool_dataset_ test_grounding Swimming Pool Optical（RGB） 3ch なし Grounding_description/ UCAS_AOD_test_grounding UCAS-AOD Optical（RGB） 3ch なし Table 8（Grounding Description）。HIT-UAV は赤外、他は光学。

補足情報タスク別データセットリスト 4) Region Captioning（領域キャプション）Table 7 フォルダ上のデータセット論文上呼称モダリティ/バンド
バンド数・説明時系列 Region_captioning/HIT_UAV_* HIT-UAV Infrared 1ch なし Region_captioning/ NWPU_VHR_10_test_region_captioning NWPU VHR-10 Optical（RGB） 3ch なし Region_captioning/ SRSDD_V1_0_region_captioning_test SRSDD-v1.0 SAR 1ch なし Region_captioning/ Swimming_pool_dataset_test_region_ captioning Swimming Pool Optical（RGB） 3ch なし Region_captioning/ UCAS_AOD_region_captioning UCAS-AOD Optical（RGB） 3ch なし Region_captioning/ ship_dataset_v0_region_captioning_test SAR-Ship （相当） SAR 1ch なし Region_captioning/urban_tree_crown_ detection_region_captioning Urban Tree Crown Optical（RGB） 3ch なし 5) Image Captioning（画像キャプション）Table 9 フォルダ上のデータセット論文上呼称モダリティ/バンドバンド数・説明時系列 Image_captioning/ NWPU_RESISC45_Captions_* NWPU-RESISC45 Captions Optical（RGB） 3ch なし Image_captioning/RSICD_Captions_* RSICD Captions Optical（RGB） 3ch なし Image_captioning/ RSITMD_Captions_test RSITMD Optical（RGB） 3ch なし Image_captioning/UCM_Captions_* UCM Captions Optical（RGB） 3ch なし Image_captioning/sydney_Captions/ sydney_Captions_test Sydney Captions Optical（RGB） 3ch なし

補足情報タスク別データセットリスト 6) Change Detection / Disaster Assessment（変化検出／災害評価・xBD系）フォルダ上のデータセット論文上呼称
モダリティ/バンドバンド数・説明時系列 Change_detection/DUBAICC/* Dubai-CC Optical（RGB） 3ch Bi-temporal Change_detection/LEVIRCC/* LEVIR-MCI Optical（RGB） 3ch Bi-temporal Change_detection/MUDS/* MUDS Optical（RGB） 3ch Multi-temporal（シーケンス） Change_detection/SYSU/* SYSU-CC Optical（RGB） 3ch Bi-temporal Change_detection/FMoW_RGB_Valid FMoW（Temporal Scene Cls.） Optical（RGB） 3ch Multi-temporal Change_detection/xBD/*（複数） xBD（災害評価） Optical（RGB） 3ch Bi-temporal（前後災） Table 11（Change Detection）と Table 12（xBD の各サブタスク）。MUDS は多時点、Dubai/LEVIR/SYSU/xBD は二時点。FMoW は Temporal Scene Classification として扱い 7) VQA（視覚質問応答）フォルダ上のデータセット論文上呼称モダリティ/バンドバンド数・説明時系列 VQA/RSVQA_LR RSVQA-LR（低解像） Optical系（論文は Optical Type）典型 3ch（RGB）※ なし VQA/RSVQA_HRBEN RSVQA-HRBEN Optical系（論文は Optical Type）典型 3ch（RGB）※ なしバンド S2 マルチスペクトル：AnyRes + Data Fusion で 3chずつViTに通しつつ統合（RE/NIR/SWIR を含む）→ 多バンド活用。 SAR：Sentinel-1 などの強度1ch を想定して統合（船舶検出・地震判定等）。 RGBI：高解像の RGB+NIR 4ch（TreeSatAI の樹種分類など）。 Hyperspectral（STARCOP）：本論文の利用は RGB+mag1c の4ch 構成でメタンプルーム有無/位置/排出量推定。 UHI：Landsat-8 の TIRS（B10/11）から LST、S2/L8 の Red/NIR から NDVI を導出して温度傾向を分類。

補足情報他のモデルとの比較

42 参考文献 This image was generated by ChatGPT

• Soni, S., et al. (2025). EarthDial: Turning Multi-sensory Earth
Observations to Interactive Dialogues. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). arXiv:2412.15190. https://arxiv.org/abs/2412.15190 • Bordes et al., 2024. “An Introduction to Vision-Language Modeling.” (https://arxiv.org/abs/2405.17247) • Klemmer et al., 2023. “SatCLIP: Global, General-Purpose Location Embeddings with Satellite Imagery.” (https://arxiv.org/pdf/2311.17179 ) • 石坂, 丞二. (2025). リモートセンシングデータ解析演習スライド. 民間における宇宙利用２週間上級コース, 2025年2月. • 宙畑【図解】衛星データの前処理とは~概要、レベル別の処理内容と解説~ (https://sorabatake.jp/9192/) 参考文献

EarthDial: Turning Multi-sensory Earth Observat...

EarthDial: Turning Multi-sensory Earth Observations to Interactive Dialogues

More Decks by SatAI.challenge

Other Decks in Research

Featured

Transcript