Slide 1

Slide 1 text

EarthDial:地球観測を“会話”に変える 新アプローチ Turning Multi-sensory Earth Observations to Interactive Dialogues フリーランサー 柴田たけお 1 Soni, S., et al. (2025). Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). arXiv:2412.15190. https://arxiv.org/abs/2412.15190

Slide 2

Slide 2 text

目次 2 ■ 自己紹介 ■ 研究の1ページサマリ ■ 研究の背景 ■ 関連研究 ■ EarthDialの仕組み ■ EarthDialデータセット ■ 実験 ■ アブレーション解析 ■ 実際はどうなのか?(GPT5との比較) ■ 所感と実務への示唆 ■ まとめ ■ 補足情報 ■ 参考文献

Slide 3

Slide 3 text

3 自己紹介 This image was generated by ChatGPT

Slide 4

Slide 4 text

柴田たけお フリーランサー 東北大学理学部、カリフォルニア大学バークレー大学院で地物専攻 その後IT業界で30年近くSYSTEM ENGINNERとしてシステム開発にかかわる。 現在はAIとGISやリモートセンシングを組み合わせたソリューションに興味あり 最近開発活動(POCも含む) ●衛星.GIS関連: 衛星画像LANDSATと統計データを利用した新潟県の収穫量予測, 物流の最適運搬システム ●一般AI関連: 開発実績: 音声特徴量での健康診断, 顔認証, 画像生成, 自動コード生成, END2ENDでのAI医療応用提案 ●その他: SNSのコメントと写真情報からの災害対応システム 自己紹介 Twitter LinkedIn 4

Slide 5

Slide 5 text

5 研究の1ページサマリ This image was generated by ChatGPT

Slide 6

Slide 6 text

EarthDial の1ページサマリ 6 •目的:複雑な地球観測(EO)データをVision-Language Model (VLM)で自然言語対話に変換 •対応データ:マルチスペクトル(RGB, SAR:(合成開口レーダー), NIR, 赤外線)、 マルチテンポラル(時系列)、マルチ解像度 •主な機能:分類、検出、キャプション生成、質問応答、 視覚的推論、ビジュアルグラウンディング、変化検出 •強み: • 既存汎用VLMより地球観測解析では高精度 • 解像度やセンサー種別に制限なし • 2時点・複数時点の時系列解析に対応 技術的特徴 •学習データ:1,111万以上の指示ペア(RGB, SAR, NIR, 赤外線) •モデル性能:44の下流タスクで既存汎用・分野特化VLMを上回る汎化性能

Slide 7

Slide 7 text

7 研究の背景 This image was generated by ChatGPT

Slide 8

Slide 8 text

研究の背景 8 •VLM(Vision-Language Model)の進化により、 分類・位置特定・VQA・カウント・推論・ ビジュアルグラウンディング等を単一モデルで実行可能に。 •しかし、汎用VLMはリモートセンシング(RS)データに弱く、 空間・スペクトル・時間の複雑性を十分扱えない。 •既存の地理空間VLMも解像度やセンサー種別が制限され、 マルチスペクトル・マルチテンポラル解析に非対応。 EarthDialの特徴 •初の統合型ドメイン特化VLM: マルチスペクトル(RGB, SAR, NIR, 赤外線)、 マルチテンポラル(2時点・多時点)、 マルチ解像度のEOデータを自然言語で解析。 •対応タスク:分類、検出、キャプション生成、VQA、 視覚的推論、ビジュアルグラウンディング、変化検出など。 •応用分野:環境モニタリング、災害対応、精密農業、都市計画、 インフラ管理、メタン検出など。 技術的貢献 •最大規模RS Instruction Tuning Dataset:1,111万ペア (RGB, SAR, NIR, 赤外線など複数モダリティ) •44種の下流EOタスクで既存汎用・分野特化VLMを上回る精度と汎化性能を達成

Slide 9

Slide 9 text

9 関連研究 This image was generated by ChatGPT

Slide 10

Slide 10 text

関連研究 10 •汎用 VLM(Vision-Language Model) • VisualGPT・BLIP・Flamingo・Kosmos などで多モーダル理解(OCR/図表/動画)や音声・3D まで拡張。 • ただし リモートセンシング(RS)の固有文脈 である 地理参照(座標・空間スケール)、分光情報、時系列 の整合には弱い。 •地理空間(RS)向け VLM • RemoteCLIP:RS 画像‐テキスト対でコントラスト学習(ゼロショット分類・検索)。 • RS-GPT:EVA-CLIP+Vicuna で caption/VQA は可能だが 検出・グラウンディングに弱い。 • GeoChat/LHRS-Bot/SkyEyeGPT:高解像度 RS で 領域理解・視覚グラウンディング を拡張。 • EarthGPT:光学・SAR・赤外を統合し マルチセンサ を前進。 • 限界:多スペクトル(MS)の多様性、時系列、可変解像度 への一般化が不十分。 •RS 向け指示データセット(Instruction Tuning) • GeoChat-Instruct/SkyEye-968k/RS5M:主に光学中心で大規模指示データを提供。 • MLLMs 系は光学・SAR・赤外のペアも提供するが、マルチ解像度/マルチスペクトル/マルチテンポラル の網羅性や 応用多様性は不足。 • 近年は事実・欺瞞質問を含め内容を拡張する試みもあるが、統一的かつ大規模で RS の文脈複雑性(地理・分光・時間)を 包括す る指示データは未整備。 •本研究の位置づけ(EarthDial) • 約 1,100 万件の指示データで、光学/マルチスペクトル/SAR/赤外/時系列を単一枠組みに統合。 • 多様な RS タスク(分類・検出・領域説明・VQA など)へ 広範に一般化することを目指す

Slide 11

Slide 11 text

関連研究 •各行=データセット、Type=対応センサー/モダリティ(Optical, SAR, S2=Sentinel-2, IR, NAIP など)、 #Samples=規模。 •OS / MS / MT / MR • OS: オープンソースか • MS: マルチスペクトル(RGB以外の波長を含む) • MT: マルチテンポラル(時系列) • MR: マルチ解像度(異なるGSD/解像度) •Tasks(右側の列群)—そのデータセットに学習/評価用アノテーションがあるタスクに ✓ が入る • IC: Image Captioning(画像キャプション) • RC: Region Captioning(領域キャプション) • VQA: Visual QA • SC / MLSC: シーン分類 / マルチラベル分類 • TSC (Temporal): 時系列シーン分類 • OD / VG: 物体検出 / ビジュアルグラウンディング • DA: 災害評価 • BTCD / MTCD: 2時期 / 多時期の変化検出 • M-TC: マルチタスク会話 • MPD / UHI / LCZ / TSC*: メタンプルーム / ヒートアイランド / ローカル気候帯 / 樹種分類 ※表では TSC が2回出てくるため、ここでは TSC (Temporal) と TSC*(Tree Species)で区別 •✓=そのタスクをカバー、×=未対応。 既存のRS-VLMデータセットは 光学中心・タスクが限定的 なものが多いのに対し ,EarthDial-Instruct は 規模・モダリティ・タスク多様性の3点で 従来を大きく上回る。 その結果、下流応用(検出/グラウンディング/時系列/物 理タスク)まで一貫して学習・評価できる土台を提供。

Slide 12

Slide 12 text

12 EarthDialの仕組み This image was generated by ChatGPT

Slide 13

Slide 13 text

背景/課題 • 既存の汎用VLMや地理空間VLMは高分解能・マルチスペクトル・時系列を伴うRS画像の理解が不十分。 • 地理的・分光的・時間的コンテキストを同時に扱える統一モデルが必要。 提案 • EarthDial-Instruct:解像度・地域の多様性を網羅した1,100万超の指示チューニングデータを新規構築。 • EarthDial:このデータで学習した、マルチ解像度×マルチスペクトル×マルチテンポラルを単一モデルで処理できる統一VLM 。 =>対応タスク:分類、VQA、領域グラウンディング、変化検出など広範。 モデル設計 • InternVLを土台に、マルチスペクトル/時系列処理のための改良を追加。 3段階の学習レシピ 1. RS事前学習:RS特有の対話・記述に適応。 2. 段階的適応:RGB+時系列画像でエンコーダ出力とLLMを下流タスク向けに整合。 3. 拡張ファインチューニング:マルチスペクトル+SARを追加学習し適用範囲を拡大。 (Phi-3 miniとInternViT-6Bをバックボーンに、指示チューニング(SFT)→ 下流タスク微調整(LoRA)) 要点 「大規模RS指示データ × 統一VLM」で、地理・分光・時間の三次元を同時に理解可能に。 EarthDial: リモートセンシング(RS)向けドメイン特化VLM

Slide 14

Slide 14 text

モデル(4B):InternViT-300M → MLP → Phi-3-mini。 1つで多解像×多スペクトル×時系列のRSタスクを処理。 高解像対応:動的タイル化 448×448 + サムネイル。 学習1–12枚/推論最大40枚で細部+全体文脈。 データ融合:3チャネルずつ反復でViT → AnyResでトークン縮約 → テキスト埋め込みと連結 → LLM。 学習3段階:S1 RGB多解像で整合化 → S2(LLM+MLP中心)RGB+時系列 → S3 MS/SAR拡張。 EarthDial: モデル設計

Slide 15

Slide 15 text

ステージ 入力/モダリティ 学習するブロック 主なデータ/例 目的 1 事前学習 (RS会話) 単画像 RGB (Sentinel-2/Landsat/航空 ) ViT+MLP+LLM 全 体 Satlas/Skyscript 等( 計≈7.6M対) 視覚と言語の整合・ 基礎表現の獲得 2 微調整 (RGB+時系列 ) RGB+時系列 (マルチタイム) LLM+MLP 主体 (ViT多くは凍結) EarthDial-Instruct (表2の指示データ群 ) 指示追従と下流タスク: キャプション/分類/検出 /VQA/変化検出 3 微調整( MS/SAR) マルチスペクトル(MS) / RGBI / SAR LLM+MLP (ViTはStage1重み) +Data Fusion 有効 MS・SAR指示データ 多センサ対応の拡張: LCZ・樹種・メタン・UHI ・SAR船舶 等 EarthDial: 3段階の学習

Slide 16

Slide 16 text

EarthDial: モダリティ整理(例:分類タスクでのRGB / マルチスペクトル / UHI・メタン) ①RGB(3ch) • 概要:自然画像と同じ可視光3バンド。 •代表データ:AID / UCM / WHU_19 / BigEarthNet_RGB(いずれも JPG 相当)。 • 得意な対象・課題:建物・道路・港・土地利用などのシーン分類、物体の形状・テクスチャが効くタスク。 • 前処理:ImageNet系正規化(reflectance スケール不要)。 • モデル:EarthDial_4B_RGB。 ②マルチスペクトル(MS:LCZs_S2 / TreeSatAI / BigEarthNet_S2) •概要: 可視〜近赤外(NIR)中心の汎用MS。反射率差で植生・水域・裸地の識別が強い。 •代表データ / バンド: LCZs_S2:Sentinel-2 10バンド, TreeSatAI:RGB+NIR(4バンド), BigEarthNet_S2:Sentinel-2 L2A 12バンド •得意な対象・課題:LCZ(都市気候区分)、樹種/植生、マルチラベルシーン分類、水域/土壌の識別。 •前処理:データセット毎の反射率正規化(s2_norm / tree_norm / s2_l2a など)。 •モデル:EarthDial_4B_MS(MS入力に合わせた学習)。 ③UHI・メタン系(STARCOP_test / UHI_test) •概要:RGBに物理量チャネルが加わる“特殊MS”。スペクトルだけでなく温度・濃度などの連続量を扱う。 •代表データ / バンド: • UHI_test:Landsat-8 8バンド(熱赤外 TIRS含む)→ 都市の暑熱評価。 • STARCOP_test:tif_pl(RGB/PL系)+mag1c(メタン濃度指標)=4バンド (元はHSI等だが、この評価セットは RGB+1ch に整形) •得意な対象・課題: • UHI:LST/NDVIに基づく暑熱クラス分類・原因説明。 • メタン:プルーム検出、位置特定、排出量推定。 •前処理:物理量に合わせた正規化(例:l8_norm=反射率/温度、rgbm_norm=RGBとメタンで別スケール)。 •モデル:EarthDial_4B_Methane_UHI(物理量チャネル・熱赤外分布に最適化)。

Slide 17

Slide 17 text

17 EarthDialデータセット This image was generated by ChatGPT

Slide 18

Slide 18 text

EarthDial: データセット 目的 •多モダリティ・多解像度・多時系列のRS画像に対して、汎化する指示追従(QA)能力を大規模学習で付与。 事前学習ソース & 生成 •ソース:SkyScript, SatlasPretrain(S2, S1(SAR), NAIP, Landsat など+ラベル)。 •生成:InternLM-XComposer2でラベル(点/ポリゴン/カテゴリ/位置)からQA指示を自動作成。 •品質管理:①ラベル数<3除外、②輝度/被覆率で雲・低被覆除去、③属性に基づくプロンプト設計。 下流タスク向け指示データ •10タスク:分類、検出/参照表現/GRD、VQA、キャプション、変化検知、メタン、樹種、LCZ、UHI、災害評価。 •6視覚モダリティ:Optical RGB, SAR, S2, IR, NIR, Hyperspectral。 •2時系列モダリティ:Optical, SAR。 代表的な設計例 •シーン分類:9標準+多ラベル(BigEarthNet)+時系列(FMoW, ≤4枚/系列)、LCZ・樹種(TreeSatAI-TS)。 • 検出/GRD:タグ{refer, identify, grounding}、属性{カテゴリ/色/相対位置/相対サイズ}、bbox=[xmin,ymin,xmax,ymax,θ]。 •VQA/Caption:6 VQA+5 Caption データセット。 •変化検知:3二値CD+MUDS(マスクを参照し各系列5キャプション生成)。 •メタン:STARCOP(HS) → 有無/位置/排出量を質問。 •UHI:S2/L8からLST/NDVIを計算し温度帯分類+原因/緩和策。 •災害:xBD(前後RGB)+QuakeSet(SAR)で被害/地震発生と規模。 トークン例(条件付け) • センサー/モダリティ/解像度/時系列を明示:[s2 ms 30], [s1 vh 10], [changedet][hr rgb temp 0.5] など。

Slide 19

Slide 19 text

19 実験 This image was generated by ChatGPT

Slide 20

Slide 20 text

実験 20 評価範囲 •モダリティ:RGB/マルチスペクトル(MS, RGBI)/SAR/赤外/熱 •タスク:シーン分類・参照物体検出・リージョン説明・グラウンディング・画像キャプション・VQA・変化 検出・メタン検出 総評 •EarthDialは汎用/専門VLM(GPT-4o, InternVL2, GeoChat等)を安定して上回る。 •AnyRes+データフュージョンで高解像度・多バンド・時系列を一貫処理。 代表的な成果 •マルチスペクトル分類:GPT-4o比 +32.5%(平均) •RGBI(TreeSatAI):GPT-4o比 +40.2% •SAR系検出/グラウンディング:複数データセットでmAP上昇(Table 6–8) •画像キャプション/VQA:ROUGE/METEOR・精度ともに明確な上昇(Table 9–10) •変化検出:時系列トークン融合で既存VLMを上回る(Table 11) •xBD(災害・時系列):画像分類/検出/参照検出など全サブタスクで優位(Table 12) •UHI(Landsat-8):56.77% vs GPT-4o 22.68% •メタンプルーム(STARCOP, RGB+mag1c):77.09% vs GPT-4o 40.93% •QuakeSet(SAR, 地震有無):57.53% vs GPT-4o 55.86% ポイント •一つの4Bモデルでマルチ解像度×多バンド×時系列を対話的にカバー。 •実運用に近い災害・UHI・メタンなど物理量を含む課題でも効果大。

Slide 21

Slide 21 text

実験

Slide 22

Slide 22 text

実験

Slide 23

Slide 23 text

実験(推論例)

Slide 24

Slide 24 text

実験(推論例)

Slide 25

Slide 25 text

25 アブレーション解析 This image was generated by ChatGPT

Slide 26

Slide 26 text

•検証軸 (1) 3段階事前学習(Stage1→3)/(2) マルチスペクトル融合(平均・最大・バイリニア) •段階学習の効果 GeoChat-Instruct 参照物体検出(Multiple):[email protected] が約+5pt(事前学習なし比) → 複数対象の検出安定性が向上 •融合戦略の効果(MS分類) BigEarthNet-MS & TreeSatAI:バイリニア融合 → 平均/最大 平均精度で 約+10〜13% 改善(データセット横断) •MSの利得(RGB対比) BigEarthNet(MS版 vs RGB版):+1.75pt 向上 → 追加バンドの相補情報を有効活用 •含意 AnyRes+データフュージョンを前提に、 段階的事前学習で表現を育てることが 多バンド・時系列・多解像度タスクの汎化に直結 アブレーション解析: 段階学習 x バンド融合の効き目

Slide 27

Slide 27 text

27 実際はどうなのか? GPT5との比較 This image was generated by ChatGPT

Slide 28

Slide 28 text

実際にはどうなのか?GPT5と比較 衛星: Harmonized Sentinel-2 MSI: MultiSpectral Instrument, Level-2A (SR) LON, LAT = 138.5950, 35.4865 #富士の樹海 START, END = '2024-06-01', '2024-08-31' # 葉の茂る時期 CLOUD = 50 # 雲量許容(%) ROI_WIDTH_M = 1000 # 1 km 四方(樹種パッチなら 500~1500m が目安) FALSE COLOR画像を作成: B3:緑:=>青,B4:赤=>緑,B8:近赤外=>赤 GPT5 Instant, Thinkingは説明は詳しいが 間違った回答を返した。ただしバンドと色のマッピングも PROMPTにいれてやれば正しい回答を返した

Slide 29

Slide 29 text

実際にはどうなのか?GPT5と比較 衛星: Sentinel-1 SAR GRD: C-band Synthetic Aperture Radar Ground Range Detected, log scaling LON, LAT = 139.85, 35.60 #東京湾 START, END = '2024-06-01', '2024-06-30' ORBIT = 'DESCENDING' POL = 'VH' EarthDIalは海としかかえさなかった。 GPT5 Instant, Thinkingは画像入力でフリーズ スクショであげたら黒い画面に白ぼやけたものが表 示されてますとの回答 船からの反射信号が弱すぎて判別できなかった可能 性あり

Slide 30

Slide 30 text

実際にはどうなのか?GPT5と比較 衛星: USGS Landsat 8, 9 Level 2, Collection 2, Tier 1, LON, LAT = 139.76, 35.68 #東京都心 WIDTH_KM = 40 #40km x 40km START, END = '2024-07-01', '2024-08-31’ ST10 熱赤外 GPT5 Thinkingは説明は詳しく丁寧 ただし、写真をアップできなかったためスクリーンショットで対応

Slide 31

Slide 31 text

31 所感と実務への示唆 This image was generated by ChatGPT

Slide 32

Slide 32 text

所感と実務への示唆 ●EarthDialはRS特化で強いが、フリーフォームQAはプロンプト設計次第 (モダリティ/タスク指定が効く)。 ●1画像=3ch固定。ただし CIR/SWIR/SAR/TIR など異なる3ch合成を 複数枚入れて“多バンド相当”にできる。 ●モダリティ・位置・季節・出力形式を明示すると、回答の安定度が大幅に上がる。 ●汎用LLM(GPT系)でも、バンド名/合成方法をプロンプトに記すと説明精度は改善。 ●RSの学習データでSFT+RoLAすれば、そのドメインでVLM自体の性能があがるのはあたり前な 気がするがVLMをRS分野に応用したことに意義があると自分は解釈 ●衛星画像はたくさんのメタデータ(緯度経度、時期、バンド帯)があるのでそれらのメタデータも 学習さるか、あるいは単純にRAGやPROMPTに注入すれば精度が飛躍的にあがるのではないか。 逆に汎用VLMにそういったメタデータを追加学習もしくはプロンプト自動注入することで 汎用VLMでも十分使えるものになる可能性はあるのではないか? ●統合的なものを1つ作るのがいいいのか、それどれのTASKに特化したものを 最高精度を目指して作ったほうがいいのかというタスク別の選択も必要かもしれない。

Slide 33

Slide 33 text

33 まとめ This image was generated by ChatGPT

Slide 34

Slide 34 text

•EarthDial:地球観測(EO)向けの会話型VLM。 複雑なマルチセンサ観測を自然言語対話に変換。 •入力対応:マルチ解像度/マルチスペクトル(RGB・S2・NIR・IR・SAR) /時系列を統一処理。 •タスク網羅:分類・検出・キャプション・VQA・視覚推論・グラウンディング・ 変化検出/災害評価。 •学習基盤:1,100万超の指示データで指示チューニング(多モダリティを包含)。 •性能:44の下流タスクで汎用/専門VLMを一貫して上回り、強い汎化を実証。 •時系列に強い:二時期・多時期の統合が得意で 変化検出/災害評価に高い有効性。 •意義:EOの多様なモダリティを1つの対話モデルで横断処理 —EOタスク自動化の新しい標準へ。 まとめ

Slide 35

Slide 35 text

35 補足情報 This image was generated by ChatGPT

Slide 36

Slide 36 text

1) Classification(シーン分類 / マルチラベル / 特殊分類) フォルダ上の データセット 論文上呼称 モダリティ/ バンド バンド数・説明 時系列 Classification/AID AID Optical(RGB) 3ch(可視:青/緑/赤) なし Classification/UCM UCMerced Optical(RGB) 3ch なし Classification/WHU_19 WHU-RS19 Optical(RGB) 3ch なし Classification/ BigEarthNet_RGB/ BigEarthNet_test BigEarthNet (RGB) Optical(RGB) 3ch なし Classification/ BigEarthNet_S2/ BigEarthNet_S2_Test BigEarthNet (MS) S2 マルチスペクトル 12ch(一般的に B01–B12 のうち B10 を除外: Coastal(443), Blue(490), Green(560), Red(665), RedEdge1(705), RE2(740), RE3(783), NIR(842), NIRn(865), WaterVapor(945), SWIR1(1610), SWIR2(2190) nm) なし Classification/LCZs_S2/ LCZs_S2_test So2Sat-LCZ42 S2 マルチスペクトル (上記 S2 と同様。論文では S2 Type) なし Classification/TreeSatAI/ TreeSatAI_test TreeSatAI (論文では RGBI) RGB+NIR 4ch(R,G,B,NIR) なし Classification/ STARCOP_test STARCOP(メタン) Hyperspectral (論文では 4ch運用) 4ch(RGB + Mag1c)=RGBにメタン指標チャネル( mag1c)を追加 なし Classification/ UHI_temperature_landuse_test UHI (都市ヒートアイランド) Landsat-8 + S2 派生 L8: OLI/TIRS(NDVI: Red/NIR、LST: B10/11 など熱赤 外)+ S2でNDVI補助 なし 補足情報 タスク別データセットリスト Table 5(TreeSatAI=RGBI, BigEarthNet=MS)、UHI は本文で「Landsat8 バンドから LST、S2/L8 から NDVI」を計算と記載。STARCOP は「RGB+mag1c の 4ch」を明示。

Slide 37

Slide 37 text

補足情報 タスク別データセットリスト 2) Detection(物体検出系) フォルダ上の データセット 論文上呼称 モダリティ/バンドバンド数・説明 時系列 Detection/NWPU_VHR_10_tes t NWPU VHR-10 Optical(RGB) 3ch なし Detection/Swimming_pool_ dataset_test Swimming Pool Optical(RGB) 3ch なし Detection/ship_dataset_v0_tes t SAR-Ship(相当) SAR 1ch(強度画像;一般にC-band想定) なし Detection/urban_tree_crown_ detection_test Urban Tree Crown Optical(RGB) 3ch なし Detection/Geochat_Bench GeoChat-Instruct (検出評価一式) Optical (高解像RGB中心) 3ch なし Table 6–8(検出/領域記述/グラウンディングで NWPU, Swimming Pool, Urban Tree Crown, SAR-Ship 等を使用) 3) Grounding Description(位置同定含む) フォルダ上の データセット 論文上呼称 モダリティ/バンドバンド数・説明 時系列 Grounding_description/ HIT_UAV_* HIT-UAV Infrared(熱赤外) 1ch(熱赤外) なし Grounding_description/ NWPU_VHR_10_grounding_te st NWPU VHR-10 Optical(RGB) 3ch なし Grounding_description/ Swimming_pool_dataset_ test_grounding Swimming Pool Optical(RGB) 3ch なし Grounding_description/ UCAS_AOD_test_grounding UCAS-AOD Optical(RGB) 3ch なし Table 8(Grounding Description)。HIT-UAV は赤外、他は光学 。

Slide 38

Slide 38 text

補足情報 タスク別データセットリスト 4) Region Captioning(領域キャプション)Table 7 フォルダ上の データセット 論文上呼称 モダリティ/バンド バンド数・説明 時系列 Region_captioning/HIT_UAV_* HIT-UAV Infrared 1ch なし Region_captioning/ NWPU_VHR_10_test_region_captioning NWPU VHR-10 Optical(RGB) 3ch なし Region_captioning/ SRSDD_V1_0_region_captioning_test SRSDD-v1.0 SAR 1ch なし Region_captioning/ Swimming_pool_dataset_test_region_ captioning Swimming Pool Optical(RGB) 3ch なし Region_captioning/ UCAS_AOD_region_captioning UCAS-AOD Optical(RGB) 3ch なし Region_captioning/ ship_dataset_v0_region_captioning_test SAR-Ship (相当) SAR 1ch なし Region_captioning/urban_tree_crown_ detection_region_captioning Urban Tree Crown Optical(RGB) 3ch なし 5) Image Captioning(画像キャプション)Table 9 フォルダ上の データセット 論文上呼称 モダリティ/バンド バンド数・説明 時系列 Image_captioning/ NWPU_RESISC45_Captions_* NWPU-RESISC45 Captions Optical(RGB) 3ch なし Image_captioning/RSICD_Captions_* RSICD Captions Optical(RGB) 3ch なし Image_captioning/ RSITMD_Captions_test RSITMD Optical(RGB) 3ch なし Image_captioning/UCM_Captions_* UCM Captions Optical(RGB) 3ch なし Image_captioning/sydney_Captions/ sydney_Captions_test Sydney Captions Optical(RGB) 3ch なし

Slide 39

Slide 39 text

補足情報 タスク別データセットリスト 6) Change Detection / Disaster Assessment(変化検出/災害評価・xBD系) フォルダ上のデータセット 論文上呼称 モダリティ/バンド バンド数・説明 時系列 Change_detection/DUBAICC/* Dubai-CC Optical(RGB) 3ch Bi-temporal Change_detection/LEVIRCC/* LEVIR-MCI Optical(RGB) 3ch Bi-temporal Change_detection/MUDS/* MUDS Optical(RGB) 3ch Multi-temporal(シーケンス) Change_detection/SYSU/* SYSU-CC Optical(RGB) 3ch Bi-temporal Change_detection/FMoW_RGB_Valid FMoW(Temporal Scene Cls.) Optical(RGB) 3ch Multi-temporal Change_detection/xBD/*(複数) xBD(災害評価) Optical(RGB) 3ch Bi-temporal(前後災) Table 11(Change Detection)と Table 12(xBD の各サブタスク)。MUDS は多時点、Dubai/LEVIR/SYSU/xBD は二時点。FMoW は Temporal Scene Classification とし て扱い 7) VQA(視覚質問応答) フォルダ上のデータセット 論文上呼称 モダリティ/バンド バンド数・説明 時系列 VQA/RSVQA_LR RSVQA-LR(低解像) Optical系(論文は Optical Type) 典型 3ch(RGB)※ なし VQA/RSVQA_HRBEN RSVQA-HRBEN Optical系(論文は Optical Type) 典型 3ch(RGB)※ なし バンド S2 マルチスペクトル:AnyRes + Data Fusion で 3chずつViTに通しつつ統合(RE/NIR/SWIR を含む)→ 多バンド活用 。 SAR:Sentinel-1 などの 強度1ch を想定して統合(船舶検出・地震判定等)。 RGBI:高解像の RGB+NIR 4ch(TreeSatAI の樹種分類など)。 Hyperspectral(STARCOP):本論文の利用は RGB+mag1c の4ch 構成でメタンプルーム有無/位置/排出量推定。 UHI:Landsat-8 の TIRS(B10/11) から LST、S2/L8 の Red/NIR から NDVI を導出して温度傾向を分類。

Slide 40

Slide 40 text

補足情報 他のモデルとの比較

Slide 41

Slide 41 text

補足情報 他のモデルとの比較

Slide 42

Slide 42 text

42 参考文献 This image was generated by ChatGPT

Slide 43

Slide 43 text

● Soni, S., et al. (2025). EarthDial: Turning Multi-sensory Earth Observations to Interactive Dialogues. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). arXiv:2412.15190. https://arxiv.org/abs/2412.15190 ● Bordes et al., 2024. “An Introduction to Vision-Language Modeling.” (https://arxiv.org/abs/2405.17247) ● Klemmer et al., 2023. “SatCLIP: Global, General-Purpose Location Embeddings with Satellite Imagery.” (https://arxiv.org/pdf/2311.17179 ) ● 石坂, 丞二. (2025). リモートセンシング データ解析演習スライド. 民間における宇宙利用2週間上級コース, 2025年2月. ● 宙畑 【図解】衛星データの前処理とは~概要、レベル別の処理内容と解説~ (https://sorabatake.jp/9192/) 参考文献