Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Remote sensing × Multi-modal meta survey

Avatar for SatAI.challenge SatAI.challenge
September 25, 2025

Remote sensing × Multi-modal meta survey

本資料はSatAI.challengeのサーベイメンバーと共に作成したものです。
SatAI.challengeは、リモートセンシング技術にAIを適用した論文の調査や、
より俯瞰した技術トレンドの調査や国際学会のメタサーベイを行う研究グループです。
speakerdeckではSatAI.challenge内での勉強会で使用した資料をWeb上で共有しています。
https://x.com/sataichallenge

本資料はリモートセンシングデータを用いたマルチモーダルAIに関する論文を複数まとめた、メタサーベイをまとめた資料です。

Avatar for SatAI.challenge

SatAI.challenge

September 25, 2025
Tweet

More Decks by SatAI.challenge

Other Decks in Research

Transcript

  1. Remote sensing × Multi-modal
 meta survey
 1 中村 凌、篠原 崇之、平出

    尚義、青木 亮祐、 嶌田 将貴、藤野 倫太郎、中田 和真、 柴田たけお、湯原 弘大 、修 浩毅、神山 徹 https://speakerdeck.com/satai
  2. 目次 
 2 • SatAI.challengeについて 
 • リモートセンシングデータ×マルチモーダルAI について 


    ◦ リモートセンシングデータについて 
 ◦ 近年のリモセンセンシングデータ×AIの研究について 
 ◦ マルチモーダルAIとは 
 ◦ リモートセンシングデータ×マルチモーダルAI論文の推移 
 ◦ リモートセンシング×マルチモーダルAI研究増加の考察 
 ◦ AIではないがリモセンではマルチモダリティを以前から活用されている 
 • サーベイを通しての気付き 
 ◦ Modelアーキテクチャーの種類、全タイプは計3種 
 ◦ 年代別リモートセンシング×マルチモーダル論文の分析 
 ◦ モダリティごとの強み 
 ◦ 高度毎のデータの強みの整理 
 • マルチモーダルAI技術の今後の発展で重要なこと 
 ◦ マルチモーダルAIの流行 
 ◦ 位置情報付きデータの充実化 
 ◦ 位置情報付きデータ×衛星データによる解けるタスクを探す 
 ◦ モデルの発展

  3. SatAI.challengeについて
 3 • SatAI.challengeはリモートセンシング技術にAIを適用した論文の調査や、より俯瞰した技術トレンドの調査 や国際学会のメタサーベイを行う研究グループです 
 • 「日本の衛星リモセン×AI業界のベースを引き上げ、リモセン技術を使う仲間を増やす 」ことを目標活動 しています


    • 上記の目標を達成するために、 
 ◦ (ベースを引き上げるために)国際会議に採択された最新の論文解説のアーカイブ化 
 ◦ チーム内で勉強会を実施し、質の高い国際会議に採択された最新の論文をボランティアで継続的に 提供することで、日本語の衛星リモセン×AI技術に触れやすくする 
 ▪ Speaker deckで資料の公開 
 ▪ Youtubeに勉強会の動画をアーカイブ化 
 資料の公開
 録画の公開

  4. SatAI.challengeについて
 4 • SatAI.challengeはリモートセンシング技術にAIを適用した論文の調査や、より俯瞰した技術トレンドの調査 や国際学会のメタサーベイを行う研究グループです 
 • 「日本の衛星リモセン×AI業界のベースを引き上げ、リモセン技術を使う仲間を増やす 」ことを目標活動 しています


    • 上記の目標を達成するために、 
 ◦ (リモセンxAIの仲間を増やす為に)作成した資料を用いて技術解説 
 ▪ CCCS2024、FOSS4Gでの技術解説を実施 
 4 CCCS2024
 での技術解説
 FOSS4G
 での技術解説
 より多くのリモセンデータを活用する仲間を増やすために 
 AIと衛星リモセン技術の解説をして欲しい方相談していただけると嬉しいです 
                                         *営利目的のコラボレーションは控えさせていただいております 

  5. • リモートセンシングに用いられるセンサにはいくつもの種類がある 
 • 光学センサ (受動型)
    太陽光の反射や放射を測るセンサ 
    Sentinel-2 (欧州)、

    Landsatシリーズ (米) など  
 
 
 
 
 
 
 
 • マイクロ波センサ (能動型)
    センサからマイクロ波を発射し、 
    対象から反射されたマイクロ波を測るセンサ 
    合成開口レーダ(SAR)ALOS-2/4 (日本) など 
    
 
 リモートセンシングデータについて:センサー技術とデータ
 8 RESTEC https://www.restec.or.jp/knowledge/sensing/sensing-2.html より引⽤ マイクロ波は雲を透過 
 するので、天候や時間 
 の影響が小さい。 
 可視光域のセンサでは、 RGB合成することでヒト の目で見たような画像と なる。
 対象地物により反射特性が異なるため、 
 複数の波長で観測することで対象を特定できる 

  6. • リモートセンシングに用いられるセンサにはいくつもの種類がある 
 • 航空機LIDARで取得した点群 
 • レーザを使ってセンサからの距離を測る 
 •

    3次元形状をXYZ座標を持つ点群として表現する 
 
 リモートセンシングデータについて: センサー技術とデータ
 9 A Review of Practical AI for Remote Sensing in Earth Sciences より引⽤ 3DDB Viewer https://www.digiarc.aist.go.jp/team/gsvrt/information/digiarch-3ddb-viewer.html/ より引用
  7. • リモートセンシングで取得されたデータは様々な分野の目的達成のために活用されている 
 
 リモートセンシングデータについて:センシングされたデータの応用分野
 10 A Review of Practical

    AI for Remote Sensing in Earth Sciences より引⽤ 農業(農作物の収量を把握) 漁業(⿂のいそうな海域を海⾯温度から把握) 森林監視 (CO2吸収量を把握) RESTEC https://www.restec.or.jp/service/ より引用 地盤沈下 (インフラ被害を把握) 防災(被災域を把握) 気象(気候変動を把握) 土地利用土地被覆分類 
   JAXA高解像度 
 土地利用土地被覆分類図 
 (2024JPN_v25.04) 
 https://www.eorc.jaxa.jp/ALOS/jp/dataset/l ulc/lulc_v2504_j.htm より引用

  8. • リモートセンシングデータの取得需要は年々増加・衛星の数も増加している 
 • 人工衛星の数が増加 
 • 複数の小型衛星で高頻度な観測 
 •

    過去のアーカイブ
 • データも増加
 • 一つの衛星でも数百TB/y 
 
 11 衛星の数 リモートセンシングデータの⼤規模化に伴いAIへの活⽤も期待されている https://www.sciencedirect.com/science/article/pii/S0167739X14002234#f000030 より引⽤ リモートセンシングデータ関連技術の動向:データの急増化に伴うAI技術への応用

  9. ICML2025 CVPR2025 WACV2025 ICLR2025 ICCV2025 • 大規模なリモートセンシングデータの活用は社会的に増加傾向 
 • 多数の論文と国際的なワークショップが開催されており社会的にも利活用方法の議論が行われて

    いる
 リモートセンシングデータ関連技術の動向:活発化するAI技術の議論
 12 AIxリモセン 論⽂数の急増 Wei Han. (2023), “A survey of machine learning and deep learning in remote sensing of geological environment: Challenges, advances, and opportunities”, ISPRS Journal of Photogrammetry and Remote Sensing, 2022 より引⽤
  10. • 代表的なコンピュータビジョン(CV)分野のタスクは以下に分類 
 近年のリモセンセンシングデータ×AIの研究について: 代表的なタスク紹介
 14 • 分類: 何が映っている? •

    物体検出: 何がどこに映っている? • インスタンスセグメンテーション: 対象物体の画素は? • セマンティックセグメンテーション: この画素は何? Accuracy Assessment in Convolutional Neural Network-Based Deep Learning Remote Sensing Studies—Part 2: Recommendations and Best Practices より引⽤
  11. • CV/AI x リモートセンシングの研究が急増 
 近年のリモセンセンシングデータ×AIの研究について: 代表的なタスク紹介
 15 超解像(低解像->高解像) Satellite

    Remote Sensing Grayscale Image Colorization Based on Denoising Generative Adversarial Network Deep learning-based building height mapping using Sentinel-1 and Sentinel-2 data - ScienceDirect Word2Scene: Efficient remote sensing image scene generation with only one word via hybrid intelligence and low-rank representation - ScienceDirect カラー化(白黒写真->カラー) 
 回帰(衛星画像->高さ推定) 
 画像生成(条件付きラベル->画像) 

  12. 近年のリモセンセンシングデータ×AIの研究について:話題のトピック
 16 • リモートセンシングデータ×AI研究の中でも近年はマルチモーダル化が促進 
 • CVのトップ会議であるECCVでは10/18本がマルチモーダルAI に関する論文が提案 
 •

    本メタサーベイではリモートセンシングデータを活用したマルチモーダルAIの動向を深め 
 • 日本コミュニティに技術の最新動向と深い洞察を提供 
 • 日本のリモートセンシングデータの活用に関する技術ベースラインの向上を図る 

  13. • マルチモーダルAIとは、マルチモダリティのデータを1つのAIモデルに入力するモデルのこと 
 • 対比的な言葉としてシングルモーダルAIがあるが、これは1つのモダリティを入力するモデルとして知られ ている
 • リモートセンシング分野でデータのセンシング方法やセンサーが異なればモダリティとしては別と認識され る傾向にある (cf.

    Li et al (2022)) 
 • リモートセンシングでは以下のようなタイプに分けられることが多い 
 • センサ:光学・SAR・熱赤外、レーザなど 
 • 解像度:UAV・航空写真・衛星画像など 
 • 衛星以外のデータ:地上写真・言語・センサデータ・GISデータ・音声など 
 マルチモーダルAIについて
 17 Li et al. (2022), “Deep learning in multimodal remote sensing data fusion: A comprehensive review より引用
  14. • 考察1:Transformer(attentionメカニズム)の登場によりモダリティの統合が容易になった 
 • 前提:2020年にVision Transformerが提案され、 Transformerが異なるモダリティのデータを扱えるモデルとして広く知 られた • 設計上の相性

    :Transformer は“最小の帰納バイアス”で設計でき、セット関数として扱えるため、画像・動画・テキスト・音声 といった異種モダリティを同じブロック構成で処理しやすい • 実践的な使われ方の整理 :ビジョンと言語のタスク(VQA、VCR、クロスモーダル検索、画像キャプションなど)に広く使われ ており、1本のTransformerで融合と各モダリティを別の Transformerで処理し、クロスアテンションで融合できる。 • 学習パラダイム :大規模マルチモーダルデータ上での自己教師ありの事前学習が有効で、得た表現を下流タスクに転移でき る
 
 リモートセンシング×マルチモーダルAI研究増加の考察
 19 João Daniel Silva et al. (2022), “Remote Sensing Visual Question Answering with a Self-Attention Multi-Modal Encoder”, GeoAI’22より引用 https://arxiv.org/pdf/2101.01169
  15. • 考察2:Self-supervised learning(SSL)技術の高度化 
 • 前提:Transformerの学習には大量のラベル付きデータが必要とされていたが、SSLの発展によりラベル 付きデータが無くとも高精度・学習効率(限られたデータで精度向上)が良い結果が得られるようになった 
 • 代表的な手法としてMasked

    Autoencoder(MAE)があり、この手法は教師を使用しないマルチモーダルAI の手法として広く知られてきている 
 リモートセンシング×マルチモーダルAI研究増加の考察
 20 Kaiming He et al. (2024), “Masked Autoencoders Are Scalable Vision Learner”, arXiv:2111.06377より引用 Masked Autoencoder 
 MMEarth
 OmniSat
 リモートセンシングデータの 
 マルチモーダルAIの学習にも活用されている 
 Vishal Nedungadi et al. (2024), “MMEarth: Exploring Multi-Modal Pretext Tasks For Geospatial Representation Learning”, ECCVより引用 Guillaume Astruc et al. (2024), “OmniSat: Self-Supervised Modality Fusion for Earth Observation”, ECCVより引用
  16. • 考察3:自然言語研究の増加・CLIPにより言語データの接続が可能に 
 • CLIPの登場によりそれぞれのモダリティデータを共通埋め込み空間への写像が可能になったことで、 言 語特徴空間の特性を画像認識に利用 ・画像の特性を言語タスクで扱う研究 が盛んになった
 •

    言語特徴空間の特性を画像認識に利用 :言語データの特性として意味が似ている単語が近くに写像さ れるような特徴空間を利用して、zero-shot分類の性能が向上 
 • 画像の特性を言語タスクで扱う研究 :言語データで質問を投げ、画像の特徴を考慮して、その返答を言 語データで返す論文が急増 
 リモートセンシング×マルチモーダルAI研究増加の考察
 21 CLIPの学習フレームワーク 
 言語を用いてその画像に何が 写っているのか認識可能に 
 リモートセンシングデータでもCLIP系列 の論文が急増
 Andy V Huynh et al. (2024), “Contrastive ground-level image and remote sensing pre-training improves representation learning for natural world imagery”, ECCV. より引用 Alec Radford et al. (2024), “Learning Transferable Visual Models From Natural Language Supervision”, arXiv:2103.00020 より引用 Konrad Heidler et al. (2023), “Self-supervised audiovisual representation learning for remote sensing data”, International Journal of Applied Earth Observation and Geoinformation. より引用 Yujiao Shi et al. (2024), “Weakly-supervised Camera Localization by Ground-to-satellite Image Registration”, ECCV. より引用
  17. • リモートセンシング×マルチモーダルAI関連の研究は近年増加傾向にあるが、リモートセンシング分野では異な るモダリティデータの活用は「データフュージョン」という研究分野として知られている 
 • データフュージョンとは、複数のデータソースから得られた形式や条件の異なるデータを統合し、分析可能な単 一のデータに加工する技術 
 • データフュージョンは、衛星データの場合だと以下の問題解決に活用される

    
 • ①衛星の空間分解能・波長分解能と時間分解能に起因するデータ量不足の解決 
 • ②天候によるデータ品質低下の解決 
 • ③観測対象の情報量不足の解決 
 
 
 データフュージョン技術の動向は マルチモーダルAI技術より緩や かに増加傾向にある 
 AIではないが衛星リモセンではマルチモダリティを以前から活用されている
 22
  18. • マルチモダリティのデータを扱うモデルは、以下のタイプに分けられる 
 • Early Multi-modal Fusion :入力時に異なるモダリティを入力するモデル 
 •

    Feature Multi-modal Fusion :異なるモダリティの中間特徴量を結合するモデル 
 • Late Multi modal Fusion :異なるモダリティのEncoderの最終出力以降の特徴量を結合するモデル 
 Modelアーキテクチャーの種類、全タイプは計3種
 24 Encoder
 Enc.
 Enc.
 Enc.
 +
 +
 +
 Encoder
 Encoder
 Early Multi-modal Fusion
 Feature Multi-modal Fusion
 Late Multi modal Fusion
 →以降のスライドで3つのタイプを解説 

  19. • 調査したEarly Multi-modal Fusionには、決定木モデルとTransformerモデルの2タイプが存在 
 • 決定木モデル:マルチモダリティデータを結合した1×n次元特徴量を作成、決定木へ入力 
 • Transformerモデルでは、異なるモダリティのデータを埋め込み空間へ写像し、Transformer

    encoderへ入 力
 • Early Multimodal Fusionの強み 
 • マルチモダリティのための大きなモデル改変を必要としないため実装がしやすい。 
 Deep learning 以外のモデルでもマルチモーダルAIが実装できる。 
 
 Modelアーキテクチャーの強み:Early Multi-modal Fusion
 25 Ji et al. (2024), “Benthic habitat sediments mapping in coral reef area using amalgamation of multi-source and multi-modal remote sensing data ”, Remote Sensing of Environment Volume 304, 1 April 2024, 114032より引用 João Daniel Silva et al. (2022), “Remote Sensing Visual Question Answering with a Self-Attention Multi-Modal Encoder”, GeoAI’22より引用 Fudong Lin et al. (2023), “MMST-ViT: Climate Change-aware Crop Yield Prediction via Multi-Modal Spatial-Temporal Vision Transformer ”, ICCV. より引用 決定木モデル
 Transformerモデル

  20. • Feature Multi-modal Fusionは、主にSemantic segmentationタスクのマルチモダリティとして使用されてい る
 • U-Net構造のskip構造の知見に基づいてFeature Multi-modal Fusionは発展している

    
 Modelアーキテクチャーの強み:Feature Multi-modal Fusion
 26 Wang et al. (2024), “Cross-Modal Segmentation Network for Winter Wheat Mapping in Complex Terrain Using Remote-Sensing Multi-Temporal Images and DEM Data”, Remote Senging 16 (10)より引用 Wang et al. (2024), VITReg: Vision Transformer-Based Unsupervised Remote Sensing Image Registration with an Adaptive Similarity Measure ”,Sensors, 2024より引用 Kan Wei et al. (2024), “MGFNet: An MLP-dominated gated fusion network for semantic segmentation of high-resolution multi-modal remote sensing images”, International Journal of Applied Earth Observation and Geoinformationより引用 Liu et al. (2024), “A Transformer-based multi-modal fusion network for semantic segmentation of high-resolution remote sensing imagery ”, International Journal of Applied Earth Observation and Geoinformation Volume 133, September 2024, 104083より引用
  21. • モデルタイプ以外にもマルチモーダルAIの活用タイプとして以下の2種類が存在 
 • 1 既存のタスク精度を向上することを目的とするマルチモーダルAI 
 ◦ シングルモーダルだと認識できないパターンをマルチモダリティで解消 


    • 2 衛星画像と地上データとの組み合わせにより新たなタスクを解くことを目的とするマルチモーダルAI 
 ◦ マルチモダリティの組み合わせだから認識できるタスクを定義 
 
 
 衛星データ × マルチモーダルAIの種類2タイプ
 27 位置・時間・衛星画像見合わせることで 
 画像駆動型交通モデリングを提案 
 LULCの性能を向上するための 
 マルチモダリティ学習の提案 

  22. 29 • シングルモダリティだと解けなかったタスクをマルチモダリティの利用で解けるようにする取り組み 
 • 衛星画像のみだけだとタスクは成立しないが、他の情報を加えることでタスクを作ることができる 
 • 研究事例
 •

    地上画像と衛星画像を用いて植生分布の推論 
 • 衛星画像とスピード、位置を用いて画像からの交通モデリング 
 • 地上画像と航空写真との組み合わせで地上画像からの位置推定 
 
 
 衛星画像と地上データとの組み合わせにより新たなタスクを解くことを目的としたマルチモーダルAI 
 植生分布
 交通モデリング
 ストリートビュー画像 
 から位置推定

  23. • 分析可能な投稿された論文のモダリティの割合を計 算・利用されているモダリティを可視化 
 • 1位:Optical(RGB)
 • 2位:SAR
 • 3位:マルチスペクトル(NIRなどのRGB以外)


    • 4位:DEM/DSM
 (3D modelやLiDAR、Vegitation heightも高さ情報)
 • 5位:Meta-data(緯度経度、時間など)
 • Top5はリモセンならでは
 • それ以外にも「言語」、「ストリートビュー画像」、
 「Audio」、「物体画像」などの変数も活用
 
 
 年代別リモートセンシング×マルチモーダル論文の分析
 31
  24. 木に影がかかっている場合 などの認識も難しい 
 モダリティ毎の特徴:Optical (可視光域) 
 • 豊富なデータ資源があるためデータが無償出公開されており利用がしやすい 
 •

    リモートセンシングデータ×マルチモーダルAIで使用率1位 
 • ランドサットやMODIS、Sentinel-2をはじめとする多くの衛星光学データが無償で公開 
 • 人間の視覚に近い自然な画像であるため視認と解釈がしやすいため教師データが作成しやすい 
 • 空間解像度を上げれば詳細な物体を認識できる 
 • 苦手とされる特性:撮影環境によって視認性が低くなるという問題 
 • 雲があると認識できない 
 • 影があると色が変わって認識が難しくなる 
 • 夜だと認識が難しいなど 
 
 
 32 土地被覆の認識
 Xionga et al. (2023), “Gamus: A geometry-aware multi-modal semantic segmentation benchmark for remote sensing data”,arXiv 2023より引用 影による影響例
 Konrad Heidler et al. (2023), “Self-supervised audiovisual representation learning for remote sensing data”, International Journal of Applied Earth Observation and Geoinformation. より引用
  25. • 全天候型であること。観測時の雲や煙といった天候要因に左右されづらい。 
 • 昼夜観測できること。自らマイクロ波を照射する能動型のセンサのため、太陽光が不要である。 
 • 偏波(Polarimetry)による散乱機構の分解 
 •

    センサにも依るが、異なる偏波成分 (HH/HV/VH/VV) を取得できる場合はこれらを用いて4散乱メカニズム (表面散 乱/二回散乱/体積散乱/ヘリックス散乱) に分解することができる。 
 これにより、同程度の強度値を持つ対象でも散乱特性の違いから識別ができるようになる。 
 • 干渉SAR
 • 同地域を観測した2つのSARデータの位相情報を干渉させることで 
 得られる位相差を活用し、この期間に生じた地表面の変動をとらえる。 
 
 
 
 
 
 モダリティ毎の強み:SAR (Synthetic Aperture Radar, 合成開口レーダ)
 33      4散乱メカニズム https://satpf.jp/spf_atl/article/view/177 より引用         干渉 SAR 国土地理院:https://www.gsi.go.jp/uchusokuchi/gsi_sar_faq1.html より引用
  26. モダリティ毎の強み:Optical (近赤外、多波長分光)
 34 • 近赤外 (NIR) 
 • 波長としては 約

    0.7~1.0 μm 程度。植物の葉が強く反射する特性があり、植生の有無や活性度の 
 把握に有効。
 
 • 短波長赤外 (SWIR) 
 • 波長としては 近赤外より少し長い 約 1.0~2.5 μm 程度。水分吸収に敏感で植生や土壌・雪氷の 
 含水状態や鉱物の識別に有効。 
 
 • ハイパースペクトル 
 • 100~数百のbandで可視・近赤外領域をイメージング分光する。対象物の性質・物性を示す反射スペクトルを広範囲 の波長帯で連続的に得ることができる。 
 HISUIプロジェクト:https://www.hisui.go.jp/ より引用 経済産業省が開発・運用をしている 
 ISS搭載のハイパースペクトルセンサ HISUI 
 
 植物 (9月の水稲) のスペクトルを例に、 
 マルチスペクトルセンサとハイパースペクトルセンサの 
 反射スペクトルの違いを示している。(右図) 
 
 通常のマルチスペクトルセンサ搭載衛星は10 band 程度であるが、 
 HISUIは185 band を搭載し、より細かい情報を取得できる。 

  27. モダリティ毎の強み:高さ情報(DEM/DSM、LiDER、3d-model)
 35 • 高さ・三次元構造情報 
 • 面的な色などの情報に高さ情報を加えるとで高さのボリュームを認識できる 
 • 人工物・自然物の構造把握がしやすくなる

    
 • 地形・地貌の理解(傾斜や地形的文脈の提供 
 • DEMから派生計算できる傾斜角、方位(斜面の向き)、曲率などの地形指標は、土地の形状や地質構造 が認識できるため谷の位置抽出や水の流れる経路の推定などに活用可能 
 • 陰影・照明影響の補足とロバスト性 
 • 光学画像は太陽光の角度によって山陰や建物の陰影が生じ、これが時に有用な手掛かりになる一方で 解析を混乱させる要因に 
 • を用いると地形や建物による陰影領域をシミュレーションでき、画像中の陰影を補正・除去したり利用した りすることが可能
 
 
 土砂崩壊地の予測
 Fan Yang et al. (2023), “Estimation of Landslide and Mudslide Susceptibility with Multi-Modal Remote Sensing Data and Semantics: The Case of Yunnan Mountain Area”, Land 2023より引用 土地被覆土地利用の
 分類精度向上
 Liu et al. (2024), “A Transformer-based multi-modal fusion network for semantic segmentation of high-resolution remote sensing imagery ”, International Journal of Applied Earth Observation and Geoinformation Volume 133, September 2024, 104083より引用
  28. • 画像に現れにくい意味情報(スケール・季節性・地理性)を“明示変数”として与えられる 
 • 位置情報をエンコードすることで地理的一般化が行われ性能が改善 
 ◦ SatCLIP は場所エンコーダで広範な下流タスクを改善し、遠隔地域への一般化も向上 


    • 位置(GPS)という連続空間上のメタデータをギャラリー化すれば、負例サンプリングを座標から均一抽出 するだけで大量に用意可能 
 ◦ GeoCLIP は画像↔GPSの整合でこの性質を活かし、効率的な対照学習を実現 
 • 時空間キーで“自動ペアリング”ができ、マルチモーダル前処理の人手コストを激減 
 • MMEarth は地球規模でほぼ人手ゼロのペアリングにより、マルチモーダル自己教師タスクを多数組み合 わせた事前学習で性能・ラベル効率を高めた 
 モダリティ毎の強み:Meta-data
 36 位置情報を利用して地理性の認識向上 
 Vicente Vivanco Cepeda et al. (2023), “GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization”, arXivより引用 時間情報等のデータ利用 
 により季節性の認識向上
 Vishal Nedungadi et al. (2024), “MMEarth: Exploring Multi-Modal Pretext Tasks For Geospatial Representation Learning”, ECCVより引用
  29. 高度のセンシングごとのデータ利点の整理
 37 • リモートセンシング×マルチモーダルAIでは、データ毎の強みを理解することが大事 
 • 人工衛星画像を用いて詳細な情報を認識するには高度の低いデータを適切な利用することが大事 
 
 


    人工衛星
 航空機
 UAV(ドローンなど) 
 車両・三脚など
 高度
 範囲
 高い
 低い
 広範囲
 局所的
 データの種類
 認識しやすい物体
 大きな物体
 湖や建物、道路 etc. 
 小さな物体
 人、車、動物 etc. 

  30. マルチモーダルAI x リモートセンシングの現状について
 39 • マルチモーダル基盤モデルxリモートセンシングのキーワードで検索 
 • 2025年8月までに出版された論文が2024年の研究よりも多い(予測値では2倍) 


    • 2025年の夏に、Google, Mataなどがマルチモーダルな事前学習済みモデルを公開している 
 • 単なるマルチモーダルな深層学習モデルから基盤モデルの構築へ流行が移りつつある 
 
 DINOv3 by meta https://ai.meta.com/blog/world-resources-insti tute-dinov3/ AlphaEarth by Google https://deepmind.google/discover/blog/alphaearth-foundat ions-helps-map-our-planet-in-unprecedented-detail/ 実績
 予測

  31. 日本と世界とのマルチモーダルAIの距離感について:ワークショップ観点
 40 • CV系のリモートセンシングワークショップではマルチモーダルAIが投稿されている 
 • 日本勢は全然いない。。! 
 
 


    https://terrabytes-workshop.github.io/#schedule https://www.grss-ieee.org/events/earthvision- 2025/?tab=program ICML2025のワークショップ
 CVPR2025のワークショップ

  32. 日本と世界とのマルチモーダルAIの距離感について:公開モデル観点
 41 • 現状(世界) • マルチモーダルなリモートセンシング向けの深層学習モデルが増えており、特にマルチモーダルな基盤モ デルが急増。 • 多くは 海外(NASA/ESA/中国等)が主導し、Landsat/Sentinel

    等の大規模公開データに偏重。 • ギャップ(日本) • 日本の衛星データはマルチモーダル基盤モデルへの学習データへの組み込みが限定的。 • モデルの知識に日本のデータが反映されにくいため、ファインチューンの効果が限定的。 • 日本の衛星データの例 • ALOS-2/4(だいち):L-band(植生透過)/200km観測幅×約3m級の広域高分解能。 • ASNARO-1/2:0.5m光学/〜1m X帯SARの小型高性能、夜間・雲下の都市監視に有効。 • GCOM-C「しきさい」・GOSAT「いぶき」:環境・気候指標に強い分光チャネル。 • AW3D:グローバルDSM(詳細地形)で幾何一貫性を提供。 • なぜ日本のデータを入れたマルチモーダル基盤モデルが重要か(モデル側の効用) • 波長・分解能・観測条件の多様化 → 外挿性・ロバスト性向上(災害・林業・地盤・夜間 /悪天候)。 • 地域バイアスの緩和 → 日本域での精度・運用実効性が向上、世界的にも汎化を後押し。
  33. 日本と世界とのマルチモーダルAIの距離感について:日本でできること
 42 • 学習済みのマルチモーダル基盤モデルが多数公開されている 
 • ファインチューニングで少量の教師データでも高性能を達成できる可能性が示されている 
 • フィンチューニングしなくても、ゼロショットでもそこそこ性能が出る

    
 • ラベル作成やデータセット作成のノウハウが蓄積され成功の可能性が上がっているので、 
 参入障壁が下がっているまずはやってみることが重要 
 
 Yuo and Yao Remote-sensing Foundation Model for Agriculture: A Survey より引用 第⼀歩として学習済み基盤モデルに⾃分のデータを⼊れてみよう
  34. 位置情報付きデータの充実化
 43 位置情報を持つデータであれば 
 統合がしやすい
 位置情報がないデータは
 リモセンデータと統合しにくい
 • マルチモーダルAIの促進には「位置という情報を用いて異なるモダリティに共通項を作る」ことが大事 


    • 逆を言うと位置情報が共通じゃなければ(現段階では)リモセンのマルチモーダルAIの構築は難しい
 • 様々なモダリティのデータに位置情報を付与することでリモートセンシング×マルチモーダルAIの
 価値が広がることが期待できる
 
 
 航空
 写真 衛星
 画像
 点群データ
 GISデータ
 マルチ
 モーダル
 統合
 言語
 音声
 写真
 時系列データ
 地上のデータの例
 明示的な
 位置がない
 位置がないのでリモートセンシングデータと 
 紐付けたマルチモーダル解析ができない 

  35. 位置情報が整備された場合に解決が促進そうな課題
 44 • 現状、リモートセンシングのマルチモーダルAIの一つで、画像と地上写真の紐付けがされている 
 • 地上写真では、撮影地点のポイントや撮影角度・日時などと衛星画像を組み合わせた 
 マルチモーダルAIが構築できる 


    • このように、リモートセンシングデータと紐付けるテキスト・写真・音声などに対して、 
 位置情報を付与すると、従来では解けなかったタスクにも挑戦できる 
 • ドキュメントデータ
 ◦ 行政文書+位置情報、帳票+位置情報 
 • 人・社会に関するデータ 
 ◦ SNS投稿写真+位置情報、ユーザ属性+モバイルGPSログ 
 • 環境や生態系に関するデータ 
 ◦ 生物の観測データ+位置情報、環境音+位置情報 
 • インフラ・空間情報
 ◦ 建物情報+位置情報、CADデータ+位置情報 
 • センサ・IoT由来のデータ 
 ◦ 振動データ+位置情報、監視カメラ+位置情報 
 
 位置情報を各モーダルでどう統⼀的に扱うかが重要な観点になる
  36. 位置情報付きデータの充実化において大事な工夫
 45 1. 情報を機械判読可能にする(構造化 & ジオコーディング) 
 紙やPDFなど機械判読できないが、住所などが記載されている情報はたくさんある 
 また、“住所”はコンピュータにとって扱いにくい情報であるため、

    
 緯度経度などに直すことで、位置情報付きデータの充実化が図れる 
 国内の取り組み例) Project LINKS, CSISアドレスマッチングサービス など 
 
 2. 機械判読可能なデータを連携できる形にする(共通キーの付与) 
 位置情報付きのデータであっても、同じ場所なのかを同定することは難しい 
 そのため、共通のIDなどを付与することで、同じ場所の様々なモダリティのデータを 
 取得することが容易になり、マルチモーダルAIの構築が行いやすくなる 
 共通IDの例)H3 index、空間ID、不動産IDなど 
 1. 
 
 機械が判読可能な情報として保存しておく
 共通キーが開発されればデータの連携がしやすくなる
 https://www.ipa.go.jp/digital/architecture/Individual-link/nl10bi000000377d-att/ 4dspatio-temporal-id-guideline.pdf より引用

  37. モデルの工夫:性能の高いシングルモーダルのモデルをレゴのように
 47 • 性能の高いシングルモーダルのモデルをレゴのように組み合わせマルチモーダルモデルを構築 
 • マルチモーダルAIの課題としては、大規模なマルチモダリティの位置と時間が揃ったペアデータセットの 用意が困難である点 
 •

    近年「MM-Lego」という論文が提案されており、この論文では、事前学習済みのシングルモーダルエン コーダーを組み合わせてマルチモーダルモデルをzero-shotまたはFew-shotで構築する技術 
 • モデルの活用はInputデータに依存していたが、レゴのような目的に合わせた組み合わせも大事 
 
 
 データ整備も同様にマルチモーダルAIに向けたモデル整備も重要に Konstantin Hemker et al. (2025), “Multimodal Lego: Model Merging and Fine-Tuning Across Topologies and Modalities in Biomedicine”, ICLRより引用
  38. 中村 凌 株式会社天地人 / SatAI.challenge 主宰 / cvpaper.challenge HQ •

    株式会社天地人データサイエンティスト (2024/04 - 現在) • SatAI.challenge 主宰(2024/09 - 現在) • cvpaper.challenge HQ(2021/1 - 現在 ) • 福岡大学大学院 理学研究科 応用数学専攻 博士課程(2021/04 - 2024/03) • 産業技術総合研究所 コンピュータビジョンチーム RA(2021/05 - 2024/03) • 福岡大学大学院 理学研究科 応用数学専攻 修士課程(2019/04 - 2021/03) 自己紹介 (Meta survey project manager) Twitter LinkedIn 49 これまでの活動 • 研究効率化Tips (ViEW2021招待講演) • 国際会議への論文採択実績(IROS / ICCV 2023, ICASSP / ECCV2024) • CCCS,W2021/2022 General・Program Chair(登録者800名超え) • SSII2023オーディエンス賞受賞 • ICCV2024・CVPR2024 Workshop (LIMIT)の運営実績
  39. 湯原 弘大 株式会社アークエッジ・スペース 自己紹介 Twitter 51 経歴など サグリ株式会社 -> 株式会社アークエッジ・スペース

    農業リモートセンシングに興味あり、リモートセンシング関わり始めたのは ここ5年前から 現職ではWEBバックエンド、機械学習関連を兼任で担当しています STAC API利用してプラットフォーム開発が現在メインの業務です。 資格など 最近取得しました→ 生成AIへの理解を、リモートセンシングの親和性を探るため取得 AWS Certified Machine Learning Engineer も取得に向け勉強中
  40. 53 自己紹介
 平出 尚義 (ひらで なおよし) 
 
 ・一般財団法人 リモート・センシング技術センター

    (RESTEC) 
 ・筑波大学大学院 博士課程後期1年 (社会人D) 
 ・産業技術総合研究所 技術研修員 
 
 テーマ ・国/地域レベルでの土地利用土地被覆分類 
     ・衛星の校正検証 
     ・衛星データ×AI系 
 JAXA土地利用土地被覆図 
 リンク:https://www.eorc.jaxa.jp/ALOS/jp/dataset/lulc_j.htm 
 校正検証業務 (ジオメトリック) 

  41. 青木 亮祐(ぴっかりん) • 株式会社パスコ 研究開発センター ◦ 地理空間情報×AIで色々行ったり、その環境整備 • Project PLATEAU

    ADVOCATE 2025 • 一般社団法人OSGeo日本支部( OSGeo.JP ) 運営委員 自己紹介 54 X(旧Twitter) GitHub 過去に個人で行った衛星データ関連の発表
 個人開発したPLATEAU APIのMCPサーバー

  42. 57 中田 和真 所属:山口大学 情報認識工学研究室 D3 研究テーマ:機械学習による超音波画像を用いた肝硬変の検出 その他活動: • 2024年度 山口大学

    SPRINGスカラシップ研究学生 • 第23回 IEEE広島支部学生シンポジウム 運営 • cvpaper.challenge コラボ AI論文解説 自己紹介
  43. 藤野 倫太郎 東京理科大学大学院 創域理工学専攻 社会基盤工学研究科 修士1年   - 東京理科大学 水理研究室所属   - AcademiX(AIを学びたい学生が集まるコミュニティ)の運営メンバー   - 未踏アドバンス(2023)

    野球の動作解析アプリの開発 研究テーマ :河川橋梁洗掘(実験・混相流の数値計算) 自己紹介 58 興味のある分野:数値計算         人工知能全般(距離学習、GNN、サロゲートモデル) リモートセンシング(ハイパースペクトル等)
  44. 柴田たけお フリーランサー 東北大学理学部、カリフォルニア大学バークレー大学院で地物専攻 その後IT業界で30年近くSYSTEM ENGINNERとしてシステム開発にかかわる 現在はAIや数理最適化とGISやリモートセンシングを組み合わせたソリューションに 興味あり 最近開発活動( POCも含む) •衛星.GIS関連:

    衛星画像LANDSATと統計データを利用した新潟県の収穫量予測, 物流の最適運搬システム •一般AI関連: 音声特徴量での健康診断, 顔認証, 画像生成, 自動コード生成, END2ENDでのAI医療応用提案 •その他: SNSのコメントと写真情報からの災害対応システム 自己紹介 59
  45. • クロスモーダルなリモートセンシング検索(RSCR)では、2つのモダリティでの検索に重点を置くが、ドメインが増 えるト意味的ギャップの拡大とペアデータの少なさとの間の矛盾によりモデルはモダリティの良い表現を獲得で きなくなる。
 • そこでこの論文では、GANの理論を組み込み、3つのモダリティを識別が難しくなるようにmodelを Multi-source Triplet Loss (画像・テキスト・音声の距離を最適化)、

    Uinmodal Contrast Loss (単一モダリティ内の不変的表現 を獲得)、Semantic Consistency Loss (すべてのモダリティで意味敵意完成を保証)で学習することでMCRNを 構築した。
 61 多モダリティを一括で扱う RS 検索ネットワークを初めて体系的に提案 
 Zhiqiang Yuan et al. (2022), “MCRN: A Multi-source Cross-modal Retrieval Network for remote sensing”, International Journal of Applied Earth Observation and Geoinformation より引用 MCRN: A Multi-source Cross-modal Retrieval Network for remote sensing 

  46. 62 • リモートセンシング画像の視覚的質問応答(VQA)の従来手法は畳み込みエンコーダーとリカレントエンコーダー ・デコーダーの設計に従っている。 
 • しかし、他のモダリティのVQA領域はTransformerアーキテクチャーに基づくマルチモーダルエンコーダーを採用 されてされており、これはself-attention機構を持っている。 
 •

    この論文では、self-attention機構がリモートセンシングVQAにおいて、上浦井手法に比べてどの程度改善をも たらすことができるかを評価。 
 • 従来のモデル構造より高精度であり、低解像度画像でも高精度、画像パッチと質問トークンを同一の Transformerでエンコードするためself-attentionが同時に学習し、推論・説明力が向上した。 
 リモートセンシングVQAにおいてself-attentionの有効性を示した研究 
 João Daniel Silva et al. (2022), “Remote Sensing Visual Question Answering with a Self-Attention Multi-Modal Encoder”, GeoAI’22より引用 Remote Sensing Visual Question Answering with a Self-Attention Multi-Modal Encoder 

  47. MultiSenGE : A MULTIMODAL AND MULTITEMPORAL BENCHMARK DATASET FOR LAND

    USE/LAND COVER REMOTE SENSING APPLICATIONS 
 63 • 解像度10mのSentinel 1 (SAR), Sentinel 2(光学)のセットに、解像度50m相当のセグメンテーションマップ(土地利 用・土地被覆図: LULC)を組み合わせたデータセット。過去に提案されていたSEN12MSではLULCは解像度500m で衛星画像との直接的な比較は難しかった。 
 • NN?で解像度10mにそろえ、256 x 256 pixelサイズの8,157のパッチを整備 
 • 
 MultiModal(SAR+光学)かつMutliTemporalな衛星画像と 
 良好な解像度のセグメンテーションマップを組み合わせたデータセットを作成 
 R. Wegner et al. (2022), “MULTISENGE : A MULTIMODAL AND MULTITEMPORAL BENCHMARK DATASET FOR LAND USE/LAND COVER REMOTE SENSING APPLICATIONS”, ISPRS Ann. Photogramm. Remote Sens. Spatial Inf. Sci.. より引用 MultiSenGE SEN12MS Sentinel2 Sentinel1 LULC Sentinel2 Ground Truth Unet (test) Multi-temporal: Georeference 情報を付記しユーザーが自身で準備できるように 
 Unetで[IR,R, B] vs [IR,R, B+Index] => [IR, R, B]のほうが良い学習
  48. Machine Learning in Pansharpening: A Benchmark, from Shallow to Deep

    Networks 
 64 • リモートセンシング分野では、高解像なパンクロマティック画像と、低解像な多バンド画像を組み合わせて、高解 像なカラー画像を作成するパンシャープニング処理が行われている 
 • 深層学習を用いたパンシャープニング処理を行う場合、一般的にはパンクロマティック画像と多バンド画像を深 層学習モデルを入力して画像変換タスクとして解きます 
 • 統一的に機械学習ベースのパンシャープニング処理を評価するためにデータセットを構築して公開した 
 パンシャープニングを機械学習で実行・評価するためのデータセットを構築 
 L. -j. Deng et al. (2022), “Machine Learning in Pansharpening: A benchmark, from shallow to deep networks”, MGRSより引用 深層学習によるパンシャープニング処理の例 パンシャープニング処理
  49. MSCDUNet: A Deep Learning Framework for Built-Up Area Change Detection

    Integrating Multispectral, SAR, and VHR Data 
 65 • 高解像度画像に中分解能画像を組み合わせるとより高精度な変化検知が可能。このアイデアを基に「Build-up area」に着目した新規データセットを整備。 
 • 3つの異なる衛星(高分解能:GF-2, SAR: Sentinel1, マルチバンド: Sentinel2)の画像から場所をそろえて変化の 前・後のパッチを切り出し、変化ラベルを付与したデータセット(MSBC、MSOSCD)を整備。 
 • 異なる画像種別の情報をFeatureで統合するU-Net+Siamese構造モデルにより変化検知タスクをテスト、単一の 高解像度画像を用いた検知より複数衛星画像を組み合わせた方が高精度となることを確認。 
 源泉が異なる(SAR/光学, 異なる解像度)が、同じ場所で2時期の画像をそれぞれ そろえ、新規建築を検知するタスクの学習に役立つデータセットを作成 
 H. Li et al. (2022), “MSCDUNet: A Deep Learning Framework for Built-Up Area Change Detection Integrating Multispectral, SAR, and VHR Data”, IEEE., JSTARS より引用
  50. A Dataset for Burned Area Delineation and Severity Estimation from

    Satellite Imagery 
 66 • Sentinel-2 L2AおよびSentinel-1 衛星画像を用いて、異なる土壌タイプをカバーする5つの異なるヨーロッ パ諸国にまたがる合計73地域(2017年6月から2019年7月まで)を対象としたラベル付きデータセット。 • データをロードしてベースラインの深層学習モデルを適用可能。 • データ収集が不完全な製品や欠損情報を返す場合があるため、利用可能なすべてのデータには、無効なピクセ ル値を示すバイナリカバレッジマスクで覆っている。 • 異なる地域の焼けた地域を同じ尺度で計算可能な ”NBR2”をするには十分な情報量が必要であるが [1]、この データセットを用いれば計算可能である。 • セグメンテーションタスクと焼けた地域の区画化最先端の性能を示した。 焼けた地域の区画化タスクと被害深刻度の推定タスクに使用できるオープンな データセットを作成 
 Luca Colomba et al. (2022), “A Dataset for Burned Area Delineation and Severity Estimation from Satellite Imagery”, CIKM '22: The 31st ACM International Conference on Information and Knowledge Management. より引用 データセットの対象エリア 欠損情報を含む Sentinel-2 RGB画像(左)とそれ に対応する有効性マスク(右) NBR2指数における焼けた地域と未焼けた地域のピクセル分布。濃い曲線は無傷の地域を、明るい曲線は焼けた地域を表す。 [1]Federico Filipponii. 2018. BAIS2: Burned area index for Sentinel-2. Multidisciplinary digital publishing institute proceedings 2, 7 (2018), 364
  51. Towards Space-to-Ground Data Availability for Agriculture Monitoring 
 67 •

    EU地域において、広大な土地での農業を安全・持続可能にするために、CAP補助金が導入されており、 
 分配をデータに基づいて行う必要性があった 
 • Sentinel 画像(10-60m分解能)では精度が不十分なため、google streetやLPISデータセットなど地上で撮影した 画像データセットを利用し、マルチモーダルによるラベル情報(草原や穀物の種類)の高精度化を提案 
 • データセット作成に使用したデータは地理情報が含まれているため、それらを統合 
 ◦ 地上での撮影画像はアングル情報をもとにSentinel 画像とのラベルを統合 
 ◦ クラスタリング・PCA により、Sentinel や LPIS データセットの荒いラベル情報を多量の地上撮影画像へ高 精度に伝搬させた
 宇宙と地上の異なるモダリティで作成されたデータを統合した 
 農業用データセット作成 
 George Choumos et al. (2022), “Towards Space-to-Ground Data Availability for Agriculture Monitoring”, IEEE IVMSP 2022. より引用 宇宙からの⇨
 センシング
 地上からのセンシング⇨
 (位置情報を付加した
 写真共有サービス、
 クラウドソーシング方式)

  52. 68 • 既存 RGB + 高さ (DSM) データセットは 小規模・単一都市で多様性不足、手法比較が困難なので 


    新しく広域なベンチマークデータを構築 
 • CNN & Transformer 手法 × 4種類の 融合戦略 (Early / Middle/ Late) を同一条件で評価し、単モーダルよりも 融合する方が良い性能を示し、さらにLate-fusionが一番良い性能を示した 
 • クロスアテンションを使う場合には、2つのモーダルを仲介するようなトークンを経由させると 
 計算コストを下げつつ高性能になる 
 巨大なRGB+DSMデータのベンチマークを公開 
 Xionga et al. (2023), “Gamus: A geometry-aware multi-modal semantic segmentation benchmark for remote sensing data ”,arXiv 2023より引用 Gamus: A geometry-aware multi-modal semantic segmentation benchmark for remote sensing data 
 データセット
  53. 69 • 深層学習×リモートセンシングの手法は発災済みの災害は検出できても、新規災害場所の予測は難しい。 
 • 衛星データは光学 (Geofen-6, 0.8m)/ SAR (ALOS-2/PALSAR-2,

    TerraSAR-X)/DEM (AW3D)である。光学 +DEMでCNNを用いた土砂崩壊地予測精度が27% (a)、SARを追加した精度が46% (b)であった。 
 • 本論文ではさらに、Semanticsと呼ばれる地形分類 (地滑りの種類、時期、大きさ、形状、岩質、植生情報、地形 の傾斜角) をProtegeというツールでオントロジーとして構造化することで衛星では見えない 
    特徴を学習させた。その結果、土砂崩壊地予測精度は85%以上となった (d) 。 
 
 光学、SAR、DEMに加えて、Semantics (メタ情報) を加えることで従来の手法では 捉えられない地すべり・土石流を精度良く予測することを提案 
 Fan Yang et al. (2023), “Estimation of Landslide and Mudslide Susceptibility with Multi-Modal Remote Sensing Data and Semantics: The Case of Yunnan Mountain Area”, Land 2023より引用 Estimation of Landslide and Mudslide Susceptibility with Multi-Modal Remote Sensing Data and Semantics: The Case of Yunnan Mountain Area 

  54. MDAS: A New Multimodal Benchmark Dataset for Remote Sensing 


    70 • エリア:Ausgberg, Germany. 時期:2018年5月7日 
 • 5つのモダリティを提供 
 • super resolution、spectral unmixing、land cover classificationの三つのタスクで代表的な手法をMDAS上で検証 
 SAR、マルチスペクトル、ハイパースペクトル、DSM、GISデータを含むマルチモー ダルデータセットMDASを作成 
 Hu et al. (2023), “MDAS: A New Multimodal Benchmark Dataset for Remote Sensing”, Earth System Science Data. より引用 図表など

  55. MMST-ViT: Climate Change-aware Crop Yield Prediction via Multi-Modal Spatial-Temporal Vision

    Transformer 
 • 作物の生育は生育期の天候変動や気候変動の影響を受けやすいため、作物の収量をタイムリーに予測するこ とは依然として困難
 • そこで、DLベースの手法として Multi-Modal Spatial-Temporal Vision Transformer(MMST-ViT)を提案し、生育期の 短期的な気象変動と長期的な気候変動が作物に及ぼす影響を考慮することで、全米の郡レベルの作物収量を事前予 測を行う • また、作物データ、タイムリーな気象データ、Sentinel2のデータを用いたTiny Cropを用いて学習 
 • 広範囲の実験の結果、提案法は関心のある3つの性能指標において、同等モデルを上回った。 
 71 タイムリーな作物・気象データ・Sentinel2を用いて作物の収穫量を予測モデルを提案 
 Fudong Lin et al. (2023), “MMST-ViT: Climate Change-aware Crop Yield Prediction via Multi-Modal Spatial-Temporal Vision Transformer ”, ICCV. より引用
  56. Sparse Multimodal Vision Transformer for Weakly Supervised Semantic Segmentation 


    72 • ViTベースモデルで特徴抽出における各MHSA(Multi Head Self Attention)に対してGating unitsを乗算することで、 ラベル分類に重要でないヘッドをpruning 
 これにより、パラメータのスパース性を確保し、分類に重要な特徴のみ抽出を可能にした 
 • 領域分割では、pruningされていないヘッドをk-meansでクラスタリング 
 各クラスタの平均画像を2値化し、入力画像をマスクする(pseudomask作成) 
 さらに、pseudomaskを教師とし、Unetを学習することで、領域分割を可能にした 
 • 2つのSAR画像データによるマルチモーダルな学習で、一般の教師あり学習Unet と同等の領域分割 
 精度を達成
 Jo¨elle Hanna et al. (2023), “Sparse Multimodal Vision Transformer for Weakly Supervised Semantic Segmentation”, IEEE CVPRW 2023. より引用 画像単位のラベル情報から、地表のセグメンテーションを行う弱教師あり学習手法 

  57. RemoteCLIP: A Vision Language Foundation Model for Remote Sensing 


    73 • 既存の17のデータセットを使用 
 • 種類の違うアノテーションをCLIPが学習できるimage-caption形式に変換し統一 
 • 新しい物体カウント用データセットRemoteCountを作成 
 • リモートセンシング用の基盤モデルRemoteCLIPを提案 
 • 16のデータセット上でベースラインの基盤モデルより高精度 
 • 12のタスクでオリジナルのCLIPより平均6.39%の性能向上 
 既存の衛星とUAV画像のデータセットを利用しリモセン版のCLIPを提案 
 Liu et al. (2024), “RemoteCLIP: A Vision Language Foundation Model for Remote Sensing”, IEEE TGRS. より引用
  58. Bridging Remote Sensors with Multisensor Geospatial Foundation Models 
 74

    会議 : CVPR 2024
 著者 : Boran, Han et al.
 
 • 同一地点の各センサーの情報を補完的に活用 できるマルチセンサー(RGB, SAR, Sentinel-2, DSM)基盤モデルを構築。シングル・マルチセン サータスクに適用可
 • データセットは既存のpaired/unpairedデータセッ トを組み合わせたハイブリッド(2M) 
 • 画像レベル、ピクセルレベル、生成タスクで SoTA
 • マルチセンサー表現は自然画像から蒸留する よりもscratchでトレーニングした方が高精度 
 Han et al. (2024), “Bridging Remote Sensors with Multisensor Geospatial Foundation Models”, CVPR 2024. より引用
  59. 75 • 物体検出では、異なるセンサーモダリティのデータセット毎に物体検出モデルを構築するが、この方法はマルチ モダリティ間で共有される知識が考慮されず、より多様なシナリオへのモデルの適用性が制限されるという課題 がある
 • 本論文ではM2Detと呼ばれるRGB・SAR・IRなど異なるセンサモダリティと、水平/回転バウンディングボックスと いう複数のアノテーション形式を統一モデルで同時に検出可能にするタスクを導入している 
 •

    Grid-LevelのMixture of Expertを用いることでグリッドの特徴ごとに動的に処理することでモダリティ間の知識と 固有表現を同時に獲得する 
 • SAR、光学、赤外のデータセットを統合し、シングルモダリティより精度向上 
 マルチモーダルなデータを用いた物体検出タスク・モデルの提案 
 Yuxuan Li et al. (2024), “SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection”, arXivより引用 SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection 

  60. Robust registration of multi-modal remote sensing images based on 


    multi-dimensional oriented self-similarity features 
 76 マルチモーダルリモセン画像の自己相似性を用いた登録方法の提案 
 Yongjun Zhang et al. (2024), “Robust registration of multi-modal remote sensing images based on multi-dimensional oriented self-similarity features”, International Journal of Applied Earth Observation and Geoinformationより引用 • マルチモーダルリモートセンシング画像(MRSI)の位置合わせ(登録)は、異センサーやデータを揃える上で不可 欠だが、信号対雑音比の差や非線形放射歪み(NRD)に起因する幾何的不変性 とマッチング精度 のトレード オフが大きな障壁となっている 
 • この論文では、MOSS(多次元指向性自己相似特徴)と呼ばれる複数角度と、多次元のチェンネルの自己自己 相似性を捉えることで、異モダリティ画像間でも高精度位置合わせができることがわかった。 
 • この方法により、放射歪みやノイズが異なる光学・SAR画像でも、自己相似パターンを捉えることで、信頼できる 対応点を得られる点が示された 

  61. • ドローンに搭載されたRGB、マルチスペクトル、サーマル赤外線から構成される7種類の入力の組み合わせを構 築して5 cm/10 cm/20 cm/40 cm深度の土壌水分を予測土壌水分量を予測 
 • 土壌水分量の予測には、CNN,LSTM,およびCNNとLSTMを組み合わせた新規ハイブリッドモデル

    (CNN-LSTM)を使用 
 • RGB + マルチスペクトル + サーマル赤外融合モデルが最高精度を示し,単一センサーではマルチスペクトルが最 も良好モデル精度は5 cm深度で最も高い 
 Estimation of soil moisture in drip-irrigated citrus orchards using multi-modal UAV remote sensing 
 77 RGB、近赤外、熱赤外のマルチモダリティデータを用いて土壌水分量を予測 
 Zongjun Wu et al. (2024), “Estimation of soil moisture in drip-irrigated citrus orchards using multi-modal UAV remote sensing”, Agricultural Water Managementより引用
  62. DMEと光学データのマルチモダリティデータを活用した冬小麦検出モデルの提案 
 78 • 食料として重要度の高い『冬小麦』の分布を正確に知ることは、食料の安定供給の点から重要 
 • 冬小麦の圃場サイズは地形によって大きく影響を受けることから、検出モデルも地形を加味する必要 
 •

    DEMと光学を組み合わせ、地形の影響を行旅したマルチモーダルな冬小麦の検出モデルを提案 
 Wang et al. (2024), “Cross-Modal Segmentation Network for Winter Wheat Mapping in Complex Terrain Using Remote-Sensing Multi-Temporal Images and DEM Data”, Remote Senging 16 (10)より引用 Cross-Modal Segmentation Network for Winter Wheat Mapping in Complex Terrain Using Remote-Sensing Multi-Temporal Images and DEM Data 

  63. 79 • 衛星データのデータセットは存在するが、様々な天候や地上分解能、土地被覆、センサ、テキストを 
 横断して集めている公開データセットが無いため、多様な衛星画像を生成するのに課題があった 
 • 既存の9つの衛星データセットを収集し標準化を行った後に、既存のImage-to-Textモデル等による 
 キャプション生成、既存手法を用いた異なる天候の画像の生成、画像の性質を用いた様々な

    
 地上解像度の画像を作成することで、様々な条件の衛星データを含むデータセットを作成した 
 • 作成したデータセットを用いてStable Diffusion 1.5のファインチューニングを行い 
 既存の拡散モデルによる生成結果と比べることで、精度が向上していることを確認できた 
 様々な天候や地上分解能、土地被覆、センサ種類を含むデータセット 
 および画像生成のベンチマークを提案 
 Jialin Luo et al. (2024), “MMM-RS: A Multi-modal, Multi-GSD, Multi-scene Remote Sensing Dataset and Benchmark for Text-to-Image Generation”, NeurIPS 2024より引用 MMM-RS: A Multi-modal, Multi-GSD, Multi-scene Remote Sensing Dataset and Benchmark for Text-to-Image Generation 

  64. • MGFNetは異なるモダリティを扱うために ①マルチパス特徴抽出ネットワーク、②チャネルアテンションとゲート融合を組み合 わせたMLPゲート融合(MGF)モジュール、③デコーダから成り、空間情報を保持しつつ補完的特徴を効果的に抽出する設計 となっている
 • 論文では、「YESeg-OPT-SAR」と呼ばれる、空間分解能0.5 mの高解像度マルチモーダルリモセンデータセットを公開 
 •

    Pohangデータセットとともに最先端手法と比較評価を行い、精度向上を確認した。 
 • 光学画像が持つ色・テクスチャ情報と、SAR画像が持つ構造・形状情報(かつ全天候取得可能な点)を併用することで、単一 モダリティでは捉えきれない特徴を補完的に学習できるのが強みである 
 80 光学画像とSAR画像でセマセグタスクを解くMGFNetとデータセットを提案 
 Kan Wei et al. (2024), “MGFNet: An MLP-dominated gated fusion network for semantic segmentation of high-resolution multi-modal remote sensing images”, International Journal of Applied Earth Observation and Geoinformationより引用 MGFNet: An MLP-dominated gated fusion network for semantic segmentation of high-resolution multi-modal remote sensing images 

  65. 81 • ViTモデルを自己教師あり学習(SSL)でBigEarthNetデータセット上で事前学習し、マルチスペクトル(MS)と合成 開口レーダー(SAR)の二種類のリモートセンシングデータを対象にしたマルチモーダル融合について研究 
 • モーダル内およびモーダル間の情報流を制御するゲート付き融合ユニット(MGSViT)を導入し、各モダリティの 重要特徴を選択的に抽出・統合する仕組みを提案 
 •

    MSは地表物質の反射・放射特性の微妙な違いを捉えられ、さまざまな地物の識別に有用で、SARは雲や光条 件に左右されずに観測でき、地表の粗さや構造的特徴を反映する情報を取得可能であることが利点であること がわかった
 光学とSARを統合するためのフレームワークの提案 
 Na Liu et al. (2024), “Multi-label remote sensing classification with self-supervised gated multi-modal transformers”, Frontiers in Computational Neuroscience Volume 18 - 2024より引用 Multi-label remote sensing classification with self-supervised gated multi-modal transformers 

  66. Ticino: A multi-modal remote sensing dataset for semantic segmentation 


    82 • 空間解像度・波長解像度の異なる複数の画像情報や、DTM・土地被覆マップを統一的に登録した、セグメンテー ションモデルのためのリモートセンシングデータセット 
 
 Mirko et al. (2024), “Ticino: A multi-modal remote sensing dataset for semantic segmentation”, Expert Systems with Applications 249 (2024): 123600より引用 マルチモーダルデータを利用した土地被覆タスクのsegmentation データセットを作成 

  67. 83 • DSM (高さ) を光学衛星画像に加えたマルチモーダル解析は有効だが, 
 モダリティ間の位置ずれと小物体の詳細欠落がボトルネック。 
 • MMformerとBRAFMを取り入れたTMFNet

    を提案 
 ◦ MMformer:クロスモーダルアテンションとセルフアテンションで特徴を融合 
 ◦ BRAFM: 浅い層と深い特徴の差分を取り「境界トークン」を抽出。 
 • ISPRS ベンチマーク(Vaihingen & Potsdam) でSOTA 
 RGB画像とDSMの高さ情報をTransformerで融合し、Sem.Seg.の性能向上 
 Liu et al. (2024), “A Transformer-based multi-modal fusion network for semantic segmentation of high-resolution remote sensing imagery ”, International Journal of Applied Earth Observation and Geoinformation Volume 133, September 2024, 104083より引用 A Transformer-based multi-modal fusion network for semantic segmentation of high-resolution remote sensing imagery 
 MMformer
  68. 84 • 珊瑚礁域の海底堆積物(生物破砕物・砂・岩礁・固いサンゴ礁)を高精度かつ広域に分類・マッピングする手法 を提案
 • 54 次元特徴(スペクトル18+ALB波形27+地形9)を作成し、LightGBMで分類 
 ◦ RF

    による欠損特徴補完と、ハイパラ自動最適化の工夫点 
 • データを融合するとOA 87.9 %となり、衛星画像とALBを単独に使用した場合より高性能を示した 
 サンゴ礁の分類を光学衛星・ソナー・ALBを組み合わせて勾配ブースティングで実行 
 Ji et al. (2024), “Benthic habitat sediments mapping in coral reef area using amalgamation of multi-source and multi-modal remote sensing data ”, Remote Sensing of Environment Volume 304, 1 April 2024, 114032より引用 Benthic habitat sediments mapping in coral reef area using amalgamation of multi-source and multi-modal remote sensing data 
 分類結果 衛星だ け ALB
 だけ 融合
  69. 85 • 光学衛星画像とDSMを融合させる際に、Transformerベースのクロスアテンションの計算が入るので 
 非常に重いので、軽いモーダル混ぜ機能が欲しい 
 • 光学衛星画像はCNNでローカルな特徴を抽出、DSMはMambaを使ってグローバル特徴を抽出し、 
 attentionで両者の特徴量を混ぜた後にTransformerベースのデコーダでセグメンテーションする

    
 • ISPRS(Vaihingen / Potsdam データセット)でSoTAを示しつつ、 
 FLOPsやパラメータ数もViT系より低コスト 
 Yan Wang et al. (2024), “MFMamba: A Mamba-Based Multi-Modal Fusion Network for Semantic Segmentation of Remote Sensing Images”,Sensors, 2024より 引用 「Mamba + CNN + Attention融合」により精度と計算効率を両立 
 MFMamba: A Mamba-Based Multi-Modal Fusion Network for Semantic Segmentation of Remote Sensing Images 
 混ぜ合わせる部分
  70. 航空写真の認識性能を向上するために音声情報を学習するためデータセットを提案 
 Self-supervised audiovisual representation learning for remote sensing data

    
 86 • ジオタグ付きの音声データを取得し、対応する航空写真をGoogle Earthから取得しデータセットを作成 
 ◦ このデータセットは従来のデータセットより大規模 
 • 音声と航空写真のCLIP学習の性能を高める為に、Batch Triplet lossと呼ばれる学習方法を提案 
 • 航空写真の認識において、視覚情報だけでなく、音声情報を活用することで高精度な認識が行えることを示した 
 Konrad Heidler et al. (2023), “Self-supervised audiovisual representation learning for remote sensing data”, International Journal of Applied Earth Observation and Geoinformation. より引用
  71. 航空画像を用いてStreetmap画像のGeolocalizationを予測する方法を提案 
 Statewide Visual Geolocalization in the Wild 
 87

    Florian Fervers et al. (2024), “ Statewide Visual Geolocalization in the Wild”, ECCV. より引用 • 視覚的ジオローカリゼーション(VGL)は、衛星ナビゲーションシステムなどの追加の信号なしで写真の地理的位置を推定する技術
 • 従来はGoogleStreetViewとの航空画像とのペアで学習していたが、GoogleStreetViewがない場所については予測ができないという課 題があった・
 • そこで、検索領域を地理的セルに分割し、それらのセルと写真を共通の埋め込み空間にマッピングするモデルを訓練、モデルは、異 なる範囲と詳細レベルの航空画像を使用してセルの埋め込みを予測し、街路画像との一致を見つける方法を提案。
 • 街路画像には主にMapillaryというクラウドソーシングプラットフォームにアップロードされた非パノラマの画像がさいようされている。

  72. Probabilistic Image-Driven Traffic Modeling via Remote Sensing 
 88 Florian

    Fervers et al. (2024), “ Probabilistic Image-Driven Traffic Modeling via Remote Sensing”, ECCV. より引用 • 従来の交通データは道路上の特定の地点に設置された固定センサー(速度計測器、交通カメラ)から収集されることが多いが、固定 カメラであるが故にカバー範囲が限られる。
 • そこで、本論文では航空画像を活用し、より広範囲の交通データを補間し、都市規模でのモデリングを可能にする。
 • 提案手法は画像、位置情報、時間データを入力し、道路セグメンテーション、向き推定、交通速度予測をおこなっている。また学習の ためのDynamic Traffic Speeds(DTS)++を提案している。(下図の矢印の色は緑色高速、赤色は低速を表す)
 
 航空画像から空間的・時間的交通パターンを直接モデル化するタスク「画像駆動型交通モデリング」を提案 

  73. クロスビュー動画ジオローカライゼーション のためのTransformerモデルの提案 
 GAReT: Cross-view Video Geolocalization with Adapters and

    Auto-Regressive Transformers 
 89 Manu S Pillai et al. (2024), “GAReT: Cross-view Video Geolocalization with Adapters and Auto-Regressive Transformers”, ECCV. より引用 • クロスビュー動画ジオローカライゼーション (CVGL) は、ストリートビュー動画を用いてGPS軌跡を推定し、航空画像と照合することを 目的
 • 現在のCVGL手法は、カメラやオドメトリデータを使用するため、実世界での適用が困難。
 • また、隣接するフレームを用いた特徴抽出により計算コストが高くなり、時間的に一貫性のないGPS軌跡の予測が問題
 • この問題に対応するために、ストリートビューと航空画像の間の画像ペアを用いてトレーニングされたトランスフォーマーエンコーダー を利用し、時間的一貫性のあるGPS予測のためにTransRetrieverという自己回帰デコーダーモデルを導入
 • ベンチマークデータセットにおいて最先端の性能を示し、時間的一貫性のあるGPS予測を実現

  74. 90 Andy V Huynh et al. (2024), “Contrastive ground-level image

    and remote sensing pre-training improves representation learning for natural world imagery”, ECCV. より引用 • 地上の植物の画像はタグ付きでデータが公開される一方で、航空写真はたくさんデータを取得しているにもかか わらずラベルがついているものは少ない • そこで、地上視点と航空視点の画像には自然に共有される多くの情報を生物多様性の認識に活用できることに 仮説を立てて自己教師あり学習を用いた検証をおこなった。 
 Contrastive ground-level image and remote sensing pre-training improves representation learning for natural world imagery 
 地上画像と航空写真の対照的な事前学習タスク「CRISP」を提案し、この学習により植物種の画像の分類や分布の認識精度が向上 

  75. Weakly-supervised Camera Localization by Ground-to-satellite Image Registration 
 91 Yujiao

    Shi et al. (2024), “Weakly-supervised Camera Localization by Ground-to-satellite Image Registration”, ECCV. より引用 ストリートビュー画像と衛星画像を使ってGPS情報を使わずに撮影した場所を推定する手法の提案 
 • 学習では衛星画像のrotationと並行移動を推定するようにFeature Extractorを学習。 
 • このときに正の衛星画像と負の画像を定義して、対照学習を行っている。 
 • Test時には、Query画像からConfdence mapとFeature mapと推定された角度と位置を合わせ地上平面ホモグラ フィー変換を行うことで衛星画像と特徴マップを比較できる形にし、類似度マップを算出。類似度が高い場所が 撮影地点となる。

  76. OmniSat: Self-Supervised Modality Fusion for Earth Observation 
 92 Yujiao

    Shi et al. (2024), “OmniSat: Self-Supervised Modality Fusion for Earth Observation”, ECCV. より引用 土地理解のための基盤モデル構築に挑戦 
 • 高解像度な航空画像、光学衛星の時系列データ(Sentinel-2)、SARの時系列データ(Sentinel-1)データをラベル なしデータセットを学習するフレームワークOmniSatを提案 
 • それぞれのデータにマスクキングしマスク部分を再構成するような学習を行う。 
 • 3つの下流タスク(森林、土地被覆分類、作物マッピング)において、OmniSatが最先端の性能を達成したことを 示した

  77. Learning Representations of Satellite Images From Metadata Supervision 
 93

    Yujiao Shi et al. (2024), “Learning Representations of Satellite Images From Metadata Supervision”, ECCV. より引用 衛星画像が持つメタデータを対照学習することで土地分類にとって良い特徴表現を獲得 
 • 学習に効いたmeta-dataは「時間、緯度経度、地上分解能」の情報。 
 • 従来の画像との対象学習に加えてメタデータの対象学習を行うと最も精度が高く、meta-dataの対象学習は画 像に比べて計算スピードが速いのが特徴。 

  78. 94 Dilxat Muhtar et al. (2024), “LHRS-Bot: Empowering Remote Sensing

    with VGI-Enhanced Large Multimodal Language Model”, ECCV. より引用 テクストを通して分類や物体検出、VQAを解くVLMのモデル構築とデータセットを開発 
 • 大規模なリモセン画像とテキストのデータセットLHRS1-Alignを構築し、リモセン固有の指示データセット LHRS-Instructを作成し、リモセン画像理解に特化したマルチモーダル大規模言語モデルLHRS-Botを作成。 
 LHRS-Bot: Empowering Remote Sensing with VGI-Enhanced Large Multimodal Language Model 

  79. SkySense : A Multi-Modal Remote Sensing Foundation Model Towards Universal

    Interpretation for Earth Observation Imagery 
 ・SkySenseは、21.5M の時系列リモートセンシング  データで事前学習された、 2024年3月当時では  史上最大規模のマルチモーダルリモートセンシング  基盤モデル (RSFM). ・光学高空間分解能画像 (WorldView-3/4)  光学時系列中空間分解能画像 (Sentinel-2)  SAR時系列中空間分解能画像 (Sentinel-1)  の3つのマルチモーダルデータを  時系列かつ地理的特徴を  学習させ、汎用性のある基盤モデルを作成 . ・7つのタスク、16のデータセットでSoTA. Skysense アーキテクチャ バカでかモデルですが、たくさんの工夫あり Xin Guo et al. (2024), “SkySense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery”, CVPR. より引用 95
  80. CropNet: An Open Large-Scale Dataset with Multiple Modalities for Climate

    Change-aware Crop Yield Predictions 
 96 • 正確な農作物収穫量の予測は、食糧安全保障と持続可能な農業を確保するために国家的に重要 • しかし、これまでの深層学習データセットは(1)地上の作物収穫量の情報がないため作物収穫量の予測にてきしてな かった。(2)作物収穫量には作物の成長の追跡や気象学的な天候変動の影響を同時に捉える必要があり複数のデー タを用いる必要がある。 • 本研究では気象の変動と作物の育成状況、作物の収穫量の3つのモダリティを扱うCropNetと呼ぶデータセットを提案 • 実験結果により、CropNetの適用可能性および有効性が示された。 • PyPIでCropNetのパッケージも公開されている 気象と育成状況の情報から作物量を推定するためのデータセットを提案 
 Fudong Lin et al. (2024), “CropNet: An Open Large-Scale Dataset with Multiple Modalities for Climate Change-aware Crop Yield Predictions”,ICLR 2024. より引用
  81. Sen2Fire: A Challenging Benchmark Dataset for Wildfire Detection using Sentinel

    Data 
 97 • 深層学習を用いた山火事検出はこれまでにも提案されていたが、大規模データセットの欠如、山火事によって異 なる波長帯の明確な感度、多様な地理的位置にわたるモデルの転移性などの課題があった 
 • このような課題に対して取り組むために多様な波長領域を含むマルチスペクトデータおよびスペクトル指標と野 火時に発生するエアゾルを含んだSen2Fireを提案 
 • その結果、山火事の検出にすべての波長帯を使用するのとは対照的に、特定の波長帯の組み合わせを選択すること で優れた性能が得られることが示唆 • Sentinel- 5のエアロゾルデータを統合することが山火事検知に好影響を与えることがわかった
 マルチスペクトルデータとエアゾルプロダクトから山火事検知の挑戦! 
 Yonghao Xu et al. (2024), “Sen2Fire: A Challenging Benchmark Dataset for Wildfire Detection using Sentinel Data”, Arxiv. より引用
  82. CSP: Self-Supervised Contrastive Spatial Pre-Training 
 for Geospatial-Visual Representations 


    98 • 画像↔位置情報のペアを事前学習するため、自己教師で学習可能 
 • 推論時に画像だけでなく、画像の位置情報(緯度、経度)も追加情報として入力可能になる 
 ◦ 従来:画像 → クラス予測。提案手法:画像+位置情報 → クラス予測 
 ◦ 画像特徴が似たクラスの分類で精度向上が期待できる 
 • 生物種の分類(iNet2018)とリモセン画像分類(fMoW)にCSPを適用 
 ◦ 最大 10-34%の精度向上を実現 
 地球上の位置情報と、対応する画像の特徴を学習する自己教師あり事前学習を提案 
 画像特徴が似ているが、生息する位置が異なるクラスの例 
 Gengchen Mai et al. (2025), “CSP: Self-Supervised Contrastive Spatial Pre-Training for Geospatial-Visual Representations”, arXiv:2305.01118 より引用
  83. 99 • 土地利用分類タスクにおける • Multi-scale Spatial-spectral Encoder(H₂SR画像 スペクトル・空間解像度 高い) 異なるスケールの接続は最初と最後の 2回に限定(何度も圧縮,再構成すると情報が消失 )

    • Spatial-temporal Encoder(Sentinel-2画像 密な時系列) : スペクトル畳み込みと時空間トランスフォーマーを組み合わせることで、局所的かつグローバルな時空間情報を同時に抽出 • Cross-resolution Fusion Module:モーダル間の大きな空間解像度差による情報損失を軽減することを目的としたモダリティ 各モダリティから特徴の重要度を調整し,解像度ごとの貢献度を適応的に制御 • 実験により、STSNetの各モジュールが 既存の主流手法よりも優れた性能 を持つことを実証 高時空間スペクトル分解能の利点を最大限に活用するSTSNetの提案 
 Beibei Yu et al. (2025), “STSNet: A cross-spatial resolution multi-modal remote sensing deep fusion network for high resolution land-cover segmentation”, Information FusionVolume 114, February 2025, 102689より引用 STSNet: A cross-spatial resolution multi-modal remote sensing deep fusion network for high resolution land-cover segmentation 

  84. 100 • GISデータとリモセン画像をAI
 で統合して扱う手法が少ない
 • 都市土地利用マッピングの
 精度向上と解釈性の強化を
 行うために、人口密度とタクシーデータとリモ セン画像を統合的に
 扱うMDFNet

    を提案
 • 人口密度はLSTM, 衛星画像は
 ResNet, タクシーは
 GCNを用いて特徴抽出し、
 統合して分類する構造
 • ベンチマーク実験を行い
 テスト精度0.882を達成
 Xiaoqin Yan et al. (2024), “A multimodal data fusion model for accurate and interpretable urban land use mapping with uncertainty analysis”, International Journal of Applied Earth Observation and Geoinformation 129.103805より引用 A multimodal data fusion model for accurate and interpretable urban land use mapping 
 with uncertainty analysis 

  85. • 目的:
 ◦ 画像が撮影されたGPS座標を高精度に特定する「Worldwide Geo-localization」 
 • 課題:
 ◦ 既存手法の限界:


    ▪ 画像検索ベース: 全世界をカバーする画像データベース構築は非現実的 
 ▪ 分類ベース: 地球を区画に分割するため、区画の境界や中心から離れた場所での精度が低い。予 測場所も限定的。
 • 提案手法: GeoCLIP 
 ◦ 【新規性/重要性】画像の特徴とGPS座標の特徴を直接結びつけ、全世界での高精度な位置特定を実現 
 ◦ CLIPに着想: 画像の特徴と対応するGPS座標の特徴を直接対応付ける学習 
 ◦ 画像からGPS座標を検索: クエリ画像の特徴量と、GPS座標データベースの特徴量を比較し、最も似てい るGPS座標を予測
 ◦ Location Encoder: GPS座標を高次元の特徴量へ (RFFと階層表現を活用) 
 ◦ Image Encoder: CLIPのVision Transformerを利用 
 • 主な貢献:
 ◦ 初の画像からGPSを検索する方式での全世界ジオロケーション 
 ◦ 高性能なLocation Encoder 
 ◦ 少ない学習データでも高い性能 
 ◦ テキストによるジオロケーションも可能 
 
 102 Vicente Vivanco Cepeda et al. (2023), “GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization”, arXiv 2309.16020より引用 GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective 
 Worldwide Geo-localization 

  86. 103 • 11の汎用的なimage-textデータセット(PUB11)からリモートセンシングに特化したペアを300万, 3つのclass labelの みのデータセット(RS3)から200万ペアを抽出、計500万ペアの大規模なデータセットを構築(RS5M)。後者には BLIP2を使ってlabelをテキストに変換 
 • 一般画像で学習した言語モデル(GCLM)をドメイン特化のデータセットで再学習(DVLM)することで、対象とするドメ

    インのダウンストリームタスクをより高い性能でこなすフレームワークの提案 
 • RS5Mで再学習することでCLIPベースラインより顕著な精度向上(ex. zero shot classification 3-20%↑) 
 リモートセンシングに特化した大規模画像-テキストペアデータセットRS5Mと、 
 ビジョン-言語モデルGeoRSCLIPを提案 
 Z. Zhang et al. (2024), “RS5M and GeoRSCLIP: A Large Scale Vision-Language Dataset and A Large Vision-Language Model for Remote Sensing”, TGRSより引用 RS5M and GeoRSCLIP: A Large Scale Vision-Language Dataset and A Vision-Language Foundation Model             for Remote Sensing 

  87. Composed image retrieval for remote sensing 
 104 • 膨大にある衛星画像を検索する上で画像検索の技術が重要になるが、画像検索分野では、画像-画像の検

    索、text-画像の検索などの単一モダリティの限界があった 
 • そこで、CLIP (Contrastive Language-Image Pre-Training)のモデルを活用することでトレーニングせずにテキスト と画像を使った手法を提案 
 • また、PatternComと呼ばれる評価用データセットを提案している 
 • このデータセットにはクラスのcolor, context, density, existence, quantity, shape, size or textureの属性をユー ザーがラベルづけしていて、属性に基づいて画像検索を可能にしている 
 
 画像とテキストを用いて衛星画像を検索する組み合わせ画像検索タスク・手法を導入 
 Bill Psomas et al. (2024), “Composed image retrieval for remote sensing”, arXiv. 2405.15587 より引用
  88. 105 • 既存の事前学習用のデータセットはセンサの種類・地域の多様性が不足していた 
 • Sentinel-2の複数レベル (L1C,A/RGB), Sentinel-1の複数レベル(GRD, RTC), NDVI,

    DEMを入力にして 
 真値をLULCで学習可能なデータを全球規模で構築した(TerraMeshと呼ぶデータ) 
 • TerraMeshで学習すると、6 つの下流ベンチマーク平均 mIoU で既存 SOTA を上回り、 
 様々な処理レベルのデータで事前学習しているので、どんなデータが来ても対応可能というメリット 
 処理レベルやセンサの種類、地域の多様性があるデータセットの構築 
 Juan et al. (2025), TerraMesh: A Planetary Mosaic of Multimodal Earth Observation Data”,EARTHVISION 2025より引用 TerraMesh: A Planetary Mosaic of Multimodal Earth Observation Data 
 データの規模 下流タスクの性能
  89. 106 • 既存の深層学習モデルは光学画像中心で、道路・水系・標高などのコンテキストを使わないため少数ラベル環 境や地域外テストで性能が頭打ち 
 • Sentinel-2 画像に OSM(道路・水路・建物)・DEMをチャネル追加して単純に融合し,分類・セグメンテーション用 CNN

    / U-Net へ入力し直すだけでデータ効率と汎化を検証。 
 • BigEarthNet v2.0(分類),EnviroAtlas(セグメンテーション),SustainBench(貧困度回帰) の3ベンチマークデータで 1 %~5 %しか学習に使用しない条件でも IoU/ACC が最大+6–10 pt向上し,学習にあまり出てこないタイプの都 市への OOD テストでも一貫して性能が向上。,多モーダル入力が特にラベル稀少・分布外データで効果的と確 認
 OSMも使うと衛星画像だけで分類タスクを解くよりも高性能になる 
 Rao and Rolf. (2025), USING MULTIPLE INPUT MODALITIES CAN IMPROVE DATA-EFFICIENCY FOR ML WITH SATELLITE IMAGERY”,ICLR 2025 Machine Learning for Remote Sensing (ML4RS) Workshopより引用 Using Multiple Input Modalities can Improve Data-Efficiency for ML with Satellite Imagery 
 OSMとDEMの入れ方 OODデータに対するロバスト性
  90. Adaptive fusion of multi-modal remote sensing data for optimal sub-field

    crop yield prediction 
 107 異なるリモートセンシングデータをデータごとに適応的に融合するMMFGの提案 
 Francisco Mena et al. (2025), “Adaptive fusion of multi-modal remote sensing data for optimal sub-field crop yield prediction”, Remote Sensing of Environment. より引用 • 作物予測は、様々な要因に起因してお り、リモートセンシングデータの複数モ ダリティを用いた予測が注目されている 
 • 天候や地域特性に応じて、柔軟にモダ リティの寄与度をデータごとに変化させ られるMMFG(Multi-Modal Gated Fusion)手法を提案
 • 単一モダリティやstatic fusion(静的な 融合)では得られない一貫した性能と解 釈性があることを示した
 MMFGのアーキテクチャ
  91. 108 • 拡散モデルを用いて高品質な画像を生成できるが、衛星画像を生成したい場合 
 条件として使用できる土地利用データが高価で利用しづらい 
 • OpenStreetMapから生成した土地利用データと自然言語を制約条件として、 
 ユーザの要望を忠実再現した衛星画像を生成する手法を提案

    
 • 都市名や土地利用構成、道路網、水域の割合を変化させ、現実的な衛星画像が生成されることを実証 
 • 実際の衛星画像と生成された衛星画像を専門家の人と一般の人に見てもらい、土地利用や自然言語を 
 忠実に再現していることを評価 
 自然言語と土地利用データをもとに衛星画像を生成 
 Qingyi Wang et al. (2025), “Generative AI for Urban Planning: Synthesizing Satellite Imagery via Diffusion Models”, arXiv2505.08833より引用 Generative AI for Urban Planning: Synthesizing Satellite Imagery via Diffusion Models