Galileo: Learning Global & Local Features of Many Remote Sensing Modalities

by SatAI.challenge

Slide 1

Slide 1 text

Galileo: Learning Global & Local Features of Many Remote Sensing Modalities    二村忠宏  1 第１２回 SatAI.challenge勉強会 

Slide 2

Slide 2 text

2 著者紹介 This image was generated by ChatGPT

Slide 3

Slide 3 text

3 二村　忠宏スカパーJSAT株式会社スペースインテリジェンス事業部過去の仕事：災害対応用衛星データ提供システム内自動解析アルゴリズム開発（CVベース、前々職）　　　　損害保険自動支払い用AI開発PoC（技術DD中心、前職）小型SAR衛星コンステレーションの利用拡大に向けた実証（CV＋AI、現職）研究(業務)テーマ：実業務に向けた衛星解析手法の探求　　　　　　　　　SAR画像の鮮明化（SARの原理から計算） SAR画像単画像からの土砂崩れ箇所の抽出自己紹介 LinkedIn 

Slide 4

Slide 4 text

4 1ページサマリ This image was generated by ChatGPT

Slide 5

Slide 5 text

Galileo: Learning Global & Local Features of Many Remote Sensing Modalities   5 ● 従来は光学に対応しているものが大半であったが、光学衛星に加えSAR・標高・気象データなど幅広いデータを教師データにすることで幅広いダウンストリームタスクに対応できるようにした   ● 基本構造についてはViTを使用しているが、リモートセンシング特有の数ピクセルの問題（例えば船舶関連）から数千ピクセルの問題（例えば氷河など）に対応するため、グローバル特徴とローカル特徴を同時にラベルを必要としない自己教師あり学習する手法を採用   ● １１のリモートセンシング系ベンチマークにおいてSOTAを超える性能を発揮   従来のRemote Sensing FMよりも多くの入力データに対応した衛星画像 Foundation Model   Gabriel Tseng et al. (2025), “Galileo: Learning Global & Local Features of Many Remote Sensing Modalities”, arXiv:2502.09356 [cs.CV], 2025 より引用

Slide 6

Slide 6 text

6 論文紹介 This image was generated by ChatGPT

Slide 7

Slide 7 text

● リモートセンシングデータは光学/SAR/気象/地形/夜間光など多種多様に存在   ● またスケールについても1px単位の船舶から数千pxを対象とする氷河まで存在する   ● 加えて時間間隔についても対象とする事象において変化（数日～数年単位）   ● またラベル付きデータについてもグローバルスケールでは乏しい（特に発展途上国など）   ○ 自己教師あり学習により解決を図る必要性     背景および現状の課題   7 Gabriel Tseng et al. (2025), “Galileo: Learning Global & Local Features of Many Remote Sensing Modalities”, arXiv:2502.09356 [cs.CV], 2025 より引用 Sentinel-2撮影の船舶と氷河の例  

Slide 8

Slide 8 text

● 既存のSoTAモデルの多くは専用設計になっておりマルチモダリティに対応したモデルは少ない   ○ SatMAE、CROMA：単時刻画像・MS/SARに特化   ○ Presto：時系列の分析が可能だが、ピクセル単位の分析に特化   ○ AnySat：複数モダリティに対応   ● 入力形状、対象タスク、モダリティごとに異なるモデルが必要な点はかなり非効率   ● また多くはNDVI、標高、気象データなど従来の現場で有効とされているモダリティが使用できない場合がある   従来手法の限界   8 Gabriel Tseng et al. (2025), “Galileo: Learning Global & Local Features of Many Remote Sensing Modalities”, arXiv:2502.09356 [cs.CV], 2025 より引用

Slide 9

Slide 9 text

● Vision Transformer(ViT)ベースのモデル   ● 対応する入力画像  ○ 単画像  ○ 画像時系列  ○ ピクセル単位の時系列   ● 対応モダリティ  ○ Sentinel-1（SAR）  ○ Sentinel-2（MS）  ○ NDVI  ○ 標高  ○ 傾斜  ○ 気象（ERA5）  ○ 夜間光など    ● 多様なリモートセンシングタスク（分類・セグメンテーション・時系列分類）でSoTA性能を発揮   Galileoの概要   9 Gabriel Tseng et al. (2025), “Galileo: Learning Global & Local Features of Many Remote Sensing Modalities”, arXiv:2502.09356 [cs.CV], 2025 より引用

Slide 10

Slide 10 text

モデルの主要構成   10 ● 自己教師あり学習（SSL）により学習（ラベル不要）   ● Dual SSLを採用  ○ Globalタスク：空間・時間的に広い範囲を対象とし、深層特徴を学習   ○ Localタスク：ランダムにマスクし、浅層特徴を学習（微小物体に対応）   ● これら２つの予測器で学習し、損失は加重平均   ● 損失に関してはPatch Discriminationを採用   Gabriel Tseng et al. (2025), “Galileo: Learning Global & Local Features of Many Remote Sensing Modalities”, arXiv:2502.09356 [cs.CV], 2025 より引用

Slide 11

Slide 11 text

Pretrained Data   11 Gabriel Tseng et al. (2025), “Galileo: Learning Global & Local Features of Many Remote Sensing Modalities”, arXiv:2502.09356 [cs.CV], 2025 より引用 ● Sentinel-1（VV, VH）、Sentinel-2 など127,155インスタンス。下図ベースで地球全域から空間的にサンプリング   ● 画像サイズは96x96パッチ、24か月分、10m解像度にリサンプリング     ● モダリティ  ○ 空間×時間：S1-SAR, S2-MS, NDVI   ○ 空間のみ：標高、地形、土地被覆分類   ○ 時間のみ：気象（ERA5）, 夜間光   ○ 静的：人口、緯度経度　  

Slide 12

Slide 12 text

実験結果   12 Gabriel Tseng et al. (2025), “Galileo: Learning Global & Local Features of Many Remote Sensing Modalities”, arXiv:2502.09356 [cs.CV], 2025 より引用 Image Classification Task   Image Segmentation Task   Timeseries Classification Task  

Slide 13

Slide 13 text

Ablations   13 Gabriel Tseng et al. (2025), “Galileo: Learning Global & Local Features of Many Remote Sensing Modalities”, arXiv:2502.09356 [cs.CV], 2025 より引用

Slide 14

Slide 14 text

14 Conclusion   ● Galileoは従来のリモートセンシングFMよりも多くのモダリティに対応し、損失を工夫することによりリモートセンシングデータを扱ううえで問題となるグローバル性・ローカル性の双方に対応することに成功した   ● その結果多くのタスクにおいてSoTAを示しており、リモートセンシングFMとして有用であると考えられる。   ● モダリティ性が上がったことにより、今まではモデルをそれぞれ用意したタスクに対しても一つのモデルで可能となり利便性が上がっている   ● モデルなどはGithub（ https://github.com/nasaharvest/galileo ）にて公開中  Gabriel Tseng et al. (2025), “Galileo: Learning Global & Local Features of Many Remote Sensing Modalities”, arXiv:2502.09356 [cs.CV], 2025 より引用