SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing

SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing
第20回 SatAI.challenge 勉強会平出尚義本資料で紹介する図において、引用を明記しない場合は Yingying Zhang et.al. (2025), SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing より引用するものとする。 ICCV 2025 (Poster) | arXiv:2507.13812 | Multi-modal RS Foundation Model (HR Optical / MS / SAR)

目次 • 自己紹介スライド • 研究の1ページサマリ紹介 • 研究の背景 (Introduction) • 提案手法
• 実験結果 • Ablation Studies • Conclusion

発表者紹介 This image was generated by ChatGPT

１ページサマリ This image was generated by ChatGPT

単一Transformerで複数モダリティ (High Resolution/Multispectral/SAR) を統合したうえで、モダリティ間の解像度差や特徴多様性を改善したリモートセンシング基盤モデル ✓既存手法の多くはSkySense V1を含めモダリティごとに個別のバックボーンを訓練するものが多く、これはパラメータの利用効率が悪い。(冗長性がある。) ✓単一Transformerで全モダリティを意味と解像度を考慮して事前学習。 ✓16データセット/7タスクでSkySense V1 と比較して平均＋1.8 pt。パラメータも軽量化しつつSoTA達成。

Introduction This image was generated by ChatGPT

背景 (衛星基盤モデルの意義とSkySense V1の位置づけ) ✓近年、MM-RSFM (Multi-Modal Remote Sensing Foundation Model) は環境モニタリング、
農業管理、災害対応、LULCマッピングなどの多様な応用先で地球観測データの活用を押し広げている。 ✓2024年に提唱されたSkySense V1は、地理情報をアライメントさせたマルチモーダル・マルチテンポラルな基盤モデルであったが、モダリティ毎に別のバックボーンを用いる設計であり、運用面やパラメータの効率化に課題。 Skysense (v1) のアーキテクチャ Xin Guo et.al. (2024), Skysense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery モダリティセンサー特徴 HSROI (x_HR) （高解像度光学） WorldView-3, 4 解像度高・静的・ RGB TMsI (x_Ms) （中解像度時系列マルチスペクトル） Sentinel-2 時系列・多バンド TSARI (x_SAR) （時系列SAR） Sentinel-1 時系列・VV/VH偏波 Student-Teacherモデルであり、 Studentが損失でパラメータ更新し、 TeacherはStudentの平均 (EMA) を追従する最終的にはTeacher側の重みを下流へ。

背景 (SkySense V1の要素技術の復習) ✓Pre-trainingのコア技術 - Multi-Granularity Contrastive Learning (MGCL) pixel,
object, image の3つのスケール (粒度) でTeacher, Studentの正例/負例を構築し、自己教師あり学習を行う。 - Cross-Modal Alignment (CMA) 異なるモダリティ (光学とSAR) の特徴表現を揃える ➤異なるモダリティで観測された同じ場所の画像を、意味的に同じ表現空間にマッピングされるようにする処理最終的な損失はMGCLとCMAにスケールファクターを足し合わせた式 →異なる解像度、異なるモダリティを考慮した損失と理解していただければ

背景 (SkySense V1の課題) ✓モダリティ別のバックボーン (HR=Swin-H, MS/SAR=ViT-L) で統一的な学習ができない。 →モダリティを横断した表現学習が限定的。設計/保守が複雑。 ✓パラメータが巨大 (約
1.26B) で非効率 →学習・推論のコストが高く、実運用やファインチューニングがしにくい。 ✓衛星画像は1枚に複数の地物 (森林、人工構造物、水域…など) が映っている。基本的な対照学習は1枚につき1つの主要対象 (例: 犬、猫) を想定したビュー間対比が中心だが、衛星画像は異なるビューで見ると意味的に異なるため、対照学習が安定しない。 ✓テキスト整合が画像全体、パッチを代表としたスケールでしか機能しておらず、疎。備考：2025/08 に SkySense V1の重みが公開されました。 (GitHub) SkySense V1については SatAI.Challenge 勉強会みんなで作るメタサーベイ：衛星データを活用したマルチモーダルAI にてレビューしておりますので、もしよろしければご覧ください。 https://speakerdeck.com/satai/skysense-a-multi-modal-remote-sensing-foundation-model-towards-universal-interpretation-for-earth-observation-imagery

提案手法 This image was generated by ChatGPT

SkySense v2 SkySense V2は、SkySense V1での課題を解決するため、「Unified Framework for Multi-modal Learning」
を採用した統合型 MM-RSFM ①Unified Transformer Encoder: モダリティ別から単一バックボーンへ - モダリティ毎の解像度を段階的に縮約/保持する仕組み - 重みは全体で共有し、各モダリティにはモダリティ別プロンプトを付与して軽く条件付け ②対照学習手法の変更 - 1枚に複数の地物が映っている衛星画像に特化した対照学習の手法を提案

Unified Transformer Encoder ４つのStageで構成。まずは文言の確認。 ✓Swin V2 Block : 固定サイズのWindowでSelf-Attention 局所的なパターンを学習する
✓Transformer Block : トークン全体 (または広範囲) にSelf-Attention 広域のコンテキストを学習している。 ✓APM (Adaptive Patch Merging) : モダリティ毎に解像度を落とすか/保持するかを制御。 HR光学は段階的に縮約してトークン数を削減。トークンの大きさが1/4, チャンネル数が倍に。 MS/SAR は大きさを保持しつつ、チャンネル数を倍に。

Unified Transformer Encoder Stage0. トークナイザー HR/ MS/ SAR 毎に入力埋め込みを最適化以降のエンコーダ本体は全モダリティで共有
Stage1. SwinV2 windowの中のAttentionで局所的な特徴を抽出 Stage2. APM＋SwinV2 APMでHRを縮約させ、計算量を抑制 MS/SARは必要に応じて保持 (←どういう条件？) Stage3. APM＋Transformer (広範囲) APMで縮約、保持グローバルのSelf-Attentionで広範囲の関係を取得モダリティ・プロンプトを挿入 (後述) Stage4. APM＋Transformer (超広範囲) APMで縮約、保持超広範囲で特徴を取得し、下流タスクに適した表現に。

Unified Transformer Encoder よくわからないので、自分の整理のため仮のパラメータでシミュレーション ✓HR光学 (RGB、単一時期) input : 2048×2048×3 (RGB)
パッチサイズ(仮)： 8 パッチ数 (初期トークン数)：256×256 1パッチあたりの生データ：8×8×3 (空間64pix, バンド3) →各パッチを線形写像、単一のトークナイザ埋め込み次元化初期トークナイザ埋め込み次元：352チャネル出力のテンソル 256×256×352 APM：空間を1/2×1/2に縮約、チャネル数2倍 ✓MS (マルチバンド、マルチテンポラル) input : 64×64×8 (band)、10時期パッチサイズ: 1 パッチ数：64×64 1パッチあたりの生データ：1×1×8 初期トークナイザ埋め込み次元：352チャネル出力のテンソル：64×64×10 (時期数) ×352 APM：空間は保持、チャネル数2倍 Stage1. 256×256×352 Stage2. 128×128×704 Stage3. 64×64×1408 Stage4. 32×32×2816 Stage1. 64×64×10×352 Stage2. 64×64×10×704 Stage3. 64×64×10×1408 Stage4. 64×64×10×2816 自分シミュレーションの場合、結局はMSが最も大きな次元に。

Unified Transformer Encoder そのほかのSkySense V2ならではの工夫 Modality-specific Prompt Tokens 課題：HR/MS/SARでパターンやノイズ特性が大きく異なるにも関わらず、重みをフルで共有すると表現の多様性が失われる。
解法：モダリティ固有の学習可能トークン (プロンプト) を付与して、同じ重みを通してもふるまいが少し変わるようにする。・Stage3, 4 (全体を見るTransformer側) に挿入メモ：前半 (Swin) で局所を固めたうえで、後半で各モダリティのお気持ちを入れる。・各モダリティにK個の学習可能ベクトルを付与、入力トークン列に連結してSelf-Attention。

SkySense V2 OverView

SkySense V2 pre-training ・事前学習の損失関数 ① Multi-Granularity Contrastive Learning (MGCL), SkySense
V1から続投 pixel, object, image の3つのスケール (粒度) Teacher, Student正例/負例を構築し、自己教師あり学習を行う。 ② Dense Image-Text Aligment, SkySense V2で初登場 OSMの語彙/ラベルをテキスト側埋め込みに変換し、画像⇔テキストを整合境界の明瞭化、小さい地物の再現性を狙う。 ③ Query-based Semantic Aggregation Contrastive Learning, SkySense V2で初登場衛星画像の1枚=多主題を解決。詳細は次ページに。

SkySense V2 pre-training Query-based Semantic Aggregation Contrastive Learning 課題：衛星画像は1枚の中に複数の地物がある。これを多主題という。既存の対象学習は、たとえばランダムにクロップした2ビューを丸ごと対応させるため、
片方が建物中心、もう片方が森林中心といった意味がずれて誤学習をする可能性がある。解法：学習可能クエリを用意し、各ビューの特徴にクロスアテンション、同じ意味だけを集約したクエリ別の表現を作成する。そのうえで同一クエリ同士を正例、別クエリ/別画像を負例として対照学習犬：1枚の画像に1主題衛星：1枚の画像に複数の地物

実験結果 This image was generated by ChatGPT

実験設定・事前学習に使用したデータセットはSkySense V1と全く同じ。合計 2,150万のトレーニングサンプルモダリティセンサバンド名バンド数
空間分解能時系列サンプル数 HR 光学 (RGB) 高解像度商用光学 (例: WorldView-3/4 等) R, G, B 3 高解像 (HR) 単時刻 (T=1) 21500000 MS (Sentinel-2) Sentinel-2 (MS) B2,B3,B4,B5,B6,B7,B8, B8A,B11,B12 10 中解像時系列 (平均T=10) 21500000 SAR (Sentinel-1) Sentinel-1 (SAR) VV, VH 2 中解像時系列 (平均T=10) 21500000 ・Pre-trainingのパラメータ項目設定補足初期トークン次元 C 352 バックボーン全体で共通 SwinV2B ウィンドウサイズ（Stage1-2） 8 前半2ステージのみ Attention ヘッドの Query 次元 32 全ブロックで一貫 MLP 拡張率 ×4 全ブロックで一貫（2層全結合）プロンプトトークン（Stage3）各モダリティ 4 後半2ステージのみ挿入プロンプトトークン（Stage4）各モダリティ 4 後半2ステージのみ挿入・Pre-trainingの計算資源バッチサイズ 1024, 128機のH20で。詳細はAppendix Cに記載

実験設定データセットタスク主モダリティ代表入力サイズ評価指標備考 Dynamic-Planet (Dyna-Pla.) セマンティックセグメンテーション
HR（光学） 1024×1024 mIoU iSAID セマンティックセグメンテーション HR（光学） 896×896 mIoU Potsdam セマンティックセグメンテーション HR（NIR/R/G/IR） 512×512 mIoU/mF1 Dynamic-S2 (Dyna-S2) セマンティックセグメンテーション MS（Sentinel-2） 256×256 mIoU DIOR 物体検出（水平） HR（光学） mAP Faster R-CNN DIOR-R 物体検出（回転） HR（光学） mAP Oriented RCNN FAIR1M 物体検出（回転） HR（光学） mAP Oriented RCNN LEVIR-CD 変化検出（バイテンポラル） HR（光学） F1/IoU OSCD 変化検出（マルチスペクトル） MS（Sentinel-2） F1/IoU Dynamic-S2 (Dyna-S2) 変化検出（時系列） MS（Sentinel-2） mIoU/F1 AID シーン分類 HR（光学） 320×320 Accuracy NWPU-RESISC45 シーン分類 HR（光学） 320×320 Accuracy BigEarthNet-S2 (BEN-S2) シーン分類（マルチラベル） MS（Sentinel-2） 128×128 mAP/F1 fMoW-S2 シーン分類 MS（Sentinel-2） 96×96 Accuracy DynamicEarthNet-MM (Dyna-MM) マルチモーダル・セマンティックセグメンテーション HR + MS + SAR 1024×1024（組合せ） mIoU PASTIS-MM マルチモーダル時系列・作物分類/マッピング HR + MS + SAR（時系列） 128×128×T OA/F1 BEN-MM マルチモーダル・シーン分類 MS + SAR 128×128 mAP/Accuracy ✓使用したデータセットの説明一覧

実験結果・Single Modal Tasks SkySense V2 をファインチューニングする形で比較。

実験結果・Single Modal Tasks 結論として、単一モダリティでもSkySense V2は総合的にSkySense V1を上回った。特に変化検出で伸びが顕著。

実験結果・Multi-Modal Tasks マルチモーダルタスクについて、SkySense V1とV2で比較。すべての場合で数値が上昇。Planetは事前学習に入れていないが、精度が向上しているの夢がある。

Ablation studies This image was generated by ChatGPT

Ablation ✓SkySense V1をベースラインとして Unified Backbone, Global Attention, Modality-specific Prompt Tokens,
Mixture of Expert, Query-based Semantic Aggregation Contrastive Learning の機能を付与したかしないかで精度検証 Unified Backboneが最も精度向上に寄与しているほか、すべての機能が精度向上に寄与

Ablation ・Modality-specific Prompt Tokens を入れるか否かで、t-SNE (特徴量のお気持ちマップ) の分布がどのように変化するかのアブレーション。・本機能を入れることで各モダリティの点群が明確に分離。これすごい。 (w/oはSAR特徴量がHRの中に含まれる形なのが興味深い。)

Unified Transformer Encoder そのほかのSkysense v2ならではの工夫 Modality-specific Prompt Tokens (再登場) 課題：HR/MS/SARでパターンやノイズ特性が大きく異なるにも関わらず、重みをフルで共有すると
表現の多様性が失われる。解法：モダリティ固有の学習可能トークン (プロンプト) を付与して、同じ重みを通してもふるまいが少し変わるようにする。・Stage3, 4 (全体を見るTransformer側) に挿入メモ：前半 (Swin) で局所を固めたうえで、後半で各モダリティのお気持ちを入れる。・各モダリティにK個の学習可能ベクトルを付与、入力トークン列に連結してSelf-Attention。

Ablation ・ Query-based Semantic Aggregation Contrastive Learning の見える化同じSemanticな特徴を集め、そのペアで対照学習する仕組みを例示。事前学習では
2グローバル、6ローカルのCroppingを実施。 →どんなビューから見ても同じ意味なら、同じクエリがそれを集められるように学習できていることがわかる。

Conclusion This image was generated by ChatGPT

単一Transformerで複数モダリティ (High Resolution/Multispectral/SAR) を統合したうえで、モダリティ間の解像度差や特徴多様性を改善したリモートセンシング基盤モデル ✓既存手法の多くはSkySense V1を含めモダリティごとに個別のバックボーンを訓練するものが多く、これはパラメータの利用効率が悪い。(冗長性がある。) ✓単一Transformerで全モダリティを意味と解像度を考慮して事前学習。 ✓16データセット/7タスクでSkySense V1 と比較して平均＋1.8 pt。パラメータも軽量化しつつSoTA達成。

感想 ✓基盤モデルの実利用に目が向いており、いかに運用面で効率化できるかが考えられ始めている印象。 ✓2024年-2025年で、単一のバックボーンで複数のモダリティを含むようなモデルが数多く出てきている印象。基盤モデルのアルゴリズムも年々アップデートされているので、どう変わっているかはサーベイする価値がありそう。流れとしては MIM (シングルモーダル) Contrastive Learning (マルチモーダル、モダリティ毎)
Contrastive Learning (マルチモーダル、複数モダリティを単一バックボーンで) … って感じでしょうか。 ✓論文だけ読んでも、中身がどう動いているのかを想像するのが非常に難しかった。(今も中途半端) なんとなくのふんわりした理解はできているが、、、 ✓相変わらず、ダウンストリームタスクの結果の出力がない。定量的にしか判断できないのがむず痒い。 ✓GtHubにコードはまだない。SkySense V1は重みが共有されたので、近い将来公開される可能性はある。

SkySense V2: A Unified Foundation Model for Mul...

SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing

SatAI.challenge

More Decks by SatAI.challenge

Other Decks in Research

Featured

Transcript