Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SkySense V2: A Unified Foundation Model for Mul...

SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing

本資料はSatAI.challengeのサーベイメンバーと共に作成したものです。
SatAI.challengeは、リモートセンシング技術にAIを適用した論文の調査や、
より俯瞰した技術トレンドの調査や国際学会のメタサーベイを行う研究グループです。
speakerdeckではSatAI.challenge内での勉強会で使用した資料をWeb上で共有しています。
https://x.com/sataichallenge
紹介する論文は、「SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing」です。本研究では、高・中空間分解能の光学衛星画像およびSAR衛星画像を、単一のTransformerバックボーンで統合的に処理する基盤モデルを提案しました。従来はモダリティごとに別バックボーンを用いる設計が主流で、パラメータ冗長性やモデル肥大化が課題でした。SkySense V2では、Adaptive Patch Mergingやモダリティプロンプトなどの工夫により、複数解像度・複数モダリティを一体的に扱うことを可能にしています。
その結果、16データセット・7タスクで平均+1.8ptの性能向上を達成し、軽量かつ汎用的なリモートセンシング基盤モデルとして有効性を示しました。

Avatar for SatAI.challenge

SatAI.challenge

November 09, 2025
Tweet

More Decks by SatAI.challenge

Other Decks in Research

Transcript

  1. SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing

    第20回 SatAI.challenge 勉強会 平出 尚義 本資料で紹介する図において、引用を明記しない場合は Yingying Zhang et.al. (2025), SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing より引用するものとする。 ICCV 2025 (Poster) | arXiv:2507.13812 | Multi-modal RS Foundation Model (HR Optical / MS / SAR)
  2. SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing

    単一Transformerで 複数モダリティ (High Resolution/Multispectral/SAR) を統合したうえで、 モダリティ間の解像度差や特徴多様性を改善したリモートセンシング基盤モデル ✓既存手法の多くはSkySense V1を含めモダリティごとに個別のバックボーンを訓練するものが多く、 これはパラメータの利用効率が悪い。(冗長性がある。) ✓単一Transformerで全モダリティを意味と解像度を考慮して事前学習。 ✓16データセット/7タスクでSkySense V1 と比較して平均+1.8 pt。パラメータも軽量化しつつSoTA達成。
  3. 背景 (衛星基盤モデルの意義とSkySense V1の位置づけ) ✓近年、MM-RSFM (Multi-Modal Remote Sensing Foundation Model) は環境モニタリング、

    農業管理、災害対応、LULCマッピングなどの多様な応用先で地球観測データの活用を押し広げている。 ✓2024年に提唱されたSkySense V1は、地理情報をアライメントさせたマルチモーダル・マルチテンポラルな 基盤モデルであったが、モダリティ毎に別のバックボーンを用いる設計であり、運用面やパラメータの効率化に課題。 Skysense (v1) のアーキテクチャ Xin Guo et.al. (2024), Skysense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery モダリティ センサー 特徴 HSROI (x_HR) (高解像度光学) WorldView-3, 4 解像度高・静的・ RGB TMsI (x_Ms) (中解像度時系列 マルチスペクトル) Sentinel-2 時系列・多バンド TSARI (x_SAR) (時系列SAR) Sentinel-1 時系列・VV/VH偏 波 Student-Teacherモデルであり、 Studentが損失でパラメータ更新し、 TeacherはStudentの平均 (EMA) を追従する 最終的にはTeacher側の重みを下流へ。
  4. 背景 (SkySense V1の要素技術の復習) ✓Pre-trainingのコア技術 - Multi-Granularity Contrastive Learning (MGCL) pixel,

    object, image の3つのスケール (粒度) でTeacher, Studentの 正例/負例を構築し、自己教師あり学習を行う。 - Cross-Modal Alignment (CMA) 異なるモダリティ (光学とSAR) の特徴表現を揃える ➤異なるモダリティで観測された同じ場所の画像を、意味的に 同じ表現空間にマッピングされるようにする処理 最終的な損失はMGCLとCMAに スケールファクターを足し合わせた式 →異なる解像度、異なるモダリティを 考慮した損失と理解していただければ
  5. 背景 (SkySense V1の課題) ✓モダリティ別のバックボーン (HR=Swin-H, MS/SAR=ViT-L) で統一的な学習ができない。 →モダリティを横断した表現学習が限定的。設計/保守が複雑。 ✓パラメータが巨大 (約

    1.26B) で非効率 →学習・推論のコストが高く、実運用やファインチューニングがしにくい。 ✓衛星画像は1枚に複数の地物 (森林、人工構造物、水域…など) が映っている。 基本的な対照学習は1枚につき1つの主要対象 (例: 犬、猫) を想定したビュー間対比が中心だが、 衛星画像は異なるビューで見ると意味的に異なるため、対照学習が安定しない。 ✓テキスト整合が画像全体、パッチを代表としたスケールでしか機能しておらず、疎。 備考:2025/08 に SkySense V1の重みが公開されました。 (GitHub) SkySense V1については SatAI.Challenge 勉強会 みんなで作るメタサーベイ:衛星データを活用したマルチモーダルAI にてレビューしておりますので、もしよろしければご覧ください。 https://speakerdeck.com/satai/skysense-a-multi-modal-remote-sensing-foundation-model-towards-universal-interpretation-for-earth-observation-imagery
  6. SkySense v2 SkySense V2は、SkySense V1での課題を解決するため、 「Unified Framework for Multi-modal Learning」

    を採用した統合型 MM-RSFM ①Unified Transformer Encoder: モダリティ別から単一バックボーンへ - モダリティ毎の解像度を段階的に縮約/保持する仕組み - 重みは全体で共有し、各モダリティにはモダリティ別プロンプトを付与して軽く条件付け ②対照学習手法の変更 - 1枚に複数の地物が映っている衛星画像に特化した対照学習の手法を提案
  7. Unified Transformer Encoder 4つのStageで構成。まずは文言の確認。 ✓Swin V2 Block : 固定サイズのWindowでSelf-Attention 局所的なパターンを学習する

    ✓Transformer Block : トークン全体 (または広範囲) にSelf-Attention 広域のコンテキストを学習している。 ✓APM (Adaptive Patch Merging) : モダリティ毎に解像度を落とすか/保持するかを制御。 HR光学は段階的に縮約してトークン数を削減。 トークンの大きさが1/4, チャンネル数が倍に。 MS/SAR は大きさを保持しつつ、チャンネル数を倍に。
  8. Unified Transformer Encoder Stage0. トークナイザー HR/ MS/ SAR 毎に入力埋め込みを最適化 以降のエンコーダ本体は全モダリティで共有

    Stage1. SwinV2 windowの中のAttentionで局所的な特徴を抽出 Stage2. APM+SwinV2 APMでHRを縮約させ、計算量を抑制 MS/SARは必要に応じて保持 (←どういう条件?) Stage3. APM+Transformer (広範囲) APMで縮約、保持 グローバルのSelf-Attentionで広範囲の関係を取得 モダリティ・プロンプトを挿入 (後述) Stage4. APM+Transformer (超広範囲) APMで縮約、保持 超広範囲で特徴を取得し、下流タスクに適した表現に。
  9. Unified Transformer Encoder よくわからないので、自分の整理のため仮のパラメータでシミュレーション ✓HR光学 (RGB、単一時期) input : 2048×2048×3 (RGB)

    パッチサイズ(仮): 8 パッチ数 (初期トークン数):256×256 1パッチあたりの生データ:8×8×3 (空間64pix, バンド3) →各パッチを線形写像、単一のトークナイザ埋め込み次元化 初期トークナイザ埋め込み次元:352チャネル 出力のテンソル 256×256×352 APM:空間を1/2×1/2に縮約、チャネル数2倍 ✓MS (マルチバンド、マルチテンポラル) input : 64×64×8 (band)、10時期 パッチサイズ: 1 パッチ数:64×64 1パッチあたりの生データ:1×1×8 初期トークナイザ埋め込み次元:352チャネル 出力のテンソル:64×64×10 (時期数) ×352 APM:空間は保持、チャネル数2倍 Stage1. 256×256×352 Stage2. 128×128×704 Stage3. 64×64×1408 Stage4. 32×32×2816 Stage1. 64×64×10×352 Stage2. 64×64×10×704 Stage3. 64×64×10×1408 Stage4. 64×64×10×2816 自分シミュレーションの場合、 結局はMSが最も大きな次元に。
  10. Unified Transformer Encoder そのほかのSkySense V2ならではの工夫 Modality-specific Prompt Tokens 課題:HR/MS/SARでパターンやノイズ特性が大きく異なるにも関わらず、重みをフルで共有すると 表現の多様性が失われる。

    解法:モダリティ固有の学習可能トークン (プロンプト) を付与して、同じ重みを通しても ふるまいが少し変わるようにする。 ・Stage3, 4 (全体を見るTransformer側) に挿入 メモ:前半 (Swin) で局所を固めたうえで、 後半で各モダリティのお気持ちを入れる。 ・各モダリティにK個の学習可能ベクトルを付与、 入力トークン列に連結してSelf-Attention。
  11. SkySense V2 pre-training ・事前学習の損失関数 ① Multi-Granularity Contrastive Learning (MGCL), SkySense

    V1から続投 pixel, object, image の3つのスケール (粒度) Teacher, Student正例/負例を構築し、 自己教師あり学習を行う。 ② Dense Image-Text Aligment, SkySense V2で初登場 OSMの語彙/ラベルをテキスト側埋め込みに変換し、画像⇔テキストを整合 境界の明瞭化、小さい地物の再現性を狙う。 ③ Query-based Semantic Aggregation Contrastive Learning, SkySense V2で初登場 衛星画像の1枚=多主題を解決。詳細は次ページに。
  12. SkySense V2 pre-training Query-based Semantic Aggregation Contrastive Learning 課題:衛星画像は1枚の中に複数の地物がある。これを多主題という。 既存の対象学習は、たとえばランダムにクロップした2ビューを丸ごと対応させるため、

    片方が建物中心、もう片方が森林中心といった意味がずれて誤学習をする可能性がある。 解法:学習可能クエリを用意し、各ビューの特徴にクロスアテンション、 同じ意味だけを集約したクエリ別の表現を作成する。 そのうえで同一クエリ同士を正例、別クエリ/別画像を負例として対照学習 犬:1枚の画像に1主題 衛星:1枚の画像に複数の地物
  13. 実験設定 ・事前学習に使用したデータセットはSkySense V1と全く同じ。 合計 2,150万 のトレーニングサンプル モダリティ センサ バンド名 バンド数

    空間分解能 時系列 サンプル数 HR 光学 (RGB) 高解像度商用光学 (例: WorldView-3/4 等) R, G, B 3 高解像 (HR) 単時刻 (T=1) 21500000 MS (Sentinel-2) Sentinel-2 (MS) B2,B3,B4,B5,B6,B7,B8, B8A,B11,B12 10 中解像 時系列 (平均T=10) 21500000 SAR (Sentinel-1) Sentinel-1 (SAR) VV, VH 2 中解像 時系列 (平均T=10) 21500000 ・Pre-trainingのパラメータ 項目 設定 補足 初期トークン次元 C 352 バックボーン全体で共通 SwinV2B ウィンドウサイズ(Stage1-2) 8 前半2ステージのみ Attention ヘッドの Query 次元 32 全ブロックで一貫 MLP 拡張率 ×4 全ブロックで一貫(2層全結合) プロンプトトークン(Stage3) 各モダリティ 4 後半2ステージのみ挿入 プロンプトトークン(Stage4) 各モダリティ 4 後半2ステージのみ挿入 ・Pre-trainingの計算資源 バッチサイズ 1024, 128機のH20で。詳細はAppendix Cに記載
  14. 実験設定 データセット タスク 主モダリティ 代表入力サイズ 評価指標 備考 Dynamic-Planet (Dyna-Pla.) セマンティックセグメンテーション

    HR(光学) 1024×1024 mIoU iSAID セマンティックセグメンテーション HR(光学) 896×896 mIoU Potsdam セマンティックセグメンテーション HR(NIR/R/G/IR) 512×512 mIoU/mF1 Dynamic-S2 (Dyna-S2) セマンティックセグメンテーション MS(Sentinel-2) 256×256 mIoU DIOR 物体検出(水平) HR(光学) mAP Faster R-CNN DIOR-R 物体検出(回転) HR(光学) mAP Oriented RCNN FAIR1M 物体検出(回転) HR(光学) mAP Oriented RCNN LEVIR-CD 変化検出(バイテンポラル) HR(光学) F1/IoU OSCD 変化検出(マルチスペクトル) MS(Sentinel-2) F1/IoU Dynamic-S2 (Dyna-S2) 変化検出(時系列) MS(Sentinel-2) mIoU/F1 AID シーン分類 HR(光学) 320×320 Accuracy NWPU-RESISC45 シーン分類 HR(光学) 320×320 Accuracy BigEarthNet-S2 (BEN-S2) シーン分類(マルチラベル) MS(Sentinel-2) 128×128 mAP/F1 fMoW-S2 シーン分類 MS(Sentinel-2) 96×96 Accuracy DynamicEarthNet-MM (Dyna-MM) マルチモーダル・セマンティックセグメンテーション HR + MS + SAR 1024×1024(組合せ) mIoU PASTIS-MM マルチモーダル時系列・作物分類/マッピング HR + MS + SAR(時系列) 128×128×T OA/F1 BEN-MM マルチモーダル・シーン分類 MS + SAR 128×128 mAP/Accuracy ✓使用したデータセットの説明一覧
  15. Ablation ✓SkySense V1をベースラインとして Unified Backbone, Global Attention, Modality-specific Prompt Tokens,

    Mixture of Expert, Query-based Semantic Aggregation Contrastive Learning の機能を付与したかしないかで精度検証 Unified Backboneが最も精度向上に寄与しているほか、すべての機能が精度向上に寄与
  16. Unified Transformer Encoder そのほかのSkysense v2ならではの工夫 Modality-specific Prompt Tokens (再登場) 課題:HR/MS/SARでパターンやノイズ特性が大きく異なるにも関わらず、重みをフルで共有すると

    表現の多様性が失われる。 解法:モダリティ固有の学習可能トークン (プロンプト) を付与して、同じ重みを通しても ふるまいが少し変わるようにする。 ・Stage3, 4 (全体を見るTransformer側) に挿入 メモ:前半 (Swin) で局所を固めたうえで、 後半で各モダリティのお気持ちを入れる。 ・各モダリティにK個の学習可能ベクトルを付与、 入力トークン列に連結してSelf-Attention。
  17. Ablation ・ Query-based Semantic Aggregation Contrastive Learning の見える化 同じSemanticな特徴を集め、そのペアで対照学習する仕組みを例示。 事前学習では

    2グローバル、6ローカルのCroppingを実施。 →どんなビューから見ても同じ意味なら、同じクエリがそれを集められるように学習できていることがわかる。
  18. SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing

    単一Transformerで 複数モダリティ (High Resolution/Multispectral/SAR) を統合したうえで、 モダリティ間の解像度差や特徴多様性を改善したリモートセンシング基盤モデル ✓既存手法の多くはSkySense V1を含めモダリティごとに個別のバックボーンを訓練するものが多く、 これはパラメータの利用効率が悪い。(冗長性がある。) ✓単一Transformerで全モダリティを意味と解像度を考慮して事前学習。 ✓16データセット/7タスクでSkySense V1 と比較して平均+1.8 pt。パラメータも軽量化しつつSoTA達成。
  19. 感想 ✓基盤モデルの実利用に目が向いており、いかに運用面で効率化できるかが考えられ始めている印象。 ✓2024年-2025年で、単一のバックボーンで複数のモダリティを含むようなモデルが数多く出てきている印象。 基盤モデルのアルゴリズムも年々アップデートされているので、どう変わっているかはサーベイする価値がありそう。 流れとしては MIM (シングルモーダル) Contrastive Learning (マルチモーダル、モダリティ毎)

    Contrastive Learning (マルチモーダル、複数モダリティを単一バックボーンで) … って感じでしょうか。 ✓論文だけ読んでも、中身がどう動いているのかを想像するのが非常に難しかった。(今も中途半端) なんとなくのふんわりした理解はできているが、、、 ✓相変わらず、ダウンストリームタスクの結果の出力がない。定量的にしか判断できないのがむず痒い。 ✓GtHubにコードはまだない。SkySense V1は重みが共有されたので、近い将来公開される可能性はある。