Slide 1

Slide 1 text

SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing 第20回 SatAI.challenge 勉強会 平出 尚義 本資料で紹介する図において、引用を明記しない場合は Yingying Zhang et.al. (2025), SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing より引用するものとする。 ICCV 2025 (Poster) | arXiv:2507.13812 | Multi-modal RS Foundation Model (HR Optical / MS / SAR)

Slide 2

Slide 2 text

目次 ● 自己紹介スライド ● 研究の1ページサマリ紹介 ● 研究の背景 (Introduction) ● 提案手法 ● 実験結果 ● Ablation Studies ● Conclusion

Slide 3

Slide 3 text

発表者紹介 This image was generated by ChatGPT

Slide 4

Slide 4 text

No content

Slide 5

Slide 5 text

1ページサマリ This image was generated by ChatGPT

Slide 6

Slide 6 text

SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing 単一Transformerで 複数モダリティ (High Resolution/Multispectral/SAR) を統合したうえで、 モダリティ間の解像度差や特徴多様性を改善したリモートセンシング基盤モデル ✓既存手法の多くはSkySense V1を含めモダリティごとに個別のバックボーンを訓練するものが多く、 これはパラメータの利用効率が悪い。(冗長性がある。) ✓単一Transformerで全モダリティを意味と解像度を考慮して事前学習。 ✓16データセット/7タスクでSkySense V1 と比較して平均+1.8 pt。パラメータも軽量化しつつSoTA達成。

Slide 7

Slide 7 text

Introduction This image was generated by ChatGPT

Slide 8

Slide 8 text

背景 (衛星基盤モデルの意義とSkySense V1の位置づけ) ✓近年、MM-RSFM (Multi-Modal Remote Sensing Foundation Model) は環境モニタリング、 農業管理、災害対応、LULCマッピングなどの多様な応用先で地球観測データの活用を押し広げている。 ✓2024年に提唱されたSkySense V1は、地理情報をアライメントさせたマルチモーダル・マルチテンポラルな 基盤モデルであったが、モダリティ毎に別のバックボーンを用いる設計であり、運用面やパラメータの効率化に課題。 Skysense (v1) のアーキテクチャ Xin Guo et.al. (2024), Skysense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery モダリティ センサー 特徴 HSROI (x_HR) (高解像度光学) WorldView-3, 4 解像度高・静的・ RGB TMsI (x_Ms) (中解像度時系列 マルチスペクトル) Sentinel-2 時系列・多バンド TSARI (x_SAR) (時系列SAR) Sentinel-1 時系列・VV/VH偏 波 Student-Teacherモデルであり、 Studentが損失でパラメータ更新し、 TeacherはStudentの平均 (EMA) を追従する 最終的にはTeacher側の重みを下流へ。

Slide 9

Slide 9 text

背景 (SkySense V1の要素技術の復習) ✓Pre-trainingのコア技術 - Multi-Granularity Contrastive Learning (MGCL) pixel, object, image の3つのスケール (粒度) でTeacher, Studentの 正例/負例を構築し、自己教師あり学習を行う。 - Cross-Modal Alignment (CMA) 異なるモダリティ (光学とSAR) の特徴表現を揃える ➤異なるモダリティで観測された同じ場所の画像を、意味的に 同じ表現空間にマッピングされるようにする処理 最終的な損失はMGCLとCMAに スケールファクターを足し合わせた式 →異なる解像度、異なるモダリティを 考慮した損失と理解していただければ

Slide 10

Slide 10 text

背景 (SkySense V1の課題) ✓モダリティ別のバックボーン (HR=Swin-H, MS/SAR=ViT-L) で統一的な学習ができない。 →モダリティを横断した表現学習が限定的。設計/保守が複雑。 ✓パラメータが巨大 (約 1.26B) で非効率 →学習・推論のコストが高く、実運用やファインチューニングがしにくい。 ✓衛星画像は1枚に複数の地物 (森林、人工構造物、水域…など) が映っている。 基本的な対照学習は1枚につき1つの主要対象 (例: 犬、猫) を想定したビュー間対比が中心だが、 衛星画像は異なるビューで見ると意味的に異なるため、対照学習が安定しない。 ✓テキスト整合が画像全体、パッチを代表としたスケールでしか機能しておらず、疎。 備考:2025/08 に SkySense V1の重みが公開されました。 (GitHub) SkySense V1については SatAI.Challenge 勉強会 みんなで作るメタサーベイ:衛星データを活用したマルチモーダルAI にてレビューしておりますので、もしよろしければご覧ください。 https://speakerdeck.com/satai/skysense-a-multi-modal-remote-sensing-foundation-model-towards-universal-interpretation-for-earth-observation-imagery

Slide 11

Slide 11 text

提案手法 This image was generated by ChatGPT

Slide 12

Slide 12 text

SkySense v2 SkySense V2は、SkySense V1での課題を解決するため、 「Unified Framework for Multi-modal Learning」 を採用した統合型 MM-RSFM ①Unified Transformer Encoder: モダリティ別から単一バックボーンへ - モダリティ毎の解像度を段階的に縮約/保持する仕組み - 重みは全体で共有し、各モダリティにはモダリティ別プロンプトを付与して軽く条件付け ②対照学習手法の変更 - 1枚に複数の地物が映っている衛星画像に特化した対照学習の手法を提案

Slide 13

Slide 13 text

Unified Transformer Encoder 4つのStageで構成。まずは文言の確認。 ✓Swin V2 Block : 固定サイズのWindowでSelf-Attention 局所的なパターンを学習する ✓Transformer Block : トークン全体 (または広範囲) にSelf-Attention 広域のコンテキストを学習している。 ✓APM (Adaptive Patch Merging) : モダリティ毎に解像度を落とすか/保持するかを制御。 HR光学は段階的に縮約してトークン数を削減。 トークンの大きさが1/4, チャンネル数が倍に。 MS/SAR は大きさを保持しつつ、チャンネル数を倍に。

Slide 14

Slide 14 text

Unified Transformer Encoder Stage0. トークナイザー HR/ MS/ SAR 毎に入力埋め込みを最適化 以降のエンコーダ本体は全モダリティで共有 Stage1. SwinV2 windowの中のAttentionで局所的な特徴を抽出 Stage2. APM+SwinV2 APMでHRを縮約させ、計算量を抑制 MS/SARは必要に応じて保持 (←どういう条件?) Stage3. APM+Transformer (広範囲) APMで縮約、保持 グローバルのSelf-Attentionで広範囲の関係を取得 モダリティ・プロンプトを挿入 (後述) Stage4. APM+Transformer (超広範囲) APMで縮約、保持 超広範囲で特徴を取得し、下流タスクに適した表現に。

Slide 15

Slide 15 text

Unified Transformer Encoder よくわからないので、自分の整理のため仮のパラメータでシミュレーション ✓HR光学 (RGB、単一時期) input : 2048×2048×3 (RGB) パッチサイズ(仮): 8 パッチ数 (初期トークン数):256×256 1パッチあたりの生データ:8×8×3 (空間64pix, バンド3) →各パッチを線形写像、単一のトークナイザ埋め込み次元化 初期トークナイザ埋め込み次元:352チャネル 出力のテンソル 256×256×352 APM:空間を1/2×1/2に縮約、チャネル数2倍 ✓MS (マルチバンド、マルチテンポラル) input : 64×64×8 (band)、10時期 パッチサイズ: 1 パッチ数:64×64 1パッチあたりの生データ:1×1×8 初期トークナイザ埋め込み次元:352チャネル 出力のテンソル:64×64×10 (時期数) ×352 APM:空間は保持、チャネル数2倍 Stage1. 256×256×352 Stage2. 128×128×704 Stage3. 64×64×1408 Stage4. 32×32×2816 Stage1. 64×64×10×352 Stage2. 64×64×10×704 Stage3. 64×64×10×1408 Stage4. 64×64×10×2816 自分シミュレーションの場合、 結局はMSが最も大きな次元に。

Slide 16

Slide 16 text

Unified Transformer Encoder そのほかのSkySense V2ならではの工夫 Modality-specific Prompt Tokens 課題:HR/MS/SARでパターンやノイズ特性が大きく異なるにも関わらず、重みをフルで共有すると 表現の多様性が失われる。 解法:モダリティ固有の学習可能トークン (プロンプト) を付与して、同じ重みを通しても ふるまいが少し変わるようにする。 ・Stage3, 4 (全体を見るTransformer側) に挿入 メモ:前半 (Swin) で局所を固めたうえで、 後半で各モダリティのお気持ちを入れる。 ・各モダリティにK個の学習可能ベクトルを付与、 入力トークン列に連結してSelf-Attention。

Slide 17

Slide 17 text

SkySense V2 OverView

Slide 18

Slide 18 text

SkySense V2 pre-training ・事前学習の損失関数 ① Multi-Granularity Contrastive Learning (MGCL), SkySense V1から続投 pixel, object, image の3つのスケール (粒度) Teacher, Student正例/負例を構築し、 自己教師あり学習を行う。 ② Dense Image-Text Aligment, SkySense V2で初登場 OSMの語彙/ラベルをテキスト側埋め込みに変換し、画像⇔テキストを整合 境界の明瞭化、小さい地物の再現性を狙う。 ③ Query-based Semantic Aggregation Contrastive Learning, SkySense V2で初登場 衛星画像の1枚=多主題を解決。詳細は次ページに。

Slide 19

Slide 19 text

SkySense V2 pre-training Query-based Semantic Aggregation Contrastive Learning 課題:衛星画像は1枚の中に複数の地物がある。これを多主題という。 既存の対象学習は、たとえばランダムにクロップした2ビューを丸ごと対応させるため、 片方が建物中心、もう片方が森林中心といった意味がずれて誤学習をする可能性がある。 解法:学習可能クエリを用意し、各ビューの特徴にクロスアテンション、 同じ意味だけを集約したクエリ別の表現を作成する。 そのうえで同一クエリ同士を正例、別クエリ/別画像を負例として対照学習 犬:1枚の画像に1主題 衛星:1枚の画像に複数の地物

Slide 20

Slide 20 text

実験結果 This image was generated by ChatGPT

Slide 21

Slide 21 text

実験設定 ・事前学習に使用したデータセットはSkySense V1と全く同じ。 合計 2,150万 のトレーニングサンプル モダリティ センサ バンド名 バンド数 空間分解能 時系列 サンプル数 HR 光学 (RGB) 高解像度商用光学 (例: WorldView-3/4 等) R, G, B 3 高解像 (HR) 単時刻 (T=1) 21500000 MS (Sentinel-2) Sentinel-2 (MS) B2,B3,B4,B5,B6,B7,B8, B8A,B11,B12 10 中解像 時系列 (平均T=10) 21500000 SAR (Sentinel-1) Sentinel-1 (SAR) VV, VH 2 中解像 時系列 (平均T=10) 21500000 ・Pre-trainingのパラメータ 項目 設定 補足 初期トークン次元 C 352 バックボーン全体で共通 SwinV2B ウィンドウサイズ(Stage1-2) 8 前半2ステージのみ Attention ヘッドの Query 次元 32 全ブロックで一貫 MLP 拡張率 ×4 全ブロックで一貫(2層全結合) プロンプトトークン(Stage3) 各モダリティ 4 後半2ステージのみ挿入 プロンプトトークン(Stage4) 各モダリティ 4 後半2ステージのみ挿入 ・Pre-trainingの計算資源 バッチサイズ 1024, 128機のH20で。詳細はAppendix Cに記載

Slide 22

Slide 22 text

実験設定 データセット タスク 主モダリティ 代表入力サイズ 評価指標 備考 Dynamic-Planet (Dyna-Pla.) セマンティックセグメンテーション HR(光学) 1024×1024 mIoU iSAID セマンティックセグメンテーション HR(光学) 896×896 mIoU Potsdam セマンティックセグメンテーション HR(NIR/R/G/IR) 512×512 mIoU/mF1 Dynamic-S2 (Dyna-S2) セマンティックセグメンテーション MS(Sentinel-2) 256×256 mIoU DIOR 物体検出(水平) HR(光学) mAP Faster R-CNN DIOR-R 物体検出(回転) HR(光学) mAP Oriented RCNN FAIR1M 物体検出(回転) HR(光学) mAP Oriented RCNN LEVIR-CD 変化検出(バイテンポラル) HR(光学) F1/IoU OSCD 変化検出(マルチスペクトル) MS(Sentinel-2) F1/IoU Dynamic-S2 (Dyna-S2) 変化検出(時系列) MS(Sentinel-2) mIoU/F1 AID シーン分類 HR(光学) 320×320 Accuracy NWPU-RESISC45 シーン分類 HR(光学) 320×320 Accuracy BigEarthNet-S2 (BEN-S2) シーン分類(マルチラベル) MS(Sentinel-2) 128×128 mAP/F1 fMoW-S2 シーン分類 MS(Sentinel-2) 96×96 Accuracy DynamicEarthNet-MM (Dyna-MM) マルチモーダル・セマンティックセグメンテーション HR + MS + SAR 1024×1024(組合せ) mIoU PASTIS-MM マルチモーダル時系列・作物分類/マッピング HR + MS + SAR(時系列) 128×128×T OA/F1 BEN-MM マルチモーダル・シーン分類 MS + SAR 128×128 mAP/Accuracy ✓使用したデータセットの説明一覧

Slide 23

Slide 23 text

実験結果 ・Single Modal Tasks SkySense V2 をファインチューニングする形で比較。

Slide 24

Slide 24 text

実験結果 ・Single Modal Tasks 結論として、単一モダリティでもSkySense V2は総合的にSkySense V1を上回った。 特に変化検出で伸びが顕著。

Slide 25

Slide 25 text

実験結果 ・Multi-Modal Tasks マルチモーダルタスクについて、SkySense V1とV2で比較。 すべての場合で数値が上昇。Planetは事前学習に入れていないが、精度が向上しているの夢がある。

Slide 26

Slide 26 text

Ablation studies This image was generated by ChatGPT

Slide 27

Slide 27 text

Ablation ✓SkySense V1をベースラインとして Unified Backbone, Global Attention, Modality-specific Prompt Tokens, Mixture of Expert, Query-based Semantic Aggregation Contrastive Learning の機能を付与したかしないかで精度検証 Unified Backboneが最も精度向上に寄与しているほか、すべての機能が精度向上に寄与

Slide 28

Slide 28 text

Ablation ・Modality-specific Prompt Tokens を入れるか否かで、t-SNE (特徴量のお気持ちマップ) の分布が どのように変化するかのアブレーション。 ・本機能を入れることで各モダリティの点群が明確に分離。これすごい。 (w/oはSAR特徴量がHRの中に含まれる形なのが興味深い。)

Slide 29

Slide 29 text

Unified Transformer Encoder そのほかのSkysense v2ならではの工夫 Modality-specific Prompt Tokens (再登場) 課題:HR/MS/SARでパターンやノイズ特性が大きく異なるにも関わらず、重みをフルで共有すると 表現の多様性が失われる。 解法:モダリティ固有の学習可能トークン (プロンプト) を付与して、同じ重みを通しても ふるまいが少し変わるようにする。 ・Stage3, 4 (全体を見るTransformer側) に挿入 メモ:前半 (Swin) で局所を固めたうえで、 後半で各モダリティのお気持ちを入れる。 ・各モダリティにK個の学習可能ベクトルを付与、 入力トークン列に連結してSelf-Attention。

Slide 30

Slide 30 text

Ablation ・ Query-based Semantic Aggregation Contrastive Learning の見える化 同じSemanticな特徴を集め、そのペアで対照学習する仕組みを例示。 事前学習では 2グローバル、6ローカルのCroppingを実施。 →どんなビューから見ても同じ意味なら、同じクエリがそれを集められるように学習できていることがわかる。

Slide 31

Slide 31 text

Conclusion This image was generated by ChatGPT

Slide 32

Slide 32 text

SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing 単一Transformerで 複数モダリティ (High Resolution/Multispectral/SAR) を統合したうえで、 モダリティ間の解像度差や特徴多様性を改善したリモートセンシング基盤モデル ✓既存手法の多くはSkySense V1を含めモダリティごとに個別のバックボーンを訓練するものが多く、 これはパラメータの利用効率が悪い。(冗長性がある。) ✓単一Transformerで全モダリティを意味と解像度を考慮して事前学習。 ✓16データセット/7タスクでSkySense V1 と比較して平均+1.8 pt。パラメータも軽量化しつつSoTA達成。

Slide 33

Slide 33 text

感想 ✓基盤モデルの実利用に目が向いており、いかに運用面で効率化できるかが考えられ始めている印象。 ✓2024年-2025年で、単一のバックボーンで複数のモダリティを含むようなモデルが数多く出てきている印象。 基盤モデルのアルゴリズムも年々アップデートされているので、どう変わっているかはサーベイする価値がありそう。 流れとしては MIM (シングルモーダル) Contrastive Learning (マルチモーダル、モダリティ毎) Contrastive Learning (マルチモーダル、複数モダリティを単一バックボーンで) … って感じでしょうか。 ✓論文だけ読んでも、中身がどう動いているのかを想像するのが非常に難しかった。(今も中途半端) なんとなくのふんわりした理解はできているが、、、 ✓相変わらず、ダウンストリームタスクの結果の出力がない。定量的にしか判断できないのがむず痒い。 ✓GtHubにコードはまだない。SkySense V1は重みが共有されたので、近い将来公開される可能性はある。