Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Panopticon: Advancing Any-Sensor Foundation Mod...

Avatar for SatAI.challenge SatAI.challenge
September 01, 2025

Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation

本資料はSatAI.challengeのサーベイメンバーと共に作成したものです。
SatAI.challengeは、リモートセンシング技術にAIを適用した論文の調査や、
より俯瞰した技術トレンドの調査や国際学会のメタサーベイを行う研究グループです。
speakerdeckではSatAI.challenge内での勉強会で使用した資料をWeb上で共有しています。
https://x.com/sataichallenge
紹介する論文は、「Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation」です。
この研究は、任意のセンサー構成のデータを処理できる柔軟なAny-Sensor基盤モデルであるPanopticonを提案しています。Panopticonは自己教師あり手法のDINOv2をベースに,入力するデータを「1枚の画像内」から「1つの場所に対する時空間・センサー横断的な画像群」へと拡張した新たなワークフレームを用いています。ベンチマークで最先端に匹敵する性能を維持しつつ、よりユニークなセンサー構成やスペクトル・スケールに対する汎用性を有することを示しています。

Avatar for SatAI.challenge

SatAI.challenge

September 01, 2025
Tweet

More Decks by SatAI.challenge

Other Decks in Research

Transcript

  1. 藤野 倫太郎 東京理科大学大学院 創域理工学専攻 社会基盤工学研究科 修士1年   - 東京理科大学 水理研究室所属   - AcademiX(AIを学びたい学生が集まるコミュニティ)の運営メンバー   - 未踏アドバンス(2023)

    野球の動作解析アプリの開発 研究テーマ :河川橋梁の橋脚局所洗掘(実験・混相流の数値計算) 自己紹介 2 興味のある分野:数値計算         人工知能全般(距離学習、GNN、サロゲートモデル) リモートセンシング(ハイパースペクトル等)
  2. 任意のセンサー構成のデータを処理できる、柔軟なAny-Sensor基礎モデルを提案した論文 
 3 • 地上解像度やスペクトル特性に関わらず、任意のmultispectral、またはSARセンサー等の 表現を構築でき るremote sensing foundation models

    であるPanopticon を提案
 • 任意のチャンネル数に対応,センサー情報を組み込みため, 自己教師あり学習手法であるDINOv2 をベー スとし,Generate Views ・Spectral Patch Embed を導入
 • 確立されたベンチマークで最先端に匹敵する性能を維持しつつ、 よりユニークなセンサー構成 やスペクト ル・スケールに対する汎用性 を有することを示す
 Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation 
 Leonard Waldmann et al. (2025), “Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation”,より引用
  3. Introduction:Open-Vocaburaly Semantic Segmentationの重要性 
 4 Leonard Waldmann et al. (2025),

    “Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation”,より引用 • 地球観測(EO)データは、多様な観測プラットフォームからもた らされ、それぞれスペクトルバンド、空間解像度、観測モダリ ティが異なる
 • 自然画像と比較して、リモートセンシングデータは著しく 多様 (heterogeneous) 
 ◦ 空間解像度(数センチから数キロ) 
 ◦ スペクトル特性(マルチスペクトル、ハイパースペクトル、 レーダー)
 ◦ 再訪時間(連続から静的) 
 ◦ 観測幅
 ◦ 前処理レベル(生データ、大気上端、地表面反射) 
 ◦ 観測メカニズム(能動型 vs. 受動型) 
 • これまでの研究の多くは 特定のセンサーからの入力 に限定
 
 近年、任意のセンサーを処理できる「Any-Sensor(任意のセン サー対応)」基礎モデルが注目されている 

  4. 重要知識:DINO(蒸留を用いた対照学習の自己教師あり手法) 
 6 • 大域的に切り抜いた画像と局所的に切り抜いた画像の特徴量を近づけるよう学習 
 • 2つのモデル(教師モデル&生徒モデル)を用いて学習する 
 ①教師モデルに物体全体の画像 生徒モデルに物体の部分的な画像を入力

    
 ②生徒モデルの部分的な画像の特徴量を生徒モデルの全体的な特徴量に近づける 
 *教師モデルから得られる全体的な情報を生徒モデルに蒸留している 
 Hinton, Vinyals & Dean,(,2014) “Distilling the Knowledge in a Neural Network” NIPSより引用 Meta “Advancing the state of the art in computer vision with self-supervised Transformers and 10x more efficient training”より引用 学習方法 • 生徒と教師の出力分布が似る ように学習を進める • 教師モデルは生徒モデルの重 みを指数移動平均し、更新す る • 同じような出力にならないよう にsharpening、centeringのよう な出力分布を修正している 補足) Sharpening 出力分布を尖らせる 一様な分布になることを防ぐ (生徒、教師両方 ) Centering 出力分布を均一化 一つの次元が代表することを防ぐ (教師のみ)
  5. 重要知識:DINOv2(蒸留を用いたMasked AutoEncoderの自己教師あり手法) 
 7 iBOT  DINOv2のベースの手法 
 • マスクした画像の特徴をマスクしていない画像の特徴に近づけるように学習 


    • 2つのモデル(教師モデル&生徒モデル)を用いて学習する(DINOと同じ) 
 *教師モデルから得られる欠損していない情報を生徒モデルに蒸留している 
 • CLSトークンだけではなく、Maskされたパッチの特徴量も似せる 
 
 DINOv2 
 • DINOにiBOTのパッチ特徴量も似せるように学習 
 • データセットを大規模化 
 *重複を排除したLVD-142Mという1億4200万枚の多様で重複のない大規模なデータで学習 
 Maxime Oquab et al. (2023), “DINOv2: Learning Robust Visual Features without Supervision” より引用 Jinghao Zhou et al. (2021), “DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting”. より引用
  6. • DINOv2に2つのモジュールを追加 
 ◦ Generate Views  
 DINOv2に入力するデータを 「1枚の画像内」 から「1つの場所に対する時空間・センサー横断的な画像

    群」へと拡張
 地理的位置に対して 空間的およびスペクトル的なデータ拡張 を適用
 ◦ Spectral Patch Embed 
 ▪ Cross Attentionの導入 地点ごとにチャネル数が異なっていも埋め込み可能 
 ▪ チャネルに関する情報をSpectral Embeddings, SAR Embeddingsとして取り込む 
 提案手法:Panopticon 
 8 Leonard Waldmann et al. (2025), “Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation”,より引用
  7. Random Sample  Snapshots(ある一つのセンサーデータ)の選択 
 • 同じ場所を撮影したデータ群から一つのセンサ―の種類( S1 SAR, S2 optical等)を選択

    
 Spectral Crop channelの選択 
 • xからc個のユニークなチャネルをランダムにc個選択 
 ◦ チャネル数は c low <c < c high  (Local view c low =1 c high =4 Global view c low =4 c high =13)
 Spatial Crop  場所の選択
 • random resize cropを適用し、空間的な形状をW×Hにリサイズ 
 • DINOv2に合わせて、Local viewはH=W=96, Global viewはH=W=224と設定します 
 *flips and color jitteringも実施 
 上記の処理をLocalは4回、Globalは2回繰り返し、データを作成 
 提案手法:Generate Views  「1枚の画像内」 から「1つの場所に対する時空間・センサー横断的な画像群」 へ 
 9 Leonard Waldmann et al. (2025), “Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation”,より引用
  8. 課題 地点ごとにチャネル数が異なる、通常のself-attentionだと処理できない 
 ◦ パッチの次元は固定(パッチ内のpixel数×channel数) 
 提案手法:Spectral Patch Embed① Cross-attentionの導入  
 •

    Spectral Patch Embed を導入
 ◦ Shared Patchifier 各チャンネルごとに2DConvでパッチ化 
 ◦ チャンネルの情報をEmbed⇐次のページで説明 
 ◦ cross-attentionで、チャンネルを一つのチャンネルで表現 
 ▪ 学習可能なq(クエリ)を用意し、複数のチャンネルの情報を参照して、特徴を出力する感じ 
 
 チャンネルの情報の埋め込み 通常の ViT 学習可能
 Leonard Waldmann et al. (2025), “Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation”,より引用
  9. Spectral Embeddings  対象:光学センサ
 • センサーのチャネルが持つスペクトル情報を、その中心波長 λ [nm]を用いて埋め込みを作成 
 位置埋め込みと同じ 、位置が波長になっている


    提案手法:Spectral Patch Embed② Spectral Embeddings, SAR Embeddingsの導入  
 11 SAR Embeddings 対象:SAR
 • 軌道方向(昇交、降交)と送・受信偏波(HH, VV, HV, VH)を情報として加える 
 • 3つのカテゴリに対して次元D/3(D:パッチの次元)の埋め込みを学習し、それらを連結して埋め込みとする 
 (補足) 
 送受信偏波は (送信、受信)と(垂直偏波、鉛直偏波)の組み合わせ 
 
 昇交: 北に向かう 降交: 南に向かう 
 SARは斜め横に電波を発射して 地表の様子を観測 昇交と降交では、 同じ場所でも電波が当たる方向が正反対に近くなる Leonard Waldmann et al. (2025), “Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation”,より引用
  10. データセット 
 • fMoW : fMoWとfMoW-Sentinelから構成一般的な光学波長(RGB, S2)と、商用のマルチスペクトルセンサーであ るWorldView (WV) 2/3を組み合わせ 


    ◦ GSD(地上サンプリング距離)のばらつきが大きく、非常に高解像度のRGB画像を含む 
 • MMEarth : 昇交軌道と降交軌道、およびVV, VH, HV, HH偏波といった、追加のSAR構成を提供 
 • SatlasPretrain : S1 SAR、S2光学、そしてLandsat 9の光学・熱赤外センサー 
 ◦ 全球的に 多様なフットプリントにわたる 
 • SpectralEarth : 202チャネルを持つハイパースペクトルデータセットで 
 ◦ 光学波長において非常に大きなスペクトル多様性を提供 
 実験設定:データセット  
 12 Leonard Waldmann et al. (2025), “Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation”,より引用
  11. 実験設定:モデル、評価方法 
 • モデル
 ◦ バックボーンとしてD=768のViT-B(DINOの学習済みの重みを利用) 
 ◦ 分類ヘッドとiBOTヘッドの初期重みはあらかじめfMoW(RGBのみ)で事前学習したものを利用 


    ◦ パッチ埋め込みの次元は2304 
 ◦ 生徒モデル 98.1M (12.9MがSpectral Patch Embed) 
 • モデルの学習方法
 ◦ モデルを二段階で学習
 ▪ 一段階 fMoWのみを使用 
 ▪ 二段階 全てのデータセットを使用 
       *多様なセンサーを用いてPanopticonを単純に学習させると、性能が低下する 
 ◦ 実効バッチサイズ1200で、87.5K(87500)イテレーション、(70エポックの学習) 
 ◦ 各ステージで16台のA100 40GB GPUを使用 
 • 評価
 ◦ 11の分類タスク、7のセグメンテーションタスク、4つの回帰タスク 
 ▪ 推定方法 Panopticonによって生成した特徴量を線形プロービング、kNNで推定 
 ▪ 比較モデル DINOv2、 センサー固定型モデル、Any-Sensorモデル 
 ▪ 評価方針
 ①未知のセンサー構成に汎化する能力 
 ②スケール(解像度)及びスペクトルに汎化する能力 
 ③GEO-Benchのような一般的なEOベンチマークでも性能を評価 
 13
  12. 実験①: 未知のセンサー構成に汎化する能力 に対する検証 
 • 事前学習で一度も見たことがない、 ユニークなセンサー構成に対する汎化性能を検証 
 • 検証データセット


    ◦ 商用データセット
 ◦ 極端なスペクトル分布シフトを持つデータ 
 風速推定タスクであるTropicalCyloneとDigitalTyphoon(波長10.4µm) 
 ◦ 人工的に作成したデータ
 「スペクトル畳み込み」を使って、ハイパースペクトル(HS)データから、Planet社のSuperDove(8バンド)やNASAの MODIS(16バンド)といったデータセットを再現 
 
 14 ドメイン適応させたセンサー固定型モデルは良好に機能し、しばしば従来のAny-Sensorモデルを上回りますが、 Panopticonは これらのタスクにおいてほぼ一様に優れており 、ほとんどの場合で大差をつけて上回る 従来のAny-Sensorモデル⇒ 本モデル⇒ DINOv2,固定センサーモデル 
 バックボーンを凍結したまま 2DConvを 追加し,再学習 ⇒ Leonard Waldmann et al. (2025), “Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation”,より引用
  13. 実験②:スペクトル不変性の検証 
 15 • 利用可能なチャネル数を 段階的に減ら しながらスペクトル不変性を評価 
 • データセット 


    ◦ EuroSAT とBrick Kiln (どちらもGEO-Benchによる修正版) 
 ハイパースペクトル(HS)データセット k近傍法(kNN)による分類を利用 
 ◦ EnMAP-Corine 
 線形プロービング(LP)を利用 ビン化されたチャネルのサブサンプリングを行う 
 • チャンネルをサンプリング し,評価
 • 5つのサブセットをサンプリングし、タスク評価指標の平均と標準偏差を算出 
 • サンプリングされるチャネルは全てのモデルで同一 
 Panopticonは、スペクトルサブサンプリングのほぼ全範囲にわたって高品質な表現を生成する能力を維持 Panopticonの分散(性能のばらつき)が小さい ⇒高いレベルのチャネル不変性 (スペクトル不変性)を示唆 Leonard Waldmann et al. (2025), “Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation”,より引用
  14. 実験②:スケールに対する頑健性の検証 
 16 • 段階的に粗いGSD(地上解像度)へと ダウンサンプリング し、空間解像度の低下に対するモデルの頑健性を 評価
 • データセットには

    
 ◦ EuroSATとBrick Kiln マルチスペクトル 
 ◦ RESISC45データセット RGB 
 • kNN分類を通じてスケール不変性を評価 
 Panopticonの表現(特徴量)は、 GSDの全範囲にわたって非常に安定しており、競合するモデルよりも優 れた性能を発揮 Leonard Waldmann et al. (2025), “Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation”,より引用
  15. 実験:アブレーションスタディ① 
 18 評価指標
 • MSacc: m-eurosatデータセット(RGBチャネル有り/無し)に対するkNN精度の平均 
 • SARacc:

    Eurosat-sarデータセットに対するkNNと線形プロービングの精度の平均 
 • SimmAP: HS Corineデータからチャネルサブサンプリングによってシミュレートされた2つのセンサーに対する mAP(平均適合率の平均)の平均 
 • Avg: 全ての個別タスクの平均 
 
 二段階学習において
 多様な入力で学習させると、最適 ではない結果になる
 二段階学習に関するアブレーションスタディ
 
 Leonard Waldmann et al. (2025), “Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation”,より引用
  16. 実験:アブレーションスタディ② 
 19 埋め込みベクトルに関するアブレーションスタディ
 
 Fine PE : 先ほど説明した手法
 Coarse

    : SARと光学チャネルを区別するだけの粗い埋め込み 
 None : 埋め込みを全く使用しない場合 
 Fine-std : スペクトルデータの標準偏差を加えて符号化する埋め込み 
 より詳細な情報を付与(参考資料) 
 
 ➢ Fine PEのように詳細にスペ クトル情報を付与すること で性能が向上
 ➢ スペクトルの標準偏差の情 報は有益ではない?(今回 は使用せず) Leonard Waldmann et al. (2025), “Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation”,より引用
  17. 実験:アブレーションスタディ③ 
 20 データ拡張としてセンサー画像のサンプリング のアブレーションスタディ
 
 実験内容: 
 multi-view :

    ある場所のデータを生成する際に、毎回ランダムにセンサを選ぶ 
 Single : 最初に選んだ1つのセンサを使い続ける 
 
 • 大幅に精度低下
 • 同じ場所を撮影した異なるセンサーの画像を「ビュー」としてランダムに使うことが、モデル がセンサーの違いに左右されない頑健な特徴を学習するための不可欠な要素 
 
 
 Leonard Waldmann et al. (2025), “Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation”,より引用
  18. Discussion & Conclusion 
 21 Conclusion 
 • Panopticonは、センサー固有の適応なしに任意のセンサー構成のデータを処理できる、柔軟なAny-Sensor 基礎モデル


    • DINOv2を拡張した独自のアプローチにより、標準的なベンチマークで最先端の性能を達成し、センサー構成 間での優れた汎化性能を示した 
 • Panopticonは真にセンサー非依存な表現を構築する上で、既存のどのモデルよりも一貫して優れた性能を 発揮した 
 
 Discussion 
 • 時間的な 不変性・同変性については未検証であり、今後の重要な研究課題 
 • チャネルのバンド幅情報の活用や、スペクトル畳み込みをデータ拡張として用いる手法は十分に調査できて いない 
 • 評価に用いたデータセットに多様なSARチャネルの組み合わせがなかったため、 SARデータに対する汎化 能力を包括的にテストできていない 
 • センサーの撮影時刻や処理レベルといった特性への不変性は、主にデータ拡張に依存しており、評価が困 難であった 
 

  19. 実験:アブレーションスタディ④ 
 22 チャネルアテンションのアーキテクチャ に関するアブレーションスタディ
 • パッチ埋め込み(PE)のチャネルアテンションにおける ヘッド数(n h )と埋め込み次元(D

    attn )を変化させる実験 実施
 
 • D attn ≥ 1536を使用すると、D attn = 768と比較して性能が大幅に向上 
 • ヘッド数(n h )の影響はそれほど大きくない
 Leonard Waldmann et al. (2025), “Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation”,より引用