Slide 1

Slide 1 text

藤野倫太郎
 1 第17回 SatAI.challenge勉強会
 Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation

Slide 2

Slide 2 text

藤野 倫太郎 東京理科大学大学院 創域理工学専攻 社会基盤工学研究科 修士1年   - 東京理科大学 水理研究室所属   - AcademiX(AIを学びたい学生が集まるコミュニティ)の運営メンバー   - 未踏アドバンス(2023) 野球の動作解析アプリの開発 研究テーマ :河川橋梁の橋脚局所洗掘(実験・混相流の数値計算) 自己紹介 2 興味のある分野:数値計算         人工知能全般(距離学習、GNN、サロゲートモデル) リモートセンシング(ハイパースペクトル等)

Slide 3

Slide 3 text

任意のセンサー構成のデータを処理できる、柔軟なAny-Sensor基礎モデルを提案した論文 
 3 ● 地上解像度やスペクトル特性に関わらず、任意のmultispectral、またはSARセンサー等の 表現を構築でき るremote sensing foundation models であるPanopticon を提案
 ● 任意のチャンネル数に対応,センサー情報を組み込みため, 自己教師あり学習手法であるDINOv2 をベー スとし,Generate Views ・Spectral Patch Embed を導入
 ● 確立されたベンチマークで最先端に匹敵する性能を維持しつつ、 よりユニークなセンサー構成 やスペクト ル・スケールに対する汎用性 を有することを示す
 Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation 
 Leonard Waldmann et al. (2025), “Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation”,より引用

Slide 4

Slide 4 text

Introduction:Open-Vocaburaly Semantic Segmentationの重要性 
 4 Leonard Waldmann et al. (2025), “Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation”,より引用 ● 地球観測(EO)データは、多様な観測プラットフォームからもた らされ、それぞれスペクトルバンド、空間解像度、観測モダリ ティが異なる
 ● 自然画像と比較して、リモートセンシングデータは著しく 多様 (heterogeneous) 
 ○ 空間解像度(数センチから数キロ) 
 ○ スペクトル特性(マルチスペクトル、ハイパースペクトル、 レーダー)
 ○ 再訪時間(連続から静的) 
 ○ 観測幅
 ○ 前処理レベル(生データ、大気上端、地表面反射) 
 ○ 観測メカニズム(能動型 vs. 受動型) 
 ● これまでの研究の多くは 特定のセンサーからの入力 に限定
 
 近年、任意のセンサーを処理できる「Any-Sensor(任意のセン サー対応)」基礎モデルが注目されている 


Slide 5

Slide 5 text

● Visionの自己教師あり学習手法であるDINOv2のアーキテクチャと学習フレームワークを基盤とし、多様なリモー トセンシングデータに対応するため、Generate ViewsとSpectral Patch Embedを加えたPanopticonを提案 
 Introduction:論文の提案手法について 
 5 Leonard Waldmann et al. (2025), “Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation”,より引用

Slide 6

Slide 6 text

重要知識:DINO(蒸留を用いた対照学習の自己教師あり手法) 
 6 ● 大域的に切り抜いた画像と局所的に切り抜いた画像の特徴量を近づけるよう学習 
 ● 2つのモデル(教師モデル&生徒モデル)を用いて学習する 
 ①教師モデルに物体全体の画像 生徒モデルに物体の部分的な画像を入力 
 ②生徒モデルの部分的な画像の特徴量を生徒モデルの全体的な特徴量に近づける 
 *教師モデルから得られる全体的な情報を生徒モデルに蒸留している 
 Hinton, Vinyals & Dean,(,2014) “Distilling the Knowledge in a Neural Network” NIPSより引用 Meta “Advancing the state of the art in computer vision with self-supervised Transformers and 10x more efficient training”より引用 学習方法 ● 生徒と教師の出力分布が似る ように学習を進める ● 教師モデルは生徒モデルの重 みを指数移動平均し、更新す る ● 同じような出力にならないよう にsharpening、centeringのよう な出力分布を修正している 補足) Sharpening 出力分布を尖らせる 一様な分布になることを防ぐ (生徒、教師両方 ) Centering 出力分布を均一化 一つの次元が代表することを防ぐ (教師のみ)

Slide 7

Slide 7 text

重要知識:DINOv2(蒸留を用いたMasked AutoEncoderの自己教師あり手法) 
 7 iBOT  DINOv2のベースの手法 
 ● マスクした画像の特徴をマスクしていない画像の特徴に近づけるように学習 
 ● 2つのモデル(教師モデル&生徒モデル)を用いて学習する(DINOと同じ) 
 *教師モデルから得られる欠損していない情報を生徒モデルに蒸留している 
 ● CLSトークンだけではなく、Maskされたパッチの特徴量も似せる 
 
 DINOv2 
 ● DINOにiBOTのパッチ特徴量も似せるように学習 
 ● データセットを大規模化 
 *重複を排除したLVD-142Mという1億4200万枚の多様で重複のない大規模なデータで学習 
 Maxime Oquab et al. (2023), “DINOv2: Learning Robust Visual Features without Supervision” より引用 Jinghao Zhou et al. (2021), “DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting”. より引用

Slide 8

Slide 8 text

● DINOv2に2つのモジュールを追加 
 ○ Generate Views  
 DINOv2に入力するデータを 「1枚の画像内」 から「1つの場所に対する時空間・センサー横断的な画像 群」へと拡張
 地理的位置に対して 空間的およびスペクトル的なデータ拡張 を適用
 ○ Spectral Patch Embed 
 ■ Cross Attentionの導入 地点ごとにチャネル数が異なっていも埋め込み可能 
 ■ チャネルに関する情報をSpectral Embeddings, SAR Embeddingsとして取り込む 
 提案手法:Panopticon 
 8 Leonard Waldmann et al. (2025), “Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation”,より引用

Slide 9

Slide 9 text

Random Sample  Snapshots(ある一つのセンサーデータ)の選択 
 ● 同じ場所を撮影したデータ群から一つのセンサ―の種類( S1 SAR, S2 optical等)を選択 
 Spectral Crop channelの選択 
 ● xからc個のユニークなチャネルをランダムにc個選択 
 ○ チャネル数は c low

Slide 10

Slide 10 text

課題 地点ごとにチャネル数が異なる、通常のself-attentionだと処理できない 
 ○ パッチの次元は固定(パッチ内のpixel数×channel数) 
 提案手法:Spectral Patch Embed① Cross-attentionの導入  
 ● Spectral Patch Embed を導入
 ○ Shared Patchifier 各チャンネルごとに2DConvでパッチ化 
 ○ チャンネルの情報をEmbed⇐次のページで説明 
 ○ cross-attentionで、チャンネルを一つのチャンネルで表現 
 ■ 学習可能なq(クエリ)を用意し、複数のチャンネルの情報を参照して、特徴を出力する感じ 
 
 チャンネルの情報の埋め込み 通常の ViT 学習可能
 Leonard Waldmann et al. (2025), “Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation”,より引用

Slide 11

Slide 11 text

Spectral Embeddings  対象:光学センサ
 ● センサーのチャネルが持つスペクトル情報を、その中心波長 λ [nm]を用いて埋め込みを作成 
 位置埋め込みと同じ 、位置が波長になっている
 提案手法:Spectral Patch Embed② Spectral Embeddings, SAR Embeddingsの導入  
 11 SAR Embeddings 対象:SAR
 ● 軌道方向(昇交、降交)と送・受信偏波(HH, VV, HV, VH)を情報として加える 
 ● 3つのカテゴリに対して次元D/3(D:パッチの次元)の埋め込みを学習し、それらを連結して埋め込みとする 
 (補足) 
 送受信偏波は (送信、受信)と(垂直偏波、鉛直偏波)の組み合わせ 
 
 昇交: 北に向かう 降交: 南に向かう 
 SARは斜め横に電波を発射して 地表の様子を観測 昇交と降交では、 同じ場所でも電波が当たる方向が正反対に近くなる Leonard Waldmann et al. (2025), “Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation”,より引用

Slide 12

Slide 12 text

データセット 
 ● fMoW : fMoWとfMoW-Sentinelから構成一般的な光学波長(RGB, S2)と、商用のマルチスペクトルセンサーであ るWorldView (WV) 2/3を組み合わせ 
 ○ GSD(地上サンプリング距離)のばらつきが大きく、非常に高解像度のRGB画像を含む 
 ● MMEarth : 昇交軌道と降交軌道、およびVV, VH, HV, HH偏波といった、追加のSAR構成を提供 
 ● SatlasPretrain : S1 SAR、S2光学、そしてLandsat 9の光学・熱赤外センサー 
 ○ 全球的に 多様なフットプリントにわたる 
 ● SpectralEarth : 202チャネルを持つハイパースペクトルデータセットで 
 ○ 光学波長において非常に大きなスペクトル多様性を提供 
 実験設定:データセット  
 12 Leonard Waldmann et al. (2025), “Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation”,より引用

Slide 13

Slide 13 text

実験設定:モデル、評価方法 
 ● モデル
 ○ バックボーンとしてD=768のViT-B(DINOの学習済みの重みを利用) 
 ○ 分類ヘッドとiBOTヘッドの初期重みはあらかじめfMoW(RGBのみ)で事前学習したものを利用 
 ○ パッチ埋め込みの次元は2304 
 ○ 生徒モデル 98.1M (12.9MがSpectral Patch Embed) 
 ● モデルの学習方法
 ○ モデルを二段階で学習
 ■ 一段階 fMoWのみを使用 
 ■ 二段階 全てのデータセットを使用 
       *多様なセンサーを用いてPanopticonを単純に学習させると、性能が低下する 
 ○ 実効バッチサイズ1200で、87.5K(87500)イテレーション、(70エポックの学習) 
 ○ 各ステージで16台のA100 40GB GPUを使用 
 ● 評価
 ○ 11の分類タスク、7のセグメンテーションタスク、4つの回帰タスク 
 ■ 推定方法 Panopticonによって生成した特徴量を線形プロービング、kNNで推定 
 ■ 比較モデル DINOv2、 センサー固定型モデル、Any-Sensorモデル 
 ■ 評価方針
 ①未知のセンサー構成に汎化する能力 
 ②スケール(解像度)及びスペクトルに汎化する能力 
 ③GEO-Benchのような一般的なEOベンチマークでも性能を評価 
 13

Slide 14

Slide 14 text

実験①: 未知のセンサー構成に汎化する能力 に対する検証 
 ● 事前学習で一度も見たことがない、 ユニークなセンサー構成に対する汎化性能を検証 
 ● 検証データセット
 ○ 商用データセット
 ○ 極端なスペクトル分布シフトを持つデータ 
 風速推定タスクであるTropicalCyloneとDigitalTyphoon(波長10.4µm) 
 ○ 人工的に作成したデータ
 「スペクトル畳み込み」を使って、ハイパースペクトル(HS)データから、Planet社のSuperDove(8バンド)やNASAの MODIS(16バンド)といったデータセットを再現 
 
 14 ドメイン適応させたセンサー固定型モデルは良好に機能し、しばしば従来のAny-Sensorモデルを上回りますが、 Panopticonは これらのタスクにおいてほぼ一様に優れており 、ほとんどの場合で大差をつけて上回る 従来のAny-Sensorモデル⇒ 本モデル⇒ DINOv2,固定センサーモデル 
 バックボーンを凍結したまま 2DConvを 追加し,再学習 ⇒ Leonard Waldmann et al. (2025), “Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation”,より引用

Slide 15

Slide 15 text

実験②:スペクトル不変性の検証 
 15 ● 利用可能なチャネル数を 段階的に減ら しながらスペクトル不変性を評価 
 ● データセット 
 ○ EuroSAT とBrick Kiln (どちらもGEO-Benchによる修正版) 
 ハイパースペクトル(HS)データセット k近傍法(kNN)による分類を利用 
 ○ EnMAP-Corine 
 線形プロービング(LP)を利用 ビン化されたチャネルのサブサンプリングを行う 
 ● チャンネルをサンプリング し,評価
 ● 5つのサブセットをサンプリングし、タスク評価指標の平均と標準偏差を算出 
 ● サンプリングされるチャネルは全てのモデルで同一 
 Panopticonは、スペクトルサブサンプリングのほぼ全範囲にわたって高品質な表現を生成する能力を維持 Panopticonの分散(性能のばらつき)が小さい ⇒高いレベルのチャネル不変性 (スペクトル不変性)を示唆 Leonard Waldmann et al. (2025), “Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation”,より引用

Slide 16

Slide 16 text

実験②:スケールに対する頑健性の検証 
 16 ● 段階的に粗いGSD(地上解像度)へと ダウンサンプリング し、空間解像度の低下に対するモデルの頑健性を 評価
 ● データセットには 
 ○ EuroSATとBrick Kiln マルチスペクトル 
 ○ RESISC45データセット RGB 
 ● kNN分類を通じてスケール不変性を評価 
 Panopticonの表現(特徴量)は、 GSDの全範囲にわたって非常に安定しており、競合するモデルよりも優 れた性能を発揮 Leonard Waldmann et al. (2025), “Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation”,より引用

Slide 17

Slide 17 text

● GEO-Benchに含まれる6つの分類データセットと6つのセグメンテーションデータセットにおいて、既存のセン サー固定型モデルおよびAny-Sensorモデルを比較 
 
 実験④:一般的なセンサーでの性能 
 17 Panopticonは、いくつかのタスクで 最先端( SOTA)の結果を示し、残りのタスクでも競争力のある性能を発揮 Leonard Waldmann et al. (2025), “Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation”,より引用

Slide 18

Slide 18 text

実験:アブレーションスタディ① 
 18 評価指標
 ● MSacc: m-eurosatデータセット(RGBチャネル有り/無し)に対するkNN精度の平均 
 ● SARacc: Eurosat-sarデータセットに対するkNNと線形プロービングの精度の平均 
 ● SimmAP: HS Corineデータからチャネルサブサンプリングによってシミュレートされた2つのセンサーに対する mAP(平均適合率の平均)の平均 
 ● Avg: 全ての個別タスクの平均 
 
 二段階学習において
 多様な入力で学習させると、最適 ではない結果になる
 二段階学習に関するアブレーションスタディ
 
 Leonard Waldmann et al. (2025), “Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation”,より引用

Slide 19

Slide 19 text

実験:アブレーションスタディ② 
 19 埋め込みベクトルに関するアブレーションスタディ
 
 Fine PE : 先ほど説明した手法
 Coarse : SARと光学チャネルを区別するだけの粗い埋め込み 
 None : 埋め込みを全く使用しない場合 
 Fine-std : スペクトルデータの標準偏差を加えて符号化する埋め込み 
 より詳細な情報を付与(参考資料) 
 
 ➢ Fine PEのように詳細にスペ クトル情報を付与すること で性能が向上
 ➢ スペクトルの標準偏差の情 報は有益ではない?(今回 は使用せず) Leonard Waldmann et al. (2025), “Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation”,より引用

Slide 20

Slide 20 text

実験:アブレーションスタディ③ 
 20 データ拡張としてセンサー画像のサンプリング のアブレーションスタディ
 
 実験内容: 
 multi-view : ある場所のデータを生成する際に、毎回ランダムにセンサを選ぶ 
 Single : 最初に選んだ1つのセンサを使い続ける 
 
 ● 大幅に精度低下
 ● 同じ場所を撮影した異なるセンサーの画像を「ビュー」としてランダムに使うことが、モデル がセンサーの違いに左右されない頑健な特徴を学習するための不可欠な要素 
 
 
 Leonard Waldmann et al. (2025), “Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation”,より引用

Slide 21

Slide 21 text

Discussion & Conclusion 
 21 Conclusion 
 ● Panopticonは、センサー固有の適応なしに任意のセンサー構成のデータを処理できる、柔軟なAny-Sensor 基礎モデル
 ● DINOv2を拡張した独自のアプローチにより、標準的なベンチマークで最先端の性能を達成し、センサー構成 間での優れた汎化性能を示した 
 ● Panopticonは真にセンサー非依存な表現を構築する上で、既存のどのモデルよりも一貫して優れた性能を 発揮した 
 
 Discussion 
 ● 時間的な 不変性・同変性については未検証であり、今後の重要な研究課題 
 ● チャネルのバンド幅情報の活用や、スペクトル畳み込みをデータ拡張として用いる手法は十分に調査できて いない 
 ● 評価に用いたデータセットに多様なSARチャネルの組み合わせがなかったため、 SARデータに対する汎化 能力を包括的にテストできていない 
 ● センサーの撮影時刻や処理レベルといった特性への不変性は、主にデータ拡張に依存しており、評価が困 難であった 
 


Slide 22

Slide 22 text

実験:アブレーションスタディ④ 
 22 チャネルアテンションのアーキテクチャ に関するアブレーションスタディ
 ● パッチ埋め込み(PE)のチャネルアテンションにおける ヘッド数(n h )と埋め込み次元(D attn )を変化させる実験 実施
 
 ● D attn ≥ 1536を使用すると、D attn = 768と比較して性能が大幅に向上 
 ● ヘッド数(n h )の影響はそれほど大きくない
 Leonard Waldmann et al. (2025), “Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation”,より引用

Slide 23

Slide 23 text

参考資料  
 ● KNN (K近傍法)とは、未分類のデータポイントを、データセット内(訓練)の最も近いk個のデータ(近傍)の多数決に基づい て分類・予測する機械学習アルゴリズム 
 ● 単純な線形分類器を使って、表現からラベル(例:言語やジャンル)を予測すること 重みは学習 
 
 
 
 
 23 Leonard Waldmann et al. (2025), “Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation”,より引用