Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing

by SatAI.challenge

Embed

Start on current slide

Slide 1

Slide 1 text

藤野倫太郎  1 第23回 SatAI.challenge勉強会  Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing

Slide 2

Slide 2 text

藤野倫太郎東京理科大学大学院　創域理工学専攻　社会基盤工学研究科　修士1年　 - 東京理科大学　水理研究室所属　　- AcademiX(AIを学びたい学生が集まるコミュニティ)の運営メンバー　　- 未踏アドバンス(2023) 野球の動作解析アプリの開発研究テーマ：河川橋梁の橋脚局所洗掘(実験・混相流の数値計算) 自己紹介 2 興味のある分野：数値計算　　　　　　　　人工知能全般(距離学習、GNN、サロゲートモデル) リモートセンシング(ハイパースペクトル等)

Slide 3

Slide 3 text

任意のバンド構成、センサ種別、解像度スケールに対応可能な汎用Remote Sensing Foundation Modelである Any Optical Model（AOM）を提案   3 ● 特定のスペクトル構造に依存しないトークナイザを導入し、受容野を動的に調整可能なマルチスケール適応型パッチ埋め込み機構を導入したViTベースモデルを提案   ● スペクトル‐空間関係を同時に学習する自己教師ありマスキングおよび再構成に基づく事前学習を導入  ● Sentinel-2、Landsat、HLSを含む10以上の公開データセットを用いた広範な実験において．一貫して最先端（SOTA）の性能を達成することを示した  Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing   Li et al. (2025), “Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing”,より引用

Slide 4

Slide 4 text

Introduction：Open-Vocaburaly Semantic Segmentationの重要性   4 ● 近年、RS分野におけるAI技術の統合が進み、土地被覆分類、変化検出、物体認識といった下流タスクを支援するために、さまざまな光学リモートセンシング基盤モデル（Remote Sensing Foundation Models: RSFMs）が提案   ● しかし、既存のRSFMsの多くは、固定されたバンド構成および空間解像度で事前学習されており、  「全バンドが利用可能であり、かつ解像度が一定である」という仮定に依存している   課題  (1) バンドの欠損または追加   (2) 異種衛星間データ   (3) 未学習の解像度   実環境におけるシナリオでは成立せず、   モデルの汎化性能および実用性を著しく制限   任意のバンド構成、センサ種別、解像度スケールにシームレスに適応可能なモデルが注目されている   Li et al. (2025), “Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing”,より引用

Slide 5

Slide 5 text

● 事前学習と下流タスクの間に存在するバンド構成および空間スケールの不一致により、深刻なドメインギャップが生じる問題を解決するために Any Optical Model（AOM）を提案   Introduction：論文の提案手法について   5 Li et al. (2025), “Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing”,より引用 ①Spectrum-independent Tokenizer 各バンドを独立にトークン化し、チャネル番号に基づく符号化を組み込むことでバンド識別性を維持 ②Multi-scale Adaptive Patch Embedding 入力画像の解像度の違いに対応するため、擬似逆変換に基づくリサイズ手法を用いたマルチスケールパッチ埋め込みを導入 ③Semantic Alignment PreTraining Task 大規模事前学習を効果的に行うため、 Masked Autoencoder（MAE）を拡張し、チャネル毎の再構成学習およびスケール間の意味的一貫性を保持する制約を導入

Slide 6

Slide 6 text

重要知識：Vision Transformer   6 変換行列で入力解像度に依存⇒単一のバッチサイズに依存 Dosovitskiy et al.(2021), “AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE”,より引用 Transformerの内部は，一つのトークンのサイズが同じであれば，トークン数が増えても対応できる   ＊ただし，トークン数が増えると計算量が増える(Self-Attention)  *MLPの部分は，Position-wise Feed-Forward Networks(位置:トークンは独立に処理)   トークンの次元数がそろっていれば，Transformerの内部は入力解像度に依存しない  …  Patchに分割したものを一次元ベクトルに変換   入力解像度やチャネル数が依存する場所

Slide 7

Slide 7 text

重要知識：FlexiViT:One Model for All Patch Sizes(Google Research, 2023)   7 Beyer et al. (2023), “FlexiViT: One Model for All Patch Sizes”,より引用どんなpatch_size(トークンが持つ次元数)でも，Transformerに入力するトークンの次元Dが同じになるように変換   FlexiViT 目的に応じて，Patchサイズを変えられるモデル   ● 標準的なViTは学習時に用いたPatchサイズにのみ良好な性能を発揮する   ● Patchサイズを変えるには，モデルを再学習する必要   …  … p  1  p    D  ×    D  1  Patch  W  Patchsizeを変えると新しい重みが必要⇒もとの重みをresizeする   …  … p’  1  p ’    D  ×    D  1  Patch  W’  …  Transformer  異なるPatch sizeの場合 

Slide 8

Slide 8 text

重要知識：FlexiViT:One Model for All Patch Sizes(Google Research, 2023)   8 もともと定義されているカーネルを変形して適用する   ・元のカーネルの要素を　として，新しいカーネルを　とする   重要　patchsizeが変わっても同じような特徴量(内積)を得るようにする     ・想定されているpatchsize 異なるpatchsize   ・想定されているpatchsizeを (バイリニア補間よるリサイズ行列行列：線形補間)で拡大　   それぞれの内積がTransformerに入力される値　←これが同じ値になればよい！！             　  疑似逆行列(正則でない行列の逆行列)   Moore-Penroseの一般逆行列  …  … p  1  p    D  ×    D  1  Patch  W  ←内積の定義により．展開  ←  バイリニア補間行列の疑似逆行列を元のカーネルに作用させると，新しいカーネルを得ることができる  

Slide 9

Slide 9 text

  Channel-wise patch embedding   従来　複数チャンネルをまとめてPatch化   あるチャンネルの画像　　　　　　　に対して，   同じカーネル　　　　　　　を用いて，チャンネル毎にパッチ化      インプットのチャンネル数に依存せず処理可能  提案手法： Spectrum-independent Tokenizer(SiTok)   9 Spectral-awre encoding   チャンネルのindexによって， sinusoidal encoding を与える        スペクトルの順序情報を保持しつつ，チャンネルの並び変えに対する不変性を維持する？？    k:次元番号　D:埋め込み次元  Li et al. (2025), “Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing”,より引用

Slide 10

Slide 10 text

● 従来，Patch埋め込み層では，固定パッチサイズをもつ単一のカーネルが用いられる   ● リモートセンシング（RS）画像は空間分解能やシーンスケールの幅が広く，単一の patchサイズでは微細なテクスチャと粗い文脈構造の両方を同時に捉えることができない   ● 疑似逆リサイズ（PI-resize）演算子を用いてカーネルサイズを変更する   提案手法： MAPE(Multi-scale Adaptive Patch Embedding)　   10 ● 異なる受容野を持つ n個の畳み込みカーネルを保持する(Multi-kernel Convolution bank)   ● 適応的カーネル選択   目標パッチサイズをとすると，バンク内で最も近いカーネルは次式で選択             ＊一致しない場合は，PI-resize を適用    Li et al. (2025), “Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing”,より引用解像度が異なっていても，受容野が一致するようにパッチサイズを変化可能  

Slide 11

Slide 11 text

    Masked Autoencoding（MAE）と Contrastive Learning を統合した自己教師あり学習手法を設計   ①一つの画像からn個のスケールが異なるトークン列　　　　　　　を並列に作成   ②トークンの一部をランダムにマスク   ③マスクしていないトークンをエンコーダに通す   ④2つの目的関数で学習する   ● Masked spectral reconstruction   maskしたトークンを再構成したもの　　との差       ● Multi-scale semantic alignment   エンコードした出力に対してGlobal Average Pooling   と非線形関数gを適用        異なるスケール同士での特徴量を近づけるように学習   学習時の損失関数は以下のように重みをつけて学習する     提案手法：Semantic Alignment Pretraining Task   11 チャネル単位の再構成を通じて局所的なバンド・空間相関を学習すると同時に、異なるスケール間で大域的な意味表現を整合させることが可能  s():cos類似度，γ：温度パラメータ   Li et al. (2025), “Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing”,より引用

Slide 12

Slide 12 text

適用手順   ①入力画像の空間解像度および画像サイズに基づき、まず詳細表現と計算コストのバランスを考慮して、適切なパッチ埋め込みカーネルを選択  ②バンド構成に従ってチャネルインデックスを割り当てる  ③選択されたカーネルを用いてパッチ埋め込みを行い、その後チャネルインデックスエンコーディングを付加   ④生成されたトークン列に対応するよう位置エンコーディングを補間   ⑤これらのトークンは事前学習済みエンコーダへ入力され、分類、セグメンテーションなどの下流タスクにおける特徴抽出、あるいは大規模言語モデル（LLM）への視覚入力として利用     提案手法：多様な光学リモートセンシング（RS）データセットへ適用   12 Li et al. (2025), “Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing”,より引用

Slide 13

Slide 13 text

実験概要   ● マルチソースデータセットおよび最適化戦略を詳細に記述した事前学習   ● GeoBench ベンチマークおよび多様なクロスセンサーデータセットにおいて AO（Any-Optical）を包括的に評価   データセット：マルチソースのリモートセンシング画像から構成   ● 0.1 m から 100 m までの解像度範囲をカバー   ● 光学画像、マルチスペクトル画像、高解像度画像を含む約 156 万サンプルで構成   ○ SSL4EO-S12 に由来する Sentinel-2 画像（解像度 10–60 m、約 100.4 万サンプル）   （Wang et al., 2023）  ○ Active Fire から取得した Landsat 8 データ（解像度 30–100 m、約 14.6 万サンプル）   （de Almeida Pereira et al., 2021）   ○ GeoPile（Mendieta et al., 2023）、fMoW（Christie et al., 2018）、OpenEarthMap（Xia et al., 2023）から得られた高解像度 RGB 画像（解像度 0.1–30 m、約 10.8 万サンプル）   実験設定：実験概要・データセット　   13 Li et al. (2025), “Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing”,より引用

Slide 14

Slide 14 text

アーキテクチャ・基本情報   ● エンコーダは ViT-Base アーキテクチャに基づいており、4 層のデコーダを適用   ● バッチサイズ 1024 、基準学習率 1×10⁻⁴ として、事前学習コーパスに対して 220 エポックの学習   ● マルチスケール畳み込みバンクはカーネルサイズ {16, 32, 64} で初期化     事前学習時   ● 学習中はパッチサイズ {16, 24, 32, 48, 64} を順に切り替えて用いる   ＊このため、再構成用に 5 つの独立したデコーダが使用   ● 提案する適応的カーネル選択機構は、現在サンプリングされているパッチサイズに対して受容野が常に整合するよう、各畳み込みカーネルのサイズを動的に調整   ● 画像マスキング率は 75% に設定する。  ● InfoNCE 損失の温度パラメータを 0.5   ● InfoNCE 損失と MSE 損失にそれぞれ 0.8 と 0.2   ● データ拡張：ランダムな水平反転およびランダムクロッピング   ＊クロップ後の画像は各データセットの元のサイズにリサイズされる。そのため、事前学習時の入力画像サイズは固定されておらず、各データセットのネイティブな解像度に応じて変化   実験設定：事前学習の詳細　   14 Li et al. (2025), “Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing”,より引用

Slide 15

Slide 15 text

● 6 つのセマンティックセグメンテーションデータセットを用いて提案手法を評価   ● すべての手法においてバックボーンは凍結し、UPerNet セグメンテーションヘッド（Xiao et al., 2018）を 20 エポック学習  実験結果：Geo-Benchによる評価　   15 提案手法は 6 データセット中 5 つで新たな最先端（ SOTA）性能を達成空間解像度の変化およびセンサ間の分布シフトの双方に対して高い頑健性を有することを示す Li et al. (2025), “Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing”,より引用

Slide 16

Slide 16 text

異なる光学センサに対する汎化性能を評価するため、本研究では代表的な 2 つの cross-sensor リモートセンシングデータセットを用いて検証  ● SPARCS：Landsat-8（ OLI センサ：Operational Land Imager ）を用いた雲および雲影検出タスク   ● HLS Burn Scars：Landsat-8 と Sentinel-2（ MSI センサ：Multi-Spectral Imager ）を統合した Harmonized Landsat–Sentinel（HLS）を用いた焼失痕識別タスク   実験結果：cross-sensor データセットでの性能　   16 提案手法は両データセットにおいて既存手法を大きく上回る性能を達成し、優れた cross-sensor 汎化性能を示す Li et al. (2025), “Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing”,より引用

Slide 17

Slide 17 text

実験結果：表現学習能力の評価(線形プロービング)   2 つの標準的なリモートセンシング分類ベンチマークに対して線形プロービング(LP)を実施線形プロービングは学習された特徴表現の質を測定する有効な手法 1. UCM：RGB 画像を用いた土地利用分類（ Yang and Newsam, 2010） 2. BigEarthNet：Sentinel-2 を用いたマルチラベルシーン分類（ Sumbul et al., 2021）   17 両データセットにおいて SOTA 性能を達成し、異なるセンサモダリティにまたがる優れた表現学習能力を示唆 Li et al. (2025), “Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing”,より引用

Slide 18

Slide 18 text

実験結果：任意のバンド組み合わせに対するロバスト性   ● 既存の RSFM は、下流タスクで使用される分光バンドが事前学習時と異なる場合、特徴抽出性能が大きく低下する傾向がある ● この問題を評価するため、 AOM のバックボーンを凍結し、 Sentinel-2 のさまざまなバンド組み合わせに対して分類ヘッドのみを finetuningした(*EuroSAT（Helber et al. 2019）における線形プロービング )   18 競合手法より 2.28〜19.09% 高い精度を達成利用可能なバンドが 3 本のみの場合でも 95.50% の精度を維持柔軟な入力に対しても性能を損なうことなく対応できる独自の能力を有することを示すバンド数による性能の変化   バンドごとの特徴量マップ   Li et al. (2025), “Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing”,より引用

Slide 19

Slide 19 text

実験結果：patchサイズに関するAbulation study   UCM(分類タスク ) および SPARCS (セマンティックセグメンテーションタスク )を用いた部分ファインチューニングによるpatchサイズの Abulation study   19 ● 両タスクともに，patchサイズが変化しても精度は安定している ● AOM が広範な空間解像度にわたって性能を維持でき、両タスクにおいて patchサイズに対して高いロバスト性を備えていることを示す ● 特徴量マップもどのバッチサイズも大まかに一致する特徴を示す Li et al. (2025), “Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing”,より引用

Slide 20

Slide 20 text

実験結果：その他のAbulation study   損失関数の各構成要素の効果 (i) パッチ単位の MSE を最小化する局所的な分光再構成損失のみを用いた場合と、 (ii) これに加えて、マルチスケール間の大域的なセマンティック整合性を促進する InfoNCE 損失を導入した場合を比較   20 InfoNCE 損失を追加することで、すべてのデータセットにおいて一貫して精度が向上様々なスケールの大域的情報を統合することが、より強力で転移性の高い表現学習につながることを示唆   両者の性能差は極めて小さいことが明らかに下流タスクにおいて正確な波長情報が利用できない場合も多いことを考慮し、簡便で実用的なチャネルインデックスを採用 ⇒十分に活用できていないのでは？パッチ埋め込み後のチャネルトークン列に事前情報を組み込む方法 ● 各分光バンドの中心波長を埋め込む方法と、 ● チャネルインデックス（ 0, 1, 2, 3, …）を順序情報として埋め込む方法   Li et al. (2025), “Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing”,より引用

Slide 21

Slide 21 text

Conclusion   結論 ● 本論文では、任意の分光バンド構成・空間解像度・画像サイズに対応可能な、汎用的リモートセンシング基盤モデル Any-Optical-Model（AOM）を提案 ● 10 以上の公開データセットを用いた広範な実験により、 AOM は欠損バンド、クロスセンサ、解像度変化といった厳しい条件下において、既存の RSFM を一貫して上回る性能を示す ● これらの結果は、AOM が真に汎用的なリモートセンシング基盤モデルに向けた重要な前進であることを示唆限界と今後の課題 AOM に残る 2 つの課題 ● ハイパースペクトル画像や SAR などの分布外データに対するロバスト性については、さらなる厳密な検証が必要である。 ● 物体検出や時系列予測といった、より広範なタスクにおける性能は未検証より多様なセンサおよびタスクへの拡張を行うとともに、より効果的なチャネル埋め込み手法の検討や、さらに広い空間解像度範囲にわたる特徴抽出能力の検証を進めていく 21