Slide 1

Slide 1 text

藤野倫太郎
 1 第23回 SatAI.challenge勉強会
 Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing

Slide 2

Slide 2 text

藤野 倫太郎 東京理科大学大学院 創域理工学専攻 社会基盤工学研究科 修士1年   - 東京理科大学 水理研究室所属   - AcademiX(AIを学びたい学生が集まるコミュニティ)の運営メンバー   - 未踏アドバンス(2023) 野球の動作解析アプリの開発 研究テーマ :河川橋梁の橋脚局所洗掘(実験・混相流の数値計算) 自己紹介 2 興味のある分野:数値計算         人工知能全般(距離学習、GNN、サロゲートモデル) リモートセンシング(ハイパースペクトル等)

Slide 3

Slide 3 text

任意のバンド構成、センサ種別、解像度スケールに対応可能な汎用Remote Sensing Foundation Modelである Any Optical Model(AOM) を提案 
 3 ● 特定のスペクトル構造に依存しないトークナ イザを導入し、受容野を動的に調整可能な マ ルチスケール適応型パッチ埋め込み機構 を 導入したViTベースモデルを提案 
 ● スペクトル‐空間関係を同時に学習する 自己 教師ありマスキング および再構成に基づく事 前学習を導入
 ● Sentinel-2、Landsat、HLSを含む10以上の公 開データセットを用いた広範な実験において. 一貫して最先端(SOTA)の性能を達成するこ とを示した
 Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing 
 Li et al. (2025), “Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing”,より引用

Slide 4

Slide 4 text

Introduction:Open-Vocaburaly Semantic Segmentationの重要性 
 4 ● 近年、RS分野におけるAI技術の統合が進み、土地被覆分類、 変化検出、物体認識といった下流タスクを支援するために、さ まざまな光学リモートセンシング基盤モデル(Remote Sensing Foundation Models: RSFMs)が提案 
 ● しかし、既存のRSFMsの多くは、 固定されたバンド構成および 空間解像度で事前学習 されており、
 「全バンドが利用可能であり、かつ解像度が一定である」 とい う仮定に依存している 
 課題
 (1) バンドの欠損または追加 
 (2) 異種衛星間データ 
 (3) 未学習の解像度 
 実環境におけるシナリオでは成立せず、 
 モデルの汎化性能 および実用性を著しく制限 
 任意のバンド構成、センサ種別、解像度スケールにシームレスに 適応可能なモデルが注目されている 
 Li et al. (2025), “Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing”,より引用

Slide 5

Slide 5 text

● 事前学習と下流タスクの間に存在するバンド構成および空間スケールの不一致により、深刻なドメインギャップ が生じる問題を解決するために Any Optical Model(AOM) を提案 
 Introduction:論文の提案手法について 
 5 Li et al. (2025), “Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing”,より引用 ①Spectrum-independent Tokenizer 各バンドを独立にトークン化し、チャネル番号 に基づく符号化を組み込むことでバンド識別 性を維持 ②Multi-scale Adaptive Patch Embedding 入力画像の解像度の違いに対応するため、 擬 似逆変換 に基づくリサイズ手法を用いた マル チスケールパッチ埋め込み を導入 ③Semantic Alignment PreTraining Task 大規模事前学習を効果的に行うため、 Masked Autoencoder(MAE)を拡張し、チャネ ル毎の再構成学習およびスケール間の意味 的一貫性を保持する制約を導入

Slide 6

Slide 6 text

重要知識:Vision Transformer 
 6 変換行列で入力解像度に依存⇒単一のバッチサイズに依存 Dosovitskiy et al.(2021), “AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE”,より引用 Transformerの内部は,一つのトークンのサ イズが同じであれば,トークン数が増えても 対応できる 
 *ただし,トークン数が増えると計算量が増え る(Self-Attention)
 *MLPの部分は,Position-wise Feed-Forward Networks(位置:トークンは独立に処理) 
 トークンの次元数がそろっていれば ,Transformerの内部は入力解像度に依存 しない
 …
 Patchに分割したものを一次元ベクトルに変換 
 入力解像度やチャネル数が依存する場所

Slide 7

Slide 7 text

重要知識:FlexiViT:One Model for All Patch Sizes(Google Research, 2023) 
 7 Beyer et al. (2023), “FlexiViT: One Model for All Patch Sizes”,より引用 どんなpatch_size(トークンが持つ次元数)でも,Transformerに入力 するトークンの次元Dが同じになるように変換 
 FlexiViT 目的に応じて,Patchサイズを変えられるモデル 
 ● 標準的なViTは学習時に用いたPatchサイズにのみ良好な性能を発揮する 
 ● Patchサイズを変えるには,モデルを再学習する必要 
 …
 … p
 1
 p
 
 D
 ×
 
 D
 1
 Patch
 W
 Patchsizeを変えると新しい重みが必要⇒もとの重みをresizeする 
 …
 … p’
 1
 p ’
 
 D
 ×
 
 D
 1
 Patch
 W’
 …
 Transformer
 異なるPatch sizeの場合


Slide 8

Slide 8 text

重要知識:FlexiViT:One Model for All Patch Sizes(Google Research, 2023) 
 8 もともと定義されているカーネルを変形して適用する 
 ・元のカーネルの要素を  として,新しいカーネルを  とする 
 重要 patchsizeが変わっても 同じような特徴量(内積)を得るようにする 
 
 ・想定されているpatchsize 異なるpatchsize 
 ・想定されているpatchsizeを (バイリニア補間よるリサイズ行列行列:線形補間)で拡大  
 それぞれの内積がTransformerに入力される値 ←これが同じ値になればよい!! 
 
 
 
 
 
  
 疑似逆行列(正則でない行列の逆行列) 
 Moore-Penroseの一般逆行列
 …
 … p
 1
 p
 
 D
 ×
 
 D
 1
 Patch
 W
 ←内積の定義により.展開
 ←
 バイリニア補間行列の疑似逆行列を元のカーネルに作用させると,新しいカーネルを得ることができる 


Slide 9

Slide 9 text


 Channel-wise patch embedding 
 従来 複数チャンネルをまとめてPatch化 
 あるチャンネルの画像       に対して, 
 同じカーネル       を用いて,チャンネル毎に パッチ化
 
 
 インプットのチャンネル数に依存せず 処理可能
 提案手法: Spectrum-independent Tokenizer(SiTok) 
 9 Spectral-awre encoding 
 チャンネルのindexによって, sinusoidal encoding を与 える
 
 
 
 スペクトルの順序情報を保持しつつ, チャンネルの並 び変えに対する不変性を維持 する??
 
 k:次元番号 D:埋め込み次元
 Li et al. (2025), “Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing”,より引用

Slide 10

Slide 10 text

● 従来,Patch埋め込み層では,固定パッチサイズ をもつ単一のカーネルが用いられる 
 ● リモートセンシング(RS)画像は空間分解能やシーンスケールの幅が広く, 単一の patchサイズでは微細なテク スチャと粗い文脈構造の両方を同時に捉えることができない 
 ● 疑似逆リサイズ(PI-resize)演算子 を用いてカーネルサイズを変更する 
 提案手法: MAPE(Multi-scale Adaptive Patch Embedding)  
 10 ● 異なる受容野を持つ n個の畳み込みカーネル を保持 する(Multi-kernel Convolution bank) 
 ● 適応的カーネル選択 
 目標パッチサイズを とすると,バンク内で最も近い カーネルは次式で選択 
 
 
 
 
 
 *一致しない場合は,PI-resize を適用
 
 Li et al. (2025), “Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing”,より引用 解像度が異なっていても,受容野が一致するよ うにパッチサイズを変化可能 


Slide 11

Slide 11 text


 
 Masked Autoencoding(MAE) と Contrastive Learning を統合した自己教師あり学習手法を設計 
 ①一つの画像からn個のスケールが異なるトークン列       を並列に作成 
 ②トークンの一部をランダムにマスク 
 ③マスクしていないトークンをエンコーダに通す 
 ④2つの目的関数で学習する 
 ● Masked spectral reconstruction 
 maskしたトークンを再構成したもの  との差 
 
 
 ● Multi-scale semantic alignment 
 エンコードした出力に対してGlobal Average Pooling 
 と非線形関数gを適用
 
 
 
 異なるスケール同士での特徴量を近づけるように学習 
 学習時の損失関数は以下のように重みをつけて学習する 
 
 提案手法:Semantic Alignment Pretraining Task 
 11 チャネル単位の再構成を通じて 局所的なバンド・空間相 関を学習 すると同時に、異なるスケール間で大域的な 意味表現を整合させる ことが可能
 s():cos類似度,γ:温度パラメータ 
 Li et al. (2025), “Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing”,より引用

Slide 12

Slide 12 text

適用手順 
 ①入力画像の 空間解像度 および 画像サイズ に基づき、まず詳細表現と計算コストのバランスを考慮して、 適切なパッチ埋め込み カーネルを選択
 ②バンド構成に従って チャネルインデックス を割り当てる
 ③選択されたカーネルを用いてパッチ埋め込みを行い、その後チャネルインデックスエンコーディングを付加 
 ④生成されたトークン列に対応するよう 位置エンコーディングを補間 
 ⑤これらのトークンは事前学習済みエンコーダへ入力 され、分類、セグメンテーションなどの下流タスクにおける特徴抽出、あるいは 大規模言語モデル(LLM)への視覚入力 として利用 
 
 提案手法:多様な光学リモートセンシング(RS)データセットへ適用 
 12 Li et al. (2025), “Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing”,より引用

Slide 13

Slide 13 text

実験概要 
 ● マルチソースデータセットおよび最適化戦略を詳細に記述した事前学習 
 ● GeoBench ベンチマークおよび多様なクロスセンサーデータセットにおいて AO(Any-Optical)を包括的に評価 
 データセット :マルチソースのリモートセンシング画像から構成 
 ● 0.1 m から 100 m までの解像度範囲をカバー 
 ● 光学画像、マルチスペクトル画像、高解像度画像を含む約 156 万サンプルで構成 
 ○ SSL4EO-S12 に由来する Sentinel-2 画像(解像度 10–60 m、約 100.4 万サンプル) 
 (Wang et al., 2023)
 ○ Active Fire から取得した Landsat 8 データ(解像度 30–100 m、約 14.6 万サンプル) 
 (de Almeida Pereira et al., 2021) 
 ○ GeoPile(Mendieta et al., 2023)、fMoW(Christie et al., 2018)、OpenEarthMap(Xia et al., 2023)から得られ た高解像度 RGB 画像(解像度 0.1–30 m、約 10.8 万サンプル) 
 実験設定:実験概要・データセット  
 13 Li et al. (2025), “Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing”,より引用

Slide 14

Slide 14 text

アーキテクチャ・基本情報 
 ● エンコーダは ViT-Base アーキテクチャに基づいており、4 層のデコーダを適用 
 ● バッチサイズ 1024 、基準学習率 1×10⁻⁴ として、事前学習コーパスに対して 220 エポックの学習 
 ● マルチスケール畳み込みバンクはカーネルサイズ {16, 32, 64} で初期化 
 
 事前学習時 
 ● 学習中はパッチサイズ {16, 24, 32, 48, 64} を順に切り替えて用いる 
 *このため、再構成用に 5 つの独立したデコーダが使用 
 ● 提案する適応的カーネル選択機構は、現在サンプリングされているパッチサイズに対して 受容野が常に整合 するよう 、各畳み込みカーネルのサイズを動的に調整 
 ● 画像マスキング率は 75% に設定する。
 ● InfoNCE 損失の温度パラメータを 0.5 
 ● InfoNCE 損失と MSE 損失にそれぞれ 0.8 と 0.2 
 ● データ拡張:ランダムな水平反転およびランダムクロッピング 
 *クロップ後の画像は各データセットの元のサイズにリサイズされる。そのため、事前学習時の入力画像サイズ は固定されておらず、各データセットのネイティブな解像度に応じて変化 
 実験設定:事前学習の詳細  
 14 Li et al. (2025), “Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing”,より引用

Slide 15

Slide 15 text

● 6 つのセマンティックセグメンテーションデータセットを用いて提案手法を評価 
 ● すべての手法において バックボーンは凍結し、UPerNet セグメンテーションヘッド(Xiao et al., 2018)を 20 エ ポック学習
 実験結果:Geo-Benchによる評価  
 15 提案手法は 6 データセット中 5 つで新たな最先端( SOTA)性能を達成 空間解像度の変化 および センサ間の分布シフト の双方に対して高い頑健性を有することを示す Li et al. (2025), “Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing”,より引用

Slide 16

Slide 16 text

異なる光学センサに対する汎化性能 を評価するため、本研究では代表的な 2 つの cross-sensor リモートセンシン グデータセット を用いて検証
 ● SPARCS:Landsat-8( OLI センサ:Operational Land Imager )を用いた雲および雲影検出タスク 
 ● HLS Burn Scars:Landsat-8 と Sentinel-2( MSI センサ:Multi-Spectral Imager )を統合した Harmonized Landsat–Sentinel(HLS)を用いた 焼失痕識別タスク 
 実験結果:cross-sensor データセットでの性能  
 16 提案手法は両データセットにおいて既存手法 を大きく上回る性能を達成し、優れた cross-sensor 汎化性能を示す Li et al. (2025), “Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing”,より引用

Slide 17

Slide 17 text

実験結果:表現学習能力の評価(線形プロービング) 
 2 つの標準的なリモートセンシング分類ベンチマーク に対して 線形プロービング(LP)を実施 線形プロービングは 学習された特徴表現の質 を測定する有効な手法 1. UCM:RGB 画像を用いた土地利用分類( Yang and Newsam, 2010) 2. BigEarthNet:Sentinel-2 を用いたマルチラベルシーン分類( Sumbul et al., 2021) 
 17 両データセットにおいて SOTA 性能を達成し、異な るセンサモダリティにまたがる優れた表現学習能 力を示唆 Li et al. (2025), “Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing”,より引用

Slide 18

Slide 18 text

実験結果:任意のバンド組み合わせに対するロバスト性 
 ● 既存の RSFM は、下流タスクで使用される分光バンドが事前学習時と異なる場合、特徴抽出性能が大き く低下する傾向がある ● この問題を評価するため、 AOM のバックボーンを凍結し、 Sentinel-2 のさまざまなバンド組み合わせに 対して分類ヘッドのみを finetuningした(*EuroSAT(Helber et al. 2019)における線形プロービング ) 
 18 競合手法より 2.28〜19.09% 高い精度 を達成 利用可能なバンドが 3 本のみの場合でも 95.50% の精度を維持 柔軟な入力に対しても性能を損なうことなく対応できる独自の能力を有することを示す バンド数による性能の変化 
 バンドごとの特徴量マップ 
 Li et al. (2025), “Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing”,より引用

Slide 19

Slide 19 text

実験結果:patchサイズに関するAbulation study 
 UCM(分類タスク ) および SPARCS (セマンティックセグメンテーションタスク )を用いた部分ファインチューニング によるpatchサイズの Abulation study 
 19 ● 両タスクともに,patchサイズが変化しても 精度は安定している ● AOM が広範な空間解像度にわたって性能を維持でき、両タスクにおいて patchサイズに対して高いロバス ト性を備えていることを示す ● 特徴量マップもどのバッチサイズも 大まかに一致する特徴 を示す Li et al. (2025), “Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing”,より引用

Slide 20

Slide 20 text

実験結果:その他のAbulation study 
 損失関数の各構成要素の効果 (i) パッチ単位の MSE を最小化する局所的な分光再構成損失のみを用いた場合と、 (ii) これに加えて、マルチ スケール間の大域的なセマンティック整合性を促進する InfoNCE 損失を導入した場合を比較 
 20 InfoNCE 損失を追加することで、すべてのデータセットにお いて一貫して精度が向上 様々なスケールの大域的情報を統合すること が、より強 力で転移性の高い表現学習につながる ことを示唆 
 両者の性能差は極めて小さいことが明らかに 下流タスクにおいて正確な波長情報が利用できない場合も 多いことを考慮し、 簡便で実用的なチャネルインデックス を採用 ⇒十分に活用できていないのでは? パッチ埋め込み後のチャネルトークン列に事前情報を組み込む方法 ● 各分光バンドの中心波長を埋め込む方法と、 ● チャネルインデックス( 0, 1, 2, 3, …)を順序情報として埋め込む方法 
 Li et al. (2025), “Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing”,より引用

Slide 21

Slide 21 text

Conclusion 
 結論 ● 本論文では、任意の分光バンド構成・空間解像度・画像サイズに対応可能な、汎用的リモートセンシング基 盤モデル Any-Optical-Model(AOM) を提案 ● 10 以上の公開データセットを用いた広範な実験により、 AOM は欠損バンド、クロスセンサ、解像度変化と いった厳しい条件下において、既存の RSFM を一貫して上回る性能を示す ● これらの結果は、AOM が真に汎用的なリモートセンシング基盤モデルに向けた重要な前進であることを示 唆 限界と今後の課題 AOM に残る 2 つの課題 ● ハイパースペクトル画像や SAR などの 分布外データ に対するロバスト性については、さらなる厳密な検証 が必要である。 ● 物体検出や時系列予測といった、より広範なタスクにおける性能は未検証 より多様なセンサおよびタスクへの拡張を行うとともに、より効果的なチャネル埋め込み手法の検討や、さらに広い 空間解像度範囲にわたる特徴抽出能力の検証を進めていく 21