Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications

Slide 1

Slide 1 text

第6回 SatAI.challenge勉強会  Prithvi-EO-2.0 :  A Versatile Multi-Temporal Foundation Model   for Earth Observation Applications  平出尚義  本資料で紹介する図において、引用を明記しない場合は Daniela et al. (2024), “Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications”, arxiv, https://arxiv.org/abs/2412.02732 より引用

Slide 2

Slide 2 text

目次  ● 自己紹介スライド  ● 研究の1ページサマリ紹介   ● 研究の背景 (Introduction)   ● データセットについて (Dataset descrption and sampling)   ● 学習とモデル (Pretraining and Model Architecture)   ● ベンチマーク評価 (Benchmarking)   ● 下流タスク_ファインチューニング (Downstream Tasks)   ● 結論 (Conclusion) 

Slide 3

Slide 3 text

発表者紹介 This image was generated by ChatGPT

Slide 4

Slide 4 text

4 自己紹介  平出尚義 (ひらでなおよし)     一般財団法人リモート・センシング技術センター (RESTEC)   つくば事業所 ALOS系解析研究課 (2020/04 - 今現在)     業務  　・国/地域レベルでの土地利用土地被覆分類   　・衛星の校正検証 (ラジオメトリック / ジオメトリック)   　・衛星データ×AI系 (抽出、分類、超解像、基盤モデル)   JAXA土地利用土地被覆図   校正検証業務 (ジオメトリック)   N.Hirade et al. (2023), “光学・SAR衛星データに対する高精度な教師・検証データを低コストで取得するためのRIL及び判読システムの開発”, 日本リモートセンシング学会第75回学術講演会論文集, 29-30より引用

Slide 5

Slide 5 text

１ページサマリ This image was generated by ChatGPT

Slide 6

Slide 6 text

Prithvi-EO-2.0 :   A Versatile Multi-Temporal Foundation Model for Earth Observation Applications   NASA・IBMが新しい地理空間基盤モデル Prithvi-EO-2.0を発表   ● Prithvi-EO-2.0は、EO (Earth Obsevation, 地球観測) 用途向けの多用途・多時期型のGeo-Foundation Model (GFM)   ● NASAのHarmonized Landsat-8とSentinel-2データを用いて訓練され、4.2 M の時系列サンプルデータを基に作成。   ● 空間だけではなく、時系列を踏まえたGFMを作成することで、旧バージョン (Prithvi-EO-1.0)   を様々なタスクで8％上回る性能を示した。   ● 異なるドメインや空間解像度 (0.1 m - 15 m) のリモートセンシングタスクでベンチマークを比較した結果についても、他のGFMよりも高いスコアを示した。   ● ベンチマークではなく、災害/LULC/環境モニタリングといった下流タスクにおいても、従来よりも高いスコアを示した。   縦軸：12のベンチマークの平均値横軸：それぞれの基盤モデル ※青色バーがPrithvi-EO-2.0系

Slide 7

Slide 7 text

論文紹介 This image was generated by ChatGPT

Slide 8

Slide 8 text

Introduction   ・Tuia.et.al (2024) で言及されているように、EO分野では多くのGFMがリリースされている。  ・GFMは大量の未ラベル衛星データを用いて、汎用的なモデルを事前学習 (最も有名な手法はMAE) し、  　このモデルに対して少量のデータセットをファインチューニングさせることで様々な下流のタスクに適用させる。    現在のGFMの課題：   　➀衛星センサの違いや空間分解能の違いのハードルがあり、普及は限定的。   　➁EOデータの多くはマルチテンポラルデータにも関わらず、既存のGFMの多くはそれに適用できていない。   　➂ユーザコミュニティとのギャップ   　　⇒多くのGFMはオープンソースで公開されているものの、モデルの作成者 (主にAI研究者) と   　　　ユーザ (EO分野のエキスパート) との間にギャップがある。   　　⇒提供されたコードをファインチューニングするのに技術的な壁が存在する。   “マルチテンポラルに対応した GFMを作成し、かつユーザに使いやすくフィードバックがしやすい環境を作ろう！！ ” というのが Prithvi-EO-2.0の開発目標である。

Slide 9

Slide 9 text

Dataset Description and Sampling   ➀ データセット   ・訓練に使用するデータセットは HLS (Harmonized Landsat-8/9 and Sentinel-2A/2B), 空間分解能 30 m   - bandは双方の衛星に共通する B/G/R/NIR/SWIR1/SWIR2 の6つ。   - LandsatおよびSentinel-2のHLSを使用することで、同地点を3日程度の回帰で観測可能となる。     備考：HLSはGoogle Earth Engineから簡単に取得可能。　　 ee.ImageCollection("NASA/HLS/HLSS30/v002")　ee.ImageCollection("NASA/HLS/HLSL30/v002")  https://doi.org/10.5067/HLS/HLSS30.002　より https://doi.org/10.5067/HLS/HLSL30.002 より

Slide 10

Slide 10 text

➁ サンプリング・汎用的なGFMを作成するには、多種多様の土地利用・土地被覆を持つ場所をうまくサンプリングする必要がある。  　  　サンプリング手法は以下の通り  - 既存の全球LULCプロダクト (Copernics Land Cover 100m、RESOLVE Ecoregions) ラベルを使用し、LULCのクラス分布を計算  - 各LULCクラスごとに上位500タイルを選択し、その中から100タイルをランダムにサンプリング  - 都市地域はオーバサンプリングを実施している。  - 高エントロピーなLULCクラスのタイルを追加  - エコリージョン846地域をカバーするように選定    ・　最終的なデータセットは 3156の訓練タイルと168の検証タイル (95:5) (1タイル ~100 km ×100 km)  Dataset Description and Sampling   左：全陸域タイルのクラス分布   右：訓練データとして   　　サンプリングしたクラス分布  

Slide 11

Slide 11 text

Dataset Description and Sampling   ➂時系列データセット作成   　・各HLSタイルから4つのタイムスタンプを持つ時系列データを作成  　 - 各時系列を256×256 [pix] のパッチに分割　  　 - 1タイルあたり最大10パッチと制限し、ランダムサンプリング    　・最終的には　訓練データ約4.2Mサンプル、検証データ 46kサンプル   サンプルの分布

Slide 12

Slide 12 text

Pretraining and Model architecture   ・Prithvi-EO-2.0の事前学習は MAE (Masked Auto Encorder) での教師なし学習   　ざっくりいうと、衛星画像にノイズ (今回は欠損) をランダムに付与させて、それを再構成   　する学習を大量データで繰り返し、衛星で撮られた地球の被覆を学習させる。   左：入力衛星画像　中央：ランダムmask画像　右：再構成画像   https://github.com/NASA-IMPACT/hls-foundation-os/blob/main/exploration.ipynb より引用

Slide 13

Slide 13 text

Pretraining and Model architecture   ・アーキテクチャは以下   - 3Dパッチ埋め込み  - 緯度経度と日時を2Dのサインコサインで埋め込み (これ賢い！)   - EncorderとDecorderはViTを基盤とした構造   ・モデルサイズは 300M (ViT-L) と600M (ViT-H) の2種類を作成  

Slide 14

Slide 14 text

Benchmarking   ・Prithvi-EO-2.0を他のGFMと比較し、性能評価を実施   　使用したベンチマーク：GEO-Bench (6つの分類タスク、6つのセグメンテーションタスク)  

Slide 15

Slide 15 text

Benchmarking   ・比較先のGFM一覧   ・比較結果 (青がPrithvi-EO-2.0系)   ✓分類、セグメンテーションの双方で   　Prithvi-EO-2.0は高いスコアを記録  

Slide 16

Slide 16 text

Downstream Tasks   ・Prithvi-EO-2.0を実世界の課題に適用し、その応用可能性を評価 ➀洪水検知　使用データ：Sen1Floods11 (446サンプル) ➁火災跡マッピング使用データ：Jalubik et.al 2023のデータ mIoU 90 は値としては非常に高い。ほぼ完璧に抽出できてる印象。

Slide 17

Slide 17 text

Downstream Tasks   ➂消失強度マッピング (Burn Intensity Mapping) 使用データ：HLS、Burned Area Emergency Response から取得した火災影響データ ( 0-4の5段階のラベル ) 訓練データ分布結果 ✓Unetの方が精度が高い結果に。 Prithviのようなグローバルスケールの基盤モデルだと、高解像度かつ小さなパッチのタスクだと精度が劣る可能性を示唆している。

Slide 18

Slide 18 text

Downstream Tasks   ➃地すべり検出　使用データ : Landslide4Sense (全球の地すべりデータ) ✓ Prithvi 600 M がスコアが高い。　 Burn Intensity MappingではUnetに負けており、今回のタスクも小さいパッチの検出タスクなので、　なぜこちらのタスクはPrithvi 600 Mが勝っているかよくわからない (コメント) ✓2.5％のデータをファインチューニングした結果はPrithviが勝っているように見える。基盤モデルの利点が出ている。全データを訓練に使用 2.5％のデータを訓練に使用全データを訓練した場合の推論結果比較

Slide 19

Slide 19 text

Downstream Tasks   ⑤土地利用・土地被覆分類・アメリカ : 作物種を含む13種類のセグメンテーション　・ヨーロッパ：Sentinel-2データを使用した分類 ✓分類結果がないのでコメントしづらいが、スコアで見ると Prithvi-EO-2.0系が高い

Slide 20

Slide 20 text

Downstream Tasks   ⑥地上バイオマス (AGB) 推定使用データ：BioMasteters データセット - フィンランド森林のAGB推定用として作成 - S1/S2からなるデータセット - 1pixelあたりのバイオマス量を含んでいるアーキテクチャ：Prithvi-UNetハイブリッドモデル高バイオマス値の予測において、Prithviモデルは精度が低い

Slide 21

Slide 21 text

Downstream Tasks   ⑦光合成量 (Gross Primary Productivity) 推定　植物が光合成を通じて吸収する炭素量を推定　使用衛星データ：HLS, MERRA-2気象データ (温度、降水量、土壌水分等), GPP観測値　対象サイト：全球に分布する37箇所　サンプル数：975 ✓AGBと同様に高GPP値の予測精度が低い印象 (分散が大きい)

Slide 22

Slide 22 text

Conclusion   ・Prithvi-EO-2.0は地球観測における GFMとして以下の成果を達成 - 時系列データ対応マルチテンポラルデータとして埋め込むことで、従来のモデルが苦手とする長期変動や季節性を捉える能力が向上 - ベンチマーク評価 GEO-Benchの評価において、Prithvi-EO-2.0 (600Mモデル) が他のGFMや旧バージョンを上回る性能を示した - 下流タスクについて災害、LULC、環境モニタリングにおいて、その殆どで精度が向上課題： - 一部のタスクでは局所的な特徴の抽出が不足している。次のステップ： - さらなるデータセットの拡充と SARデータの統合