MetaEarth: A Generative Foundation Model for Global-Scale Remote Sensing Image Generation

MetaEarth: A Generative Foundation Model for Global-Scale Remote Sensing Image
Generation 篠原崇之 1 第14回 SatAI.challenge勉強会この資料に出てくる図は引用を明記しない場合は Yu et al. (2025), “MetaEarth: A Generative Foundation Model for Global-Scale Remote Sensing Image Generation”, IEEE Transactions on Pattern Analysis and Machine Intelligence より引用

目次   2 • 自己紹介スライド  • 手法の概要（研究の1ページサマリ紹介）   • 研究の背景（Introduction）
  • 手法（Method）  • 実験（Experimet）  • まとめ（Conclusion）   • 感想   

3 発表者紹介 This image was generated by ChatGPT

自己紹介   4 研究テーマ：３次元モデリング、サロゲートモデル、動的システム、土木インフラ 4 X(旧 Twitter) LinkedIn 産総研
- サロゲートモデル: 制御x深層学習モデル - 土木インフラxAI: インフラ劣化予測篠原崇之

5 手法の概要 This image was generated by ChatGPT

MetaEarth:   A Generative Foundation Model for Global-Scale Remote Sensing
Image Generation   6 • 背景: 全球リモートセンシング画像は解像度・範囲ともに不足し、データ空白が多い。  • 課題: 疑似画像で埋めたいが多解像度・無境界・地域多様性を同時に生成するのは困難。  • 提案手法: 解像度ガイド付き自己カスケード拡散モデル＋ノイズ協調タイル生成で  全球・多解像度画像を合成。  • 実験結果:   FID 14.2 と高品質を達成  生成データで画像分類精度  を平均+3.7ポイント向上。  • 衛星画像生成モデルが  ”世界モデル” であると主張 

本題に入る前に......選んだ理由   7 • 春のリモートセンシング学会の特別講演でこんなスライドを作りました  

本題に入る前に......選んだ理由   8 2025年7月10日時点で  世界モデルxリモセンが  2本検索結果にヒット  • 春のリモートセンシング学会の特別講演でこんなスライドを作りました  

9 研究の背景 This image was generated by ChatGPT

• 一般的な自然画像生成を行う拡散モデルの性能が飛躍的に進化し、生成結果の品質・多様性が向上した。   • しかし、リモセン分野に適用するには、生成できる解像度と地物の多様性に限りがあり  パッチ単位で画像生成するので、つなぎめが気になる  •
そこで、マルチ解像度で全球規模の画像生成をシームレスに可能な拡散モデルを提案する必要がある   背景: 拡散モデルによる画像生成性能が向上したがリモセン画像にそのまま使えない   10 一般画像の拡散モデルをリモセン向けにマルチ解像度・シームレスに拡張していく   全球規模化マルチ解像度化シームレス化

• モデルサイズ削減：全球規模の衛星画像生成には都市・森林・砂漠・海洋・氷河・雪原など多様な地形。都市だけを見ても、緯度・気候・文化的景観によって遥かに異なる。   こうした多様性は生成モデルのパラメータサイズを巨大化させる原因になる。  ＝＞比較的少ない6億パラメータ
で全球規模の拡散型生成基盤モデル(MetaEarthと呼ぶ)を提案   ※Stable DiffusionのXLで35億パラメータ   • 解像度制御：撮影高度・センサが異なれば画像解像度（m/画素）が変わる。   同じ場所でもセンサが変わると画像としては違うので指定した地理座標から任意解像度で画像を生成するのは困難。  => 低解像度から高解像度へ段階的に画像を生成   • シームレスな画像生成：1つの衛星画像プロダクトは数万ピクセル四方になる。   一方、既存の画像生成法は 512×512 や 1024×1024 ピクセル程度に制限される。  したがって、連続的かつ任意サイズの画像を生成することが依然として未解決の課題である。   => 隣接タイル間でスタイルと意味を一致させてシームレス化  背景: 解決すべき拡散モデルの課題   目的：提案したリモセン向けの拡散モデルで全球規模の画像生成AIを構築し   大量のラベル付き画像を作成して下流タスクの性能を向上させる  

• 生成した画像でデータ拡張が可能になるので、少ない教師データで下流タスク性能向上   • MetaEarthという拡散モデルをベースとした衛星画像の生成モデルは、   高い忠実度でシミュレートする能力を持つため、「世界モデル」と言えると著者は主張
  • 篠原(発表者)による勝手な補足   ◦ 世界モデルの定義は、「世界モデル」を「汎用人工知能（AGI）を達成するための重要な経路であり、エージェントの知覚、意思決定、進化のための本質的な訓練・テスト環境を提供するもの」   つまり、エージェント（自律的に行動するプログラムやロボット）が、現実世界で行動する前に、仮想環境で試行錯誤するためのシミュレーターの役割。   ◦ 本来重要なのは、単に美しい画像を生成するだけでなく、世界の構造やルール（例えば物理法則、地理的特徴、物体の相互作用など）を捉え、それを基に一貫性のある環境を生成・シミュレーションできるかをAI が獲得できること。  ◦ MetaEarthを世界モデルと言っていいのかは疑問が残るが、   リモートセンシング分野で最初に世界モデルと言及している最初の論文なので、   目をつぶってください。 🙇🙇🙇🙇🙇🙇🙇🙇🙇🙇🙇🙇🙇🙇🙇🙇🙇🙇🙇  背景: MetaEarthは世界モデルである   世界モデルを使って全球規模の画像生成を行い大量のラベル付き画像を作成  

13 手法 This image was generated by ChatGPT

• 目標：単一の拡散モデルで全球・任意解像度・無境界の光学衛星画像を生成   ◦ 工夫点は、  ▪ 解像度埋め込みを行うカスケードモデル（下図）  
▪ タイルのつなぎ目をきれいにする初期値の与え方（右図）   手法: MetaEarth の全体像   14

• 解像度埋め込みを行うカスケードモデル   ◦ 1つの重み共有 UNet に解像度埋め込みを追加 ( 赤枠) 
◦ 64画像を入力して256画素を生成して、   さらに、256画像を入力として4096画素の逐次的なアップサンプルを行うカスケード型（青枠）  ◦ 各解像度で重み共有によりパラメータ 600 M (６億)に抑制  手法: 拡散モデルの話   15

手法: 通常の拡散モデルとの差分 1/3 マルチ解像度   • 固定解像度=>マルチ解像度へ   ◦ 通常拡散モデル:
一旦固定解像度で出力して超解像モデルなどで後処理   ◦ MetaEarth: 低解像度->高解像度への自己カスケード型で段階的にアップサンプリング   ▪ このときUnetはどの解像度でも重み共有  

手法: 通常の拡散モデルとの差分 2/3 カスケード型   17 • カスケード型で推論時に前段の低解像度情報の再利用すると高解像の画像生成がやりやすくなる   ◦
通常拡散モデル: 前段の生成結果を次へ再入力しない   ◦ MetaEarth: 前段で生成した低解像度画像を Encoder→concat で条件として渡し、   低解像度と高解像度のシーン整合性を維持へ   生成結果を次の入力へ  17 ある解像度の生成結果を次の入力へ  

手法: 通常の拡散モデルとの差分 3/3 解像度情報の利用   18 • 解像度ガイド埋め込み   ◦
通常拡散モデル: 時間 t だけを埋め込み、解像度を明示的に扱わない   ◦ MetaEarth: 画像の解像度 (m/画像) を周波数エンコーディング＋MLP で埋め込み、   時間tの埋め込みと加算(concat ⊕)して拡散モデルの各denoise stepへ  

• タイル間の隣接部分をなめらかにする条件づけ   ◦ スライディング窓+50 % オーバラップで   全球タイル生成  ◦
重複領域に同一初期ノイズを割当て，DDIM を決定論的(η=0)   にしてタイル間の画素連続性を保証   手法: シームレス化の話   19 重複領域  同じ初期  ノイズ 

• 人工的に劣化低解像度画像を作る   ◦ 推論時は低解像度の画像もしくはモデルで出した画像なので、学習時にこれを想定した画像を用意   ◦ 高次劣化（high-order degradation）を適用して本番の推論時に来る低解像度画像を模擬
  ▪ ぼかし→リサイズ→ノイズ付加→JPEG 圧縮を2回繰り返す   ▪ 超解像とかでやっているテクニック（Real World 超解像系の手法で）   手法: 前段処理の再利用するには学習時にどうしたらいいのか   20 オリジナル  高解像  衛星画像  劣化処理  擬似  低解像  学習時は低解像と高解像のペアで学習   ぼかし→リサイズ→ノイズ付加→JPEG 圧縮

• 損失関数  ◦ 重みを定義して、高い SNR フレームを優先する   ◦ 時間ステップ 𝑡
ごとのノイズ予測誤差を計算   • 学習アルゴリズム  ◦ 画像をランダム抽出   ◦ 抽出した画像に劣化ノイズ付与して入力条件となる低解像度画像を作成   ◦ 拡散モデルの学習  ▪ 入力条件画像とガウシアンノイズ付与した初期値から、拡散モデルを学習   ※条件付き拡散モデルと同様のやり方   • 推論  ◦ まず、初期の最も荒い解像度の画像を用意   ▪ 論文中だと、256m/画素の荒い衛星画像を用意していた   ◦ 荒い解像度から徐々に学習済みモデルを使って任意の解像度までアップスケーリングさせる   ▪ 荒い解像度=>高い解像度＝＞次の入力条件へというサイクルを用いる   ▪ 256m/画素=>64m/画素=>16m/画素=>4 m/画素までアップスケール   手法: MetaEarth の学習フロー  

22 実験 This image was generated by ChatGPT

• データセット  ◦ Google Earth 全緯度経度からタイル取得(都市・森林・砂漠・海洋・氷河・農地など)   ◦ 3 レベル（256
× 256 px 固定）   ▪ 64 m/pix (LR) 916 k 枚   ▪ 16 m/pix (MR) 1.02 M 枚   ▪ 4 m/pix (HR) 1.19 M 枚   ▪ 訓練：各解像度 ≈ 1 M 枚（総 ≈ 3.1 M）   ▪ 検証＋テスト：計 140 k 枚（val:test = 1:1）   • 学習  ◦ 600 M param UNet, AdamW, 240 GPU‑days   ◦ 解像度別に Dynamic Batch & LR スケーリング   • 評価  ◦ FID  実験: 実験の設定   23

• 水域・山岳・砂漠・農地・都市など世界中の地物を再現できる。   実験: 定性結果① クラスごとの生成結果・地域ごとの生成結果   24

• マルチ解像度  ◦ 256 → 64 → 16 → 4
m/pix と段階生成。   ◦ 解像度が上がるにつれ細部が追加され、   同じ初期条件画像からでも生成結果が多様化 ※ランダムノイズだけ変えてる   実験: 定性結果② マルチ解像度・つなぎ目   25 • つなぎ目  ◦ スライディング窓＋共有ノイズで   つなぎ目は見えない。   ◦ 1024x1024 以上のパノラマでも地形が連続   する生成結果に  https://jiupinjia.github.io/metaearth/

• Sentinel-2 実画像で実験   ◦ Sentinel-2っぽい色みを保ったまま   解像度を上げられる   実験:
定性結果③ 汎化性能・他のtext to 画像生成手法との比較   26 • Text to Image手法との比較   ◦ GPT-4Vや Stable Diffusionでは生成が破綻。   ◦ MetaEarth は解像度制御・レイアウトの   妥当性で優位  “Please generate a 4m/pixel-resolution satellite remote sensing image of an urban scene. The image includes detailed city infrastructure such as roads, buildings, parks, and waterways with clear visibility of the urban layout and structure.”     GPT-4V Stable Diffusion MetaEarth Ernie

• 光学画像分類（7 クラス：浜辺・砂漠・農地・森林・工業地・山岳・住宅）   • 各クラス 150 枚・256²px，train:test=3:1、MetaEarth で 5倍の画像を合成
  • VGG-19 / ResNet-34 / ViT-B/32 / ViT-B/16をMetaEarthの合成データで学習させる   • MetaEarthの合成データを使わない場合と比較してすべてのモデルで +0.6 ~ +1.9 pp 向上   ◦ 【篠原コメント】他のプリトレイン手法(SSLとか)と比較していないのが謎   実験: 定量結果 MetaEarth を “データ拡張” として使い下流タスク強化   27

• 解像度の埋め込みをOFF   ◦ 表は画像生成結果の定量評価で、低い FID ほど実データに近い   ◦ すべての解像度で解像度埋め込みを使用した場合（表中のw/
sr）が優位   実験: アブレーション(画像生成結果の定量評価)   28

• 自己カスケード Framework を廃止して直で高解像度を生成（a）   ◦ (a)の左図：高解像度を直に生成すると、4 m/pixの 1024画素四方の画像がぼやけ・レイアウト破綻し 
◦ (a)の右図: 同じ初期ノイズでタイルがコピー＆ペースト状態     実験: アブレーション(カスケード型の意義)   29

• つなぎ目工夫が必要か   ◦ OFFすると、タイル継ぎ目にシーム／色飛びが発生  実験: アブレーション(つなぎ目工夫・劣化ノイズ付与の意義)   30
• 劣化ノイズが必要か   ◦ 16 → 4 m/pix 実入力で   出力がぼやけ・ディテール欠落  

• 小物体が苦手  ◦ 航空機や船舶など小サイズ対象は形状が崩壊し、判別が困難になる。   ◦ 原因 ①：学習解像度の上限  
最高でも 4 m/px データまでしか学習できず、ターゲットは数ピクセルに縮小。   ◦ 原因 ②：データ不均衡   背景パターンが圧倒的多数 → モデルが背景ばかり学習し、小物体の表現を習得しにくい。   ◦ 今後の改善方向  ▪ より高解像度 (> 4 m/px) データで再学習   ▪ マルチモーダル生成（多波長・DEM など）で対象を制御的に埋め込む。     実験: 限界点   31

32 結論 This image was generated by ChatGPT

• MetaEarth は全球対応の衛星画像向け拡散モデル   ◦ 任意地域・任意サイズ・マルチ解像度をシームレスで光学衛星画像を合成   ▪ 初期条件としては低解像な衛星画像があるので超解像な気がするが
  • 技術的な差分  ◦ 解像度ガイド付き自己カスケードモデル: 低から高解像度を単一のUNet で段階的に生成   ◦ ノイズ同期サンプリング: タイル連結部分に同じ初期値でシームレス化   • 課題克服  ◦ モデル容量を小さく・解像度を制御・シームレス生成を同時解決   • 性能   ◦ 多地域・多解像度で衛星画像生成結果の高忠実度 (低 FID) を実証   ◦ 生成データを用いたデータ拡張により分類タスク精度 +3 ~ 4ポイント向上   • 意義・今後  ◦ 高品質データエンジンとして下流のリモセンタスクを支援   ◦ リモセン画像の世界モデルの構築へつながる   まとめ   33

34 感想 This image was generated by ChatGPT

• 2025年7月上旬に”World Model” and “Remote Sensing”でGoogle scalar検索して、   - MetaEarth:
A Generative Foundation Model for Global-Scale Remote Sensing Image Generation,   - FusDreamer: Label-efficient Remote Sensing World Model for Multimodal Data Classification   の2本だけヒット。まだまだ、リモセン分野だと世界モデルのプレイヤーが少ない  • MetaEarthでは、拡散モデルによる全球規模の画像生成によってデータ拡張をしていたが、   世界モデルの原義に従うなら時系列の衛星画像に対する潜在空間の相互作用的な学習が必要なはず  ※FusDreamerはマルチモーダルデータの統一された潜在空間の学習方法を提案していて、   世界モデルの「内部表現」をやろうとしているが、予測とかプランニングをやっていない。   • リモセン分野において世界モデルが何なのかを把握してなさそう   ＝＞時系列衛星データを使って世界モデルをやれば第一人者になれる   • 手持ちで持っているラベル付きの画像データセットを拡散モデルでデータ拡張すると内挿にしかならなくても、この世のすべてを学習し、どの場所・時間・天気でも精巧に画像を出力する拡散モデルがあれば、   実質外挿になるからデータ拡張として使えるのか？（理論の人の意見が気になる）   • 初期値の低解像画像が必要なのが気になるが、段階的な画像生成はProgressive Growing GAN(ICLR 2017)の時代から変わってないので、基礎的なアイディアは長く生き残るのが強い   感想など   35

36 おまけ This image was generated by ChatGPT

補足: 世界モデルとは   • 定義  ◦ エージェントが外界を内部で再現し、観測→予測→行動のループを自己完結的に学習する   • 技術要素:
  ① 現実を観測したデータを潜在空間へエンコード   ② 潜在空間で時間的ダイナミクスの予測   ③ 報酬／目標に基づくプランニング。   • 生成型世界モデル  ◦ 拡散モデル・VAE などの生成過程を通じ、未観測領域や未来状態を「想像」し   環境のシミュレーションを提供する。   • MetaEarth との関係   ◦ 地球表層のビジュアル部分を高忠実に生成することで、   世界モデルのシミュレーションっぽい部分を担う。   【要議論⚠】MetaEarthは衛星画像を対象とする世界モデルと主張【要議論 ⚠】 

1. Data Engine としての価値   a. 3 M 枚を超えるマルチ解像度画像を生成 →
データ拡張で下流タスク精度向上   2. Generative World Model のパーツ   a. MetaEarth は地球の視覚シミュレータ   b. LLM・VLM・ビデオ生成との統合で世界モデル構築に発展   3. Sora に続く研究潮流   a. OpenAI Soraのような世界モデルへ   b. 生成プロセスで世界を理解   4. ユースケース  a. 都市計画  b. 災害シナリオ  c. 農業最適化  d. 環境監視  e. ドローン／衛星エージェントの訓練・検証プラットフォーム   5. 将来展望  a. MetaEarthは世界モデルの出発点である   実験: 議論   38

MetaEarth: A Generative Foundation Model for Gl...

MetaEarth: A Generative Foundation Model for Global-Scale Remote Sensing Image Generation

More Decks by SatAI.challenge

Other Decks in Research

Featured

Transcript