Slide 1

Slide 1 text

中村凌・篠原崇之・青木亮祐
 藤野倫太郎・平出尚義・嶌田将貴
 1 第16回 atAI.challenge勉強会
 AlphaEarth Foundations: An embedding field model for accurate and efficient global mapping from sparse label data

Slide 2

Slide 2 text

中村 凌 株式会社天地人 / SatAI.challenge 主宰 / cvpaper.challenge HQ ● 株式会社天地人データサイエンティスト (2024/04 - 現在) ● SatAI.challenge 主宰(2024/09 - 現在) ● cvpaper.challenge HQ(2021/1 - 現在 ) ● 福岡大学大学院 理学研究科 応用数学専攻 博士課程(2021/04 - 2024/03) ● 産業技術総合研究所 コンピュータビジョンチーム RA(2021/05 - 2024/03) ● 福岡大学大学院 理学研究科 応用数学専攻 修士課程(2019/04 - 2021/03) 自己紹介 Twitter LinkedIn 2 これまで 個人的な活動 ● 研究効率化Tips (ViEW2021招待講演) ● 国際会議へ 論文採択実績(IROS / ICCV 2023, ICASSP / ECCV2024) ● CCCS,W2021/2022 GC PC(登録者800名超え) ● SSII2023オーディエンス賞受賞 ● SatAI.challenge運営(国際論文 日本語資料・動画 アーカイブ化)

Slide 3

Slide 3 text

自己紹介 
 3 研究テーマ :3次元モデリング、サロゲートモデル、動的システム、土木インフラ 3 X(旧 Twitter) LinkedIn 産総研 - サロゲートモデル: 制御x深層学習モデル - 土木インフラxAI: インフラ劣化予測 篠原 崇之

Slide 4

Slide 4 text

4 自己紹介
 平出 尚義 (ひらで なおよし) 
 
 ・一般財団法人 リモート・センシング技術センター ( E EC) 
 ・筑波大学大学院 博士課程後期1年生 (2025/04 -, 社会人D) 
 
 - 国/地域レベルで 土地利用土地被覆分類 
 - 衛星 校正検証 (ラジオメトリック / ジオメトリック) 
 - 衛星データ×AI系 (抽出、分類、超解像、基盤モデル) 
 土地利用土地被覆図作成 
 校正検証業務 (現地測量) 


Slide 5

Slide 5 text

藤野 倫太郎 東京理科大学大学院 創域理工学専攻 社会基盤工学研究科 修士1年   - 東京理科大学 水理研究室所属   - AcademiX(AIを学びたい学生が集まるコミュニティ) 運営メンバー   - 未踏アドバンス(2023) 野球 動作解析アプリ 開発 研究テーマ :河川橋梁洗掘(実験・混相流 数値計算) 5 興味 ある分野:数値計算         人工知能全般(距離学習、GNN、サロゲートモデル) リモートセンシング 自己紹介

Slide 6

Slide 6 text

青木 亮祐(ぴっかりん) ● 株式会社パスコ 研究開発センター ○ 地理空間情報×AIで色々行ったり、そ 環境整備 ● Project PLATEAU ADVOCATE 2025 ● 一般社団法人OSGeo日本支部( OSGeo.JP ) 運営委員 自己紹介 6 X(旧Twitter) GitHub 過去に個人で行った衛星データ関連 発表
 個人開発したPLA EA API MCPサーバー


Slide 7

Slide 7 text

嶌田 将貴 (シマダ ショウキ) ● JAXA地球観測研究センター(EORC) ● 専門 地球観測衛星データ 解析による環境変化 定量化や、農業 など食料分野における情報整備 自己紹介 7 衛星画像から検出した太陽光発電パネル
 時系列画像から分析した作付けマップ


Slide 8

Slide 8 text

異なるモダリティ・時間 データ 地理空間表現を埋め込むため 方法紹介と性能紹介 
 埋め込みベクトル データセットも公開予定 
 8 AlphaEarth Foundations: An embedding field model for accurate and efficient global mapping from sparse label data 
 ● 地球観測データ 大量に収集されているが、測定と観測に 膨大な労力がかかるため、高品質なラベル 依然として不足 (ま らなラベルを地図に変換するため 特注モデリングへ 投資が盛ん) 
 ● 複数 情報源にまたがる空間的、時間的、および測定コンテキストを同化する、非常に汎用的な地理空間表現を生み出す埋 め込みフィールドモデルであるAlphaEarth Foundationsを紹介 
 ● AlphaEarth Foundationsによって生成される埋め込み 、再トレーニングなしで多様なマッピング評価セットでテストされた、こ れまで すべて 特徴量化アプローチを一貫して上回る性能であった 
 ● 2017年から2024年まで、地球規模 年間 分析可能な埋め込みフィールドレイヤー データセットを公開する予定 
 Christopher F. Brown et al. (2025), “AlphaEarth Foundations: An embedding field model for accurate and efficient global mapping from sparse label data”, arXiv 2507.22291. より引用

Slide 9

Slide 9 text

背景 
 ● 数十年で地球観測(EO)データ 広く利用可能になり、現在、地球 生態系と気候 過去、現在、未来に関する 問いに答えるために用いられてきた 
 ● 地球観測(EO)データ 世界中で継続的に収集されており、食料供給や災害対応といった地球規模 課題管理 に不可欠となっている 
 従来手法・課題  
 ● 正確な測定データやラベルが不足しているという問題 がある
 ● ハンドクラフト EO特徴設計 限界 (ND I等 植生指数、ベストピクセル合成など) 地図化で広く有効だが、 ノイズやセンサー依存、地域・用途に応じて人手で作業する コストが高い 
 ● マルチソース/モダリティ・時間情報 取り込み・運用可能な高解像度という要件を同時に満たせ無いという 問題:機械学習/基盤モデル( atMAE系や atCLIPなど) 進展しているが、条件が揃わないと少量ラベル条 件で 学習特徴が手設計特徴に必ずしも勝てない 
 Introduction 
 これら 課題を解決するため、 普遍的な特徴空間を生成する地理空間埋め込み 基盤モデルを提案 
 ➢ 様々な応用分野で既存 ど 手法よりも 一貫して優れた性能 を示す
 ➢ これまで支配的な手法がなかった状況から 大きな進歩 となる Christopher F. Brown et al. (2025), “AlphaEarth Foundations: An embedding field model for accurate and efficient global mapping from sparse label data”, arXiv 2507.22291. より引用

Slide 10

Slide 10 text

● AlphaEarth Foundationsと 衛星( entinel-1/2・Landsat 8/9)など複数ソース・空間・時間までを一つ 特徴量 で表現する“埋め込みフィールド(embedding field)”モデル 
 ○ 10×10mにリサンプリングした時系列マルチモダリティデータを64次元 ベクトルに埋め込むモデル
 ● 埋め込みベクトル 計算に 
 ○ 画像 再構成誤差 最適化 (以下 画像B 部分に相当) 
 ○ バッチ均一性目的 (Batch uniformity objective): 
 ○ ◦ エンベディング空間 利用率を高め、エンベディングベクトルが64次元 単位球面上に均一に分布す るように促します
 ○ Consistency objective :クリーンなデータを使う教師モデル 埋込みとノイズを含んだ生徒モデルが出力 する埋込みベクトルが一致するように学習。急なノイズにロバストになる。(図E) 
 ○ ext contrastive objective :言語と CLIP学習をすることで言語空間 セマンティクスを獲得 
 AlphaEarth Foundationsについて 
 10 Christopher F. Brown et al. (2025), “AlphaEarth Foundations: An embedding field model for accurate and efficient global mapping from sparse label data”, arXiv 2507.22291. より引用

Slide 11

Slide 11 text

実験: 評価手法(Evaluation in realistic data-scarce scenarios) 
 11 ● 評価 狙い
 ○ 実務で求められる「ピクセル単位 地図化」を、 ごく少数ラベル(数十〜数百) でも成立させられるかを評 価
 ○ 既存ベンチ 物体/画像レベル 教師が空間的に限定している場合が多く、実運用評価に 不十分 ため幅広いデータセットで評価 
 ● タスク
 ○ 11 公開データセットから計15課題を作成(L LC・土地利用変化・作物種別・樹種属・蒸発散量・放射率 など)
 ○ クラスごとにバランス良く少数サンプルを抽出し、残り テストへ 
 ○ サンプル点 1.28 km 以上 間隔を確保 
 ○ 試行 1-shot/10-shot/最大試行 3条件 ← ここがよくわからない 
 ○ 埋め込み特徴量 評価 kNN と線形層といった最小限 学習器で評価。 
 ○ 指標 分類=Balanced Accuracy、回帰= ²。 
 ● 比較対象(ベースライン) 
 ○ 設計特徴量:CCDC, MO AIK (Multi-task Observation using atellite Imagery & Kitchen inks), composites
 ○ 学習済み 既存基盤モデル 特徴量: atCLIP, Prithvi, Clay 
 ○ そ ほか 手法: , (緯度経度・標高), ImageNet 事前学習 i 。 
 ○ 入力 可能な限り同一にし、各手法 ハイパラも最適化。 
 Christopher F. Brown et al. (2025), “AlphaEarth Foundations: An embedding field model for accurate and efficient global mapping from sparse label data”, arXiv 2507.22291. より引用

Slide 12

Slide 12 text

実験: タスク・データ 紹介 
 12 Christopher F. Brown et al. (2025), “AlphaEarth Foundations: An embedding field model for accurate and efficient global mapping from sparse label data”, arXiv 2507.22291. より引用 ● タスク 一覧 
 分類タスク:
  土地利用土地被覆 分類、変化 
  作物、樹種分類 
 
 回帰タスク :
  物理量推定 (蒸発散量、地表放射率 回帰) 
   ※OpenE Evapo ranspiration, 地表から大気へ失われる水 総量 
   
 ● データ 一覧
 ○ Optical: entinel-2/、Landsat 8/9 
 ○ adar: entinel-1、ALO -2/PAL A -2 ( can A ) 
 ○ LiDA :GEDI aster Canopy Height metrics 
 ○ Environmental:GLO-30 DEM、E A5-Land、G ACE(重力ポテンシャル) 
 ○ Annotated:NLCD、 ikipedia(地理タグ付きテキスト) 
 ○ → 合計 9 種 グリッドデータ+1 種 非構造テキスト、30億超観測(地 上面積 約 1.1% を網羅) 


Slide 13

Slide 13 text

実験: 結果( hematic mapping) 
 13 ● 土地利用/土地被覆/作物検出/作物種別/樹種分布を評価 
 ○ AEF (AlphaEarth Foundations) 埋め込み特徴量を使って、単純な線形分類器などで分類を行う 
 ○ 年ごとで集約された課題(LCMAP land cover / land use、Africa crop mask、油ヤシなど)で最大 誤差低 減を達成
 ■ ほぼ全タスクで誤差削減(Ethiopia crops を除く)。 
 ○ 多様なデータセットにわたり一貫して高性能で、高次元埋め込みでも得られなかった汎用性を示した。 
 カナダ 作物分類タスク
 黒 点線 分類タスク
 におけるランダム当て 基準
 Christopher F. Brown et al. (2025), “AlphaEarth Foundations: An embedding field model for accurate and efficient global mapping from sparse label data”, arXiv 2507.22291. より引用

Slide 14

Slide 14 text

実験: 結果 (Estimating biophysical variables) 
 14 ● 上空画像から直接観測しにくい量(地表放射率(emissivity)、蒸発散(E ))を回帰タスクで評価 
 ○ 放射率:ほとんど ベースラインがある程度推定可能だったが、AEFが最高 推定性能 
 ○ 蒸発散:多く ベースライン 負 ²(説明不能)となる中、AEF みが正 ²を達成し、有意な差を示し た。 これ 蒸発散 決定要因である気候パラメータを学習しているといえる 
 ○ 定量・定性 比較で 、空間的な滑らかさ(coherence)を保ちつつ空間解像度も維持している点が強調さ れた。
 蒸発散 推定 (回帰タスク)
 Christopher F. Brown et al. (2025), “AlphaEarth Foundations: An embedding field model for accurate and efficient global mapping from sparse label data”, arXiv 2507.22291. より引用

Slide 15

Slide 15 text

実験: 結果 (Change detection) 
 15 土地被覆・土地利用 前年ー今年 変化抽出評価 
 ● AEF(AlphaEarth Foundations)埋め込みに対し、線形分類器(Linear probe)や kNN を適用 
 ○ 新たに物が増えた/減った “変化 種類”で なく、変化 有無だけにフォーカス 
 ● 二時期で特徴量に変化 あった場所をラベルとする教師あり学習と、教師なし変化検出を行い、AEF ベースラ インを一貫して上回る 
 
 Christopher F. Brown et al. (2025), “AlphaEarth Foundations: An embedding field model for accurate and efficient global mapping from sparse label data”, arXiv 2507.22291. より引用

Slide 16

Slide 16 text

実験: 結果 ( caling source data quantity and type) 
 16 ● 観測量 スケーリング (右図A) 
 ○ 同じデータ まま、地点あたり 観測枚数を増やす と性能 どう伸びるかを検証 
 ○ 観測を段階的に追加し、各データセットで BA 性 能を比較
 ○ 15 データセット中 9 で単調増加(観測枚数が増え ると性能が改善)
 
 ● ソース種別 スケーリング (右図B) 
 ○ 地点あたり 観測量 固定し、利用するソース群を 光学/レーダ/LiDA /環境/アノテーション 順に段 階的に追加し、max-trial 線形分類 性能を比較 
 ○ ソース 多様化ほど性能 向上する傾向。ただしタ スク依存で場合によって 減少 
 ○ 異種センサー(光学/レーダ/派生地図等)を統合す るモデルな でそもそも1つ モダリティだと性能が 出づらい
 ○ 15データセット 中で11が全群ありがベスト 
 Christopher F. Brown et al. (2025), “AlphaEarth Foundations: An embedding field model for accurate and efficient global mapping from sparse label data”, arXiv 2507.22291. より引用

Slide 17

Slide 17 text

Global embeddings dataset 
 17 ● 学習済み地理特徴量を公開 
 ○ 各ピクセル(10 m解像度)に対し64次元 埋め込みベクトルを割り当て、1年分 時系列観測(光学 ・ A ・LiDA 等 複数センサー) 
 ○ 2017–2024年 陸域と浅海(干潟・礁・内水域・沿岸)を網羅 
 ○ 物理的な反射より扱いやすい特徴量な で、雲・スキャンライン等 入力アーティファクトや欠測 影響を 低減し、分類・回帰・クラスタリング・変化検出 特徴量としてそ まま代替利用が可能 
 ○ Google Earth Engineで公開している で、土地被覆分類 入力特徴、年次変化検出(特徴量 内積 差)、下流モデル 弱教師学習 共通表現などに使える 
 1ピクセルあたり64次元 特徴量が格納されている
 Christopher F. Brown et al. (2025), “AlphaEarth Foundations: An embedding field model for accurate and efficient global mapping from sparse label data”, arXiv 2507.22291. より引用

Slide 18

Slide 18 text

Discussion 
 18 極端な低ショット(10ショット & 1ショット)による比較 
 
 ● 極端にラベルが少ない環境(10 or 1 サンプル / class)で 、手法間 性能差が非常に小さく 
 ほとんどランダム 範囲内という結果が多々見られた 
 ● 例え 、500回 10ショット実験において、AEF 性能向上が90%信頼区間内で優れていた 
 15評価中8件、1ショットで そ うち5件にとどまった 
 → 平均的に AEFがやや優位な傾向ですが、非常に高い らつきがある点に注意が必要 
 
 結論
 1~10ショットという超少数データ領域において 、汎用的にうまく動作する解法 まだ未確立であり、 
 AEFも万能と 言えない挑戦的な領域 
 Christopher F. Brown et al. (2025), “AlphaEarth Foundations: An embedding field model for accurate and efficient global mapping from sparse label data”, arXiv 2507.22291. より引用

Slide 19

Slide 19 text

Discussion 
 19 分類タスク 
 
 ● AEF 、全分類タスクにおいて非常に安定した 
 優れた性能を示した 
 ● カナダ農作物分類などで 、AEFに次いで 
 時空間特徴を使ったモデル 精度が良かった 
 ● 米国 樹木分類などで 、AEFに次いで 
 局所的な地球観測情報をうまく取り込んでいる 
 可能性がある atCLIPなどが精度が良かった 
 ● 全般的に、Prithvi パフォーマンス 低い 
 → 低ショット 分類タスクに 適しておらず、 
 ファインチューニングが必要 
 
 結論
 AEF 極少ショットでもシンプルな線形分類器やk-NNを使っても 
 一貫した高性能を達成しており、ラベルが少ない領域で非常に 
 有望な基盤特徴空間となっている 
 Christopher F. Brown et al. (2025), “AlphaEarth Foundations: An embedding field model for accurate and efficient global mapping from sparse label data”, arXiv 2507.22291. より引用

Slide 20

Slide 20 text

Discussion 
 20 回帰タスク 
 
 ● 平均絶対誤差(MAE) 削減や、説明変数として 
 成立性でも他手法を上回った 
 ● 特に A E GED(地表放射率推定) において、 
 他手法で 負 性能を示すも がある中、AEF 常に 
 妥当な値を出した
 ● OpenE (蒸発散推定) に関して 、AEFだけが唯一 
 まともに性能を確保できた手法であった 
 ● MAE 点でも、AEF 誤差レベル 元データセット 
 期待範囲内であった 
 
 結論
 回帰 ように連続値を予測するタスクでも、AEF 非常に 
 信頼性が高く他 手法と 差が明確 
 Christopher F. Brown et al. (2025), “AlphaEarth Foundations: An embedding field model for accurate and efficient global mapping from sparse label data”, arXiv 2507.22291. より引用

Slide 21

Slide 21 text

Discussion 
 21 変化検出タスク 
 
 ● 土地被覆や利用 変化 分類と、非教師あり手法による 
 閾値ベース 検出 両方を評価 
 ● 教師あり分類で 、AEFが78.4%(BC/線形分類)、 
 79.3%(kNN) バランス精度を達成し、次に精度が 
 良い手法 72%程度にとどまった 
 ● 非教師あり閾値検出でも土地被覆 変化検出で AEFが 
 最も良く、土地利用 変化で i に若干劣る結果となった 
 ただし、教師あり学習 有用性も示された 
 
 結論
 AEF 、変化検出 ような時間的コンテキストを必要とする 
 タスクにおいても非常に有効 
 特に教師あり 設定で 明確な優位性がある 
 
 Christopher F. Brown et al. (2025), “AlphaEarth Foundations: An embedding field model for accurate and efficient global mapping from sparse label data”, arXiv 2507.22291. より引用

Slide 22

Slide 22 text

Conclusion 
 22 ● 何をしたか?
 ○ AEF 、地球観測データをまとめて「時間的に連続した表現(embedding)」に 
 変換できる仕組みを構築 
 ○ これにより、観測データ特有 ノイズや欠損があっても頑健に扱えるようになった 
 
 ● 何が分かったか?
 ○ データが少ない状況でも、従来 手法よりも一貫して良い性能を示した 
 ○ 生物多様性・生態系・農業など、幅広い分野に役立つことが確認された 
 
 ● なぜ重要か?
 ○ 大量 アノテーションデータがなくても、地球表面 空間的・時間的変化を効率的に把握できる 
 ○ 新しい衛星が増えたり古い衛星が退役したりする中でも、研究者や政策立案者が地球 状況を 
 理解し、適切な判断に活かす助けになる。 
 
 ● 結論
 ○ AEF 、現在そして将来にわたって、現地観測データや注釈を拡張し、膨大に増え続ける 
 地球観測アーカイブを正確かつ一般的に活用するため 有力な解決策である 
 Christopher F. Brown et al. (2025), “AlphaEarth Foundations: An embedding field model for accurate and efficient global mapping from sparse label data”, arXiv 2507.22291. より引用

Slide 23

Slide 23 text

論文を読んだ後 感想 
 23 ● リモートセンシング界隈だとデータに値段がつくため、オープンにすることが難しいと思うが、特徴量ベクトルに変換することで オープンにするという観点 1つ アイディアだと思いました(中村)
 ● フォン・ミーゼス分布を用いて確率的に位置をずらしている点 ユニークだなと思いました(中村)
 ● 良い埋め込みがあれ 簡易な機械学習モデルでも分類できる で、貧者なマシンでも動く がうれしい(篠原)
 ● エンコーダ 重みも公開されている であれ 、自分 新しいデータを入れても良い特徴が得られる で応用が効きそう(篠原)
 ● データxマシンxお金みたいな Gooooooooooooooooooooogleに任せて、こ 領域以外で戦うしかない かな~~っていう悲し みもある(篠原)←ほんとうにそうですよ 泣 (平出)
 ● 時系列方向も考慮して埋め込みを出力していて、いろいろな使い道ができそう. (藤野)
 ● 最近、 ision系で埋め込みを出力するモデルが多く出ている気がする,DINOv3とか、いろいろ発展していきそう(藤野)
 ● 簡単な解析であれ 誰でもそれなり 精度を出せる で、ビジネスサイドから考えると競争 激化により既存サービス 価格破 壊に繋がる可能性 (平出)
 ● 衛星 解析に 、データセット 選定と前処理にかなり 時間を要していた ですが、これがスキップできる が画期的な考え。 しかしながらデータセットと前処理をしっかりやることで解析 いろ を学べる で、本当 初学者 一連 解析を自分で試して みて、慣れてからこういうデータセットを使う がよい だろうと思いました。(平出)
 ● 埋め込みベクトルが公開されていると、多く 人々がリモセンデータを用いた解析を行いやすくなる で、公開されたデータセット 利活用を期待したいなと思いました(青木)
 ● リモセン分野もでかいモデルででかいデータを扱う面でGoogleと正面切って勝負する 無理っぽい、ドメイン知識に基づいて” 何故そ タスクをやる か”が問われる時代になりそうです(しまだ)
 ● 一年間 情報が圧縮されている で、年内変動を追跡する必要がある場合で そ まま使えない 難しさです (しまだ)