Upgrade to Pro — share decks privately, control downloads, hide ads and more …

EcoWikiRS: Learning Ecological Representation o...

EcoWikiRS: Learning Ecological Representation of Satellite Images from Weak Supervision with Species Observation and Wikipedia

本資料はSatAI.challengeのサーベイメンバーと共に作成したものです。
SatAI.challengeは、リモートセンシング技術にAIを適用した論文の調査や、より俯瞰した技術トレンドの調査や国際学会のメタサーベイを行う研究グループです。speakerdeckではSatAI.challenge内での勉強会で使用した資料をWeb上で共有しています。
https://x.com/sataichallenge
紹介する論文は「EcoWikiRS: Learning Ecological Representation of Satellite Images from Weak Supervision with Species Observation and Wikipedia」です。本研究は高解像度航空画像と位置情報付き種観測データ、各種のWikipedia生息地記述文を組み合わせ、弱教師ありで環境性質をモデル学習するデータセットおよびそのファインチューニング手法を提案しています。情報のノイズや不整合を重み付きinfoNCE損失である、WINCEL損失で緩和し、リモートセンシング画像と種の生息地を紐づけた特徴空間を実現しました。

Avatar for SatAI.challenge

SatAI.challenge

July 27, 2025
Tweet

More Decks by SatAI.challenge

Other Decks in Research

Transcript

  1. EcoWikiRS:
 Learning Ecological Representation of Satellite Images from 
 Weak

    Supervision with Species Observation and Wikipedia
 (CVPR2025)
 平出 尚義
 1 第14回 SatAI.challenge勉強会 (2025/07/24) 
 本資料で紹介する図において、引用を明記しない場合は Valerie Zermatten et al. (2025), EcoWikiRS: Learning Ecological Representation of Satellite Images from Weak Supervision with Species Observations and Wikipedia より引用するものとする。
  2. 目次 
 2 • 自己紹介スライド
 • 研究の1ページサマリ紹介 
 • 研究の背景(Introduction)

    
 • 手法について(Method) 
 • 実験(Experimet)
 • 結論(Conclusion)

  3. 4 自己紹介
 平出 尚義 (ひらで なおよし) 
 
 ・一般財団法人 リモート・センシング技術センター

    (RESTEC) 
  つくば事業所 ALOS系解析研究課 
 ・筑波大学大学院 博士課程後期1年生 (2025/04 -, 社会人D) 
 
 業務 ・国/地域レベルでの土地利用土地被覆分類 
    ・衛星の校正検証 (ラジオメトリック / ジオメトリック) 
    ・衛星データ×AI系 (抽出、分類、超解像、基盤モデル) 
 JAXA土地利用土地被覆図 
 校正検証業務 (ジオメトリック) 
 N.Hirade et al. (2023), “光学・SAR衛星データに対する高精度な教師・検証データを低コストで取得するためのRIL及び判読システムの開発”, 日本リモートセンシング学会第75回学術講演会論文集, 29-30より引用 2025/4/30に
 2024年版を
 リリース!

  4. EcoWikiRS: Learning Ecological Representation of Satellite Images from 
 Weak

    Supervision with Species Observation and Wikipedia 
 ・EcoWikiRSは、GBIF (地球規模生物多様性情報機構) から種の出現データを、Wikipediaから種に関する生息地説明
  を衛星データと紐づけたデータセット.
 ・このデータセットを既存のVLMにファインチューニングすることで、衛星データ (input) から生態学的特徴を
  学習させたモデルを作成できる. 損失関数にWINCELと呼ばれる重み付きInfoNCEを用いることでノイズ低減.
 ・本論文は基盤モデル自体の作成はしていないことに注意.
 EcoWikiRSデータセットの構築フロー. データは GitHub でオープンソースになっている. 

  5. Introduction 
 ・近年の技術発展により、衛星画像から大領域のモニタリングや動物検出が飛躍的に向上.
 U-Net ベースの野生動物検知に関する論文。 使用衛星は MaxarのGeoEye-1 (パンシャープン 0.41m) Zijing

    Wu et al. (2023) : Deep learning enables satellite-based monitoring of large populations of terrestrial mammals across heterogeneous landscape Original image Ground reference Prediction Evaluation 
 2022年
 2024年
 JAXA 日本域高解像度LULC (左2022年、右2024年) 
     能登半島地震前後での分類結果比較 
 平出尚義、平山颯太ほか (2025) : 時系列整合性を考慮した2020・2022・2024年における JAXA日本域高解像度土地利用土地被覆図の作成 
 (リモートセンシング学会第78回学術講演会) 

  6. Related work (しっかり読みたい) 
 Rangel Daroya et al. (2024) CVPR

    
 WildSAT: Learning Satellite Image Representations from Wildlife Observations 

  7. EcoWikiRS 
 ・本論文は特に “リモートセンシング” × “生態系情報 (種の観察データ)” 
  を組み合わせる.
 プールカエル


    (日本にはいない。)
  イボウキクサ
 (日本にもいっぱいいる。) 
  ダンチク
 (日本にもいっぱいいる。) 
 Arundo donax 2025/07/19, 
 平出撮影 in つくば植物園 
 高解像度航空画像タイル (100 m × 100 m) 
 フロー
 ➀高解像度航空画像タイルと同じ位置に記録された
  GBIFの種観察データを紐づけ
 ➁ペアリングした各種について、Wikipediaから
  生態 (habitat) や 分布 (distoribution) といった
  生態学的に意味のある文を抽出し、種ごとの
  文章を作成
 ➂画像エンコーダとテキストエンコーダで
  共通の特徴量空間に投影し、
  Weighted InfoNCE (WINCEL) 損失を用いて
  「画像 - 文章」のペアを重みづけ学習。

  8. 各データについて ( GBIF, 入力データ )
 GBIF (Global Biodiversity Information Facility)

    
  ✓世界中の博物館の標本、自然史コレクション、市民科学、 
   環境モニタリングプログラムなどのデータを標準フォーマットで集約・公開しているサイト 
   URL: https://www.gbif.org/ja/ 
  ✓種の出現データ、モニタリングデータを確認できる。 
 HP (トップページ)
 ヤンバルクイナで検索した結果

  9. 各データについて ( 航空画像, 入力データ )
 ・航空画像は SWISSIMAGE と呼ばれるスイス国内の航空画像. 政府機関による提供.
  (URL:https://www.swisstopo.admin.ch/en/orthoimage-swissimage-10)


    ・RGB 3bandであり、オリジナルの空間分解能はなんと10 cm. 2020-2022年撮影画像を使用.
 ・本研究では50 cmにリサンプリングし、1パッチの大きさを 100 m × 100 m として定義. (つまり 200 pix × 200 pix)

  10. 各データについて ( Wikipedia, 入力データ)
 Wikipedia のフロー
 1. GBIFデータでフィルタリングされた各種の学名をキーとして、Wikipediaのダンプ or API

    から該当記事をDL.
 2. 記事内の生態系情報と無関係な文章を削除. ノイズの低減.
 3. 残ったテキストを文ごとに分割. 
 4. 文章フィルター (habitat, distribution, ecology、wet, alpine, calcareous, marsh などの環境に関する文章を選別)
 比較用に、”habitat”, “keywords”, “species name”, “random” で文章をフィルタしたデータセットも別途用意.

  11. 作成したデータセット 
 I
 I 1
 J
 I 2
 I 3


    I 4
 J 1
 J 2
 J 3
 J 4
 s
 s 1,1
 s 1,2
 s 1,3

  12. Method
 事前学習済みRS-VLM
   (CLIPなど)
 EcoWikiRS
 ファインチューニング
 新しいモデル
 ダウンストリームタスク
 ファインチューニング時の課題
 ・損失関数をどう定義するか?
  EcoWikiRSのデータセットは特にWikipediaから


     自動抽出した文章の精度が低い.
  特に画像と関係のない文章や、あまりにも一般的な種
  の文章はノイズとなる.
  →ノイズを削減できるような損失関数を定義する必要性
 

  13. Method (損失関数) 
 ・従来のContrastive Learningで使用される損失関数は InfoNCE が多い. 
  ペアを「正例 vs

    その他のペア」 というように、一様に扱う. 
  → ”ノイズ文” も等しく正例として強調されて、モデルの精度が下がる. 
 
 EcoWikiRSのデータセットの課題. ノイズ文が多い. 
  ・画像とテキストが互いに無関係の場合 
  ・一般的過ぎる種が記載されている場合 
 ※NCE: Noise Contrastive Estimation 
     InfoNCE Loss
 (ランダムな文を選択した場合)
 I n :航空画像 (n: 1-N )
 J n :画像I n にペアリングされた複数の文章の集合
 s n,k :J n の中のk番目の文
 
 V n =f v (I n ) :画像エンコーダ f v から得られるベクトル
 T n,k =f t (s n,k ) :テキストエンコーダ T n,k から得られるベクトル
 τ:温度パラメータ (ハイパーパラメータ)
 If 正例の類似度 (V,T内積) が非常に高く、負例の類似度が低い場合 
  分子 ≒ 分母 となり、 Lcon = -log 1 = 0 
 
 If 正例の類似度と負例の類似度がほぼ同じの場合 
  Lcon = -log (1/N) = log N 

  14. Method (WINCELの計算式) 
 ・EcoWikiRSでは、InfoNCEの代わりに”WINCEL”というオリジナル損失関数を提唱. 
 標準的なInfoNCEを拡張し、1枚の画像に対して複数のテキスト文を動的に重みづけして合成する. 
 重み付きテキスト表現G n,k :


     重みα n,k を導入し、テキスト埋め込みT n,k の線形結合として定義 
 重みα n,k :
  画像埋め込み - テキスト埋め込み の内積 を計算、ソフトマックス(σ) で正規化 
 ・重み付きテキスト表現G n を用いて、損失関数を再定義 
  弱い・ノイズ混じりのテキスト埋め込み表現からも有用な情報の重みを大きくできる。 

  15. Experiments 
 ・RemoteCLIP, SkyCLIP, GeoRSCLIP, CLIP の4つの異なる事前学習済みVLMから、 
  EcoWikiRSデータセットでファインチューニング. 損失はWINCELを用いる.

    
 
 検証方法
 ・テスト分割した航空画像を入力とし、EUNISクラスの25のラベルを直接プロンプトとして入力. 
  画像 - テキスト のコサイン類似度が最も高いクラスを選択. 
 Modelおよび損失関数の
 選択による精度比較結果
 ・EcoWikiRSデータセットでファインチューニングする
  ことで事前学習済みVLMの性能が向上
 ・WINCELはRemoteCLIPを除き、性能向上
 
 
 ※supervised upper-boundは
  EUNISのラベルを用いた完全教師あり学習
  理想的な値を示す。(と自分は理解した)

  16. Ablation studies 
 ・ノイズ混じりのテキスト表現をどう扱うかについて、 
  ➀テキスト前処理の種類 
  ➁ノイズ対策手法
  の2通りで性能差を比較. 


    ➀テキスト前処理の種類
  habitat : “habitat” セクションの文章のみ抽出
 keywords : “wet” , “alpine” といった生態系を含む文章
  random : 記事からランダム
  specied names : 種名のみ
 ➁ノイズ対策手法

  17. Visual results 
 航空画像とENIUSのテキストプロンプト間のクロ スモーダル類似度をスイス全土でマッピング.
 
 上段が事前学習済みSkyCLIP
 下段がファインチューニングSkyCLIP
 
 上段はプロンプトに全く合わない場所でも中立

    的にスコアリング (薄い色)
 下段は本当に合う場所だけを緑で
 強く表現.
 https://ja.wikipedia.org/wiki/%E3%82%B9%E3%82%A4%E3%82%B9%E3%81%AE%E5%9C%B0% E7%90%86 参考:スイスの地理
 気温
 LULC

  18. Conclusion 
 ・リモートセンシング画像とその画像が捉えるテキストとの間に、生態学的に豊かな特徴を学習 
  する手法を提案した. 
 
 ・高解像度航空画像、種観察データ、各種の生息地記述文の3種を組み合わせたEcoWikiRSデータセット 
  を提案した.


    
 ・WINCEL損失関数を提唱し、ノイズを多く含むテキスト表現からも効果的に学習することが可能となった. 
 
 ・既存のVLMをEcoWikiRSでファインチューニングし、EUNISのゼロショット分類タスクをダウンストリーム 
  として評価した結果、従来手法を上回る性能を達成. 
 
 議論
 さらなる精度向上をさせるには? 
  データの品質向上 (種のフィルタ、GBIFのバイアスの軽減、テキストの品質向上など?) 
 
 やってみたい
  ・日本域で同様の実験 
  ・中分解能衛星でも可能かどうか