Scale-Aware Recognition in Satellite images Under Resource Constraints

Slide 1

Slide 1 text

Scale-Aware Recognition in Satellite images  Under Resource Constraints  株式会社天地人  中村凌  1 第８回 SatAI.challenge勉強会  ICLR 2025 Accepted paper

Slide 2

Slide 2 text

目次   2 ● 自己紹介スライド  ● 研究の1ページサマリ紹介   ● 研究の背景（Introduction）   ● 手法について（Method）   ● 実験（Experiment）  ● 結論（Conclusion） 

Slide 3

Slide 3 text

3 著者紹介 This image was generated by ChatGPT

Slide 4

Slide 4 text

過去研究テーマ：Formula-driven Superised Learning, Weakly supervised object localization，Output Augmentation 中村凌自己紹介 Twitter LinkedIn 4 株式会社天地人 / SatAI・cvpaper.challenge HQ (福岡大学出身) 天地人での仕事 - 宇宙水道局（AIを活用した漏水管のリスク診断） - 降水量予測と電波減衰量予測過去の業績 - 研究効率化Tips (ViEW2021招待講演) - CCCS,W2021/2022 GC PC(登録者800名超え) - IROS / ICCV 2023, ICASSP / ECCV / ICPR2024採択 - SSII2023オーディエンス賞受賞

Slide 5

Slide 5 text

Scale-Aware Recognition in Satellite images Under Resource Constraints   5 ● この論文では予算制約がある衛星画像の認識（画像検索）で正確な性能を出すために以下のアイデアを組み合わせたフレームワークを提案  ○ LLMの概念理解を活用し、概念のスケールに応じてどの高解像度か低解像度画像を使用するとよいかを決定する手法を提案   ○ 解像度モデルから学習することで低解像度モデルがより細かい概念の認識性能を改善する知識蒸留技術を提案  ○ 低解像度モデルと高解像度モデルの出力の不一致となる可能性を予測することで、より高解像度の分析が必要な地理的領域を決定する手法を提案  リソース制約化における衛星画像のスケールを考慮した認識システムを提案   Shreelekha Revankar et al. (2024), “Scale-Aware Recognition in Satellite images Under Resource Constraints”, ICLR 2025. より引用

Slide 6

Slide 6 text

● 地球観測衛星の数は年々増加   ○ 現在だと1500機以上が、打ち上げられていて、データもどんどん増加している   ● コンピュータビジョンにおける課題   ○ 年々増加する衛星画像をアプリケーションに活用するためには、   衛星画像が持つ概念を正確に認識することが重要   Introduction   6 RESTEC https://www.restec.or.jp/service/ より引用農業  森林管理  土地利用の監視 

Slide 7

Slide 7 text

Introduction   7 Shreelekha Revankar et al. (2024), “Scale-Aware Recognition in Satellite images Under Resource Constraints”, ICLR 2025. より引用 ● 衛星画像の概念を定義する上で大事なのは「スケールの概念」  ○ スケールの説明  ■ スケールというのは、衛星画像の解像度のこと  ■ この解像度は、特定の衛星/センサーに依存しGSD（地上サンプリング距離）によって特徴づけられる（GSDとは、１ピクセルに対する距離のこと）  ○ 認識に関心のある多くの概念には、それぞれ特徴的なサイズがあるため、スケールに応じた概念を考えるのが重要  ● 例えば  ○ オリンピックサイズのスイミングプールは通常、長さが約50mだが、Sentinel-2の画像ではほとんど点にしか見えない ← つまり、Sentinel-2では扱えない概念  ○ 湖のサイズは100km^2に及ぶ場合もあるため、(NAIP画像で)広範囲をとらるには大きな画像が必要になる ← 広範囲を撮影した衛星画像じゃないと扱えない概念  ● 局所的に多くの地理的特徴を持つ人口密集地域などのケースだと ← 高解像度データが必要  ● 大局的に地理的特徴を持つ無人砂漠などのケースだと ← 低解像度データでもOK 

Slide 8

Slide 8 text

有り無し有りコスト高い・スケールが大きい・小さい物体の認識向きコスト低い・スケールが大きい物体の認識向き無しコスト中・スケールが小さい物体の認識向きコスト無し・何もできない Introduction スケールとコスト   8 Shreelekha Revankar et al. (2024), “Scale-Aware Recognition in Satellite images Under Resource Constraints”, ICLR 2025. より引用 ● 認識したい概念に合わせて、衛星画像のスケールを選択することがアプリケーションの精度を高めるうえで重要だが、コストの問題がある   ○ 低解像度(Low resolution)画像の場合だと   ■ 無料で入手可能、数も豊富、広い範囲を観測できるため・・   ■ コストは比較的低い   ○ 高解像度画像(High resolution)：   ■ 必要に応じてドローンや低空飛行衛星から取得されるので・・   ■ コストは比較的高い   ■ 観測幅も狭いという欠点がある   LR  HR 

Slide 9

Slide 9 text

Introduction 論文でやること   9 Shreelekha Revankar et al. (2024), “Scale-Aware Recognition in Satellite images Under Resource Constraints”, ICLR 2025. より引用 ● 現在の衛星画像における研究は、最高精度を追求するため、コストの面については考えてない   ○ コストをかければ、精度は上がるが、地理的状況、認識する概念のスケールを考慮して、コストを考慮する研究が少ない  ● そこで、この論文では予算制約がある衛星画像の認識（画像検索）で正確な性能を出すために以下のアイデアを組み合わせたフレームワークを提案  ○ LLMの概念理解を活用し、概念のスケールに応じてどの高解像度か低解像度画像を使用するとよいかを決定する手法を提案   ○ 解像度モデルから学習することで低解像度モデルがより細かい概念の認識性能を改善する知識蒸留技術を提案  ○ 低解像度モデルと高解像度モデルの出力の不一致となる可能性を予測することで、より高解像度の分析が必要な地理的領域を決定する手法を提案 

Slide 10

Slide 10 text

10 Shreelekha Revankar et al. (2024), “Scale-Aware Recognition in Satellite images Under Resource Constraints”, ICLR 2025. より引用 Methodology：手法の外観   知識蒸留パート  HRとLR  判定パート→  知識蒸留モデル↑  活用パート  不一致度を計算して  予算に応じてHR画像  取得予測パート↓ 

Slide 11

Slide 11 text

Methodology：LLMを用いた推論   11 Shreelekha Revankar et al. (2024), “Scale-Aware Recognition in Satellite images Under Resource Constraints”, ICLR 2025. より引用 ● 高解像度画像が必要化どうかは概念によって異なるため、LLMを用いて選択したい   ○ だけど、LLMは一般的に、様々な背景知識を学んでいるが、衛星画像の異なるモダリティを学習して推論したりはしてない  ○ そのギャップを埋める為に In-context learning(ICL) を使用  ■ 例示には訓練画像とその画像に付与されている概念を使用（プロンプトの例は以下に添付）   「以下の概念について、低解像度（ LR）または高解像度（HR）の画像のどちらが適しているかを判断するための 2 値分類を行ってください。まず、正しい回答をいくつか例示します。次に、概念を提示しますので、 LRまたはHRを返してください。」 ICLに使用したプロンプト  安木駿介. (2024), “論文紹介 In-Context Learning Creates Task Vectors”,Docswell. より引用

Slide 12

Slide 12 text

Methodology：高解像度から低解像度への知識蒸留   12 Shreelekha Revankar et al. (2024), “Scale-Aware Recognition in Satellite images Under Resource Constraints”, ICLR 2025. より引用 ● ある概念が高解像度画像に適している分かった時、予算上の関係で全ての場所をカバーするのは難しい   ○ そのため、低解像度画像を使用し、高解像度モデルの予測を近似するモデルを作成したい   ○ そのその方法として「知識蒸留：Knowledge distillation」を用いて、低解像度画像を入力として高解像度予測を近似するモデルを学習   ○ 学習には以下のMSEの式の損失を最小化するように学習   変数の説明は割愛するが、学習のコンセプトとしては   同じ位置の高/低解像度の衛星画像をそれぞれの概念のlogitの距離が最小化するように学習   高解像度モデルの方は、衛星画像を任意のサイズで分割し、その中で最も概念のlogitが大きいものを使用する   S^HR  S^LR 

Slide 13

Slide 13 text

Methodology：モデルの不一致に基づく高解像度画像の取得   13 ● 小さな概念を検出する場合、低解像度衛星画像には十分な視覚情報が無いため、低解像度画像には限界がある  ○ この時、予算を活用して高解像度衛星画像を取得し、予測する必要がある   ○ この時の、不一致スコアはそれぞれのモデルのlogitの差を見れば計算できる         ○ ただ、この差を計算するためには、高解像度衛星画像の計算が必要になるため、その代わりに   知識蒸留したモデルを活用して不一致の基準を定義   Shreelekha Revankar et al. (2024), “Scale-Aware Recognition in Satellite images Under Resource Constraints”, ICLR 2025. より引用 S^LR  ←の画像だと、HR teacher modelを使いたいところを   知識蒸留したLR modelに置き換えて、分割された領域の概念のlogitを計算。低解像度のlogitとの差分を計算することで領域ごとの不一致度を計算  

Slide 14

Slide 14 text

Methodology：リソース制約化でのスケール考慮認識（手法まとめ）   14 Shreelekha Revankar et al. (2024), “Scale-Aware Recognition in Satellite images Under Resource Constraints”, ICLR 2025. より引用 ● 最初に、概念が与えられた場合、LLMはどの解像度が最適かを判断し、低解像度 or 高解像度の概念なのかを判別  ○ 低解像度だと予算の問題なく、画像を入力し、予測結果を得る   ○ 高解像度の場合だと、予算を定義して、知識蒸留した and してない低解像度モデルと低解像度画像を用いて、不一致スコアを計算し、HR画像が必要なところとそうで無いところを計算、予算に応じて高解像度画像を取得し、高解像度モデルで推論を行う   ○ ↑高解像度データを使うのが望ましいが難しい場合は知識蒸留モデルを使用する  

Slide 15

Slide 15 text

←クラス情報：全部で40  ● 知識蒸留、モデル不一致スコアによる高解像度データの取得（サンプリング）、LLMに基づくスケール差の影響を評価することで、「スケールを考慮した概念認識アプローチ」の有効性を評価   ● 使用画像  ○ Sentinel-2/ NAIP(National Agriculture Imagery Program)   ■ 高解像度画像(GSD=1m)、コスト1km^2=1.00~6.00ドル   ○ Sentinel-2/NICFI  ■ 低解像度画像（GSD=5m）、コスト1km^2=2.00ドル   ■ 計算が良くわからないが、1枚のNAIP画像は4枚のNICFI画像に相当するみたい   ● データセット  ○ 低解像度画像の訓練・検証画像数：45,885枚・4,938枚   ○ 高像度画像の訓練・検証画像数：4,588,500枚・493,800枚   ○ 場所はアーカンソー州、デラウェア州、アイダホ州、メイン州、ロードアイランド州、ワイオミング州、バージン諸島  ● テストデータセット  ○ 5,015枚のSentinel-2画像と505,100枚のNAIP画像で構成   ○ 場所はD.C.、プエルトリコ、ハワイで構成   Experiment：実験の方向性・実験設定   15 Shreelekha Revankar et al. (2024), “Scale-Aware Recognition in Satellite images Under Resource Constraints”, ICLR 2025. より引用

Slide 16

Slide 16 text

● HR：全拠点のHRデータとHRモデルを使用するだけ。   ● LR：LRデータとLRモデルのみを使用。   ● KD：LRデータのみを使用し、我々のKDモデルを使用。   ● model dis. ：モデル不一致のアプローチを使って、HRイメージのロケーションをサンプリング。   ● LR + LLM ：LLMを使用してHRデータが必要な概念を決定するが、その後、すべての場所のHR画像を取得し、その他の概念にLRモデルを使用する。   ● KD + LLM ：LLMを使用してHRデータを必要とする概念を決定するが、その後、全ての場所のHR画像を取得し、その他の概念にKDモデルを使用する。   ● Patchdrop ：パッチドロップ（Uzkent & Ermon, 2020）を使用してHRサンプルの位置を決定。   ● Ours full ：LLMで最適な解決策を決定し、モデル不一致技術で予算に制約のあるHRイメージをサンプリングし、 KDモデルを使って予算外の領域でHRに適したコンセプトの推論を行う。これはKD + LLM + モデル不一致と同じ。  ● nl. sampling ：IS-count (Meng et al., 2022)で提唱されたサンプリング戦略（vianight lights）を使用し、独自のモデル不一致手法と比較する。   Experiment：ベンチマークの用語解説   16 Shreelekha Revankar et al. (2024), “Scale-Aware Recognition in Satellite images Under Resource Constraints”, ICLR 2025. より引用

Slide 17

Slide 17 text

● GRAFTはCLIPと同様の衛星画像上のOpen vocablary認識を実行するためのzero-shot視覚言語モデル   ○ 論文ではSentinel-2とNAIPを使用したモデルを使用   ○ 低解像度のNICFIは上記のモデルを微調整している   ○ ModelはViT-B-16  ○ 評価指標はmAP@K(logitの上位Kにおける平均適合率)   Experiment : zero-shotモデルを用いたシステム全体のパフォーマンス   17 Shreelekha Revankar et al. (2024), “Scale-Aware Recognition in Satellite images Under Resource Constraints”, ICLR 2025. より引用

Slide 18

Slide 18 text

● システムの評価をする際に使用した予算は1000箇所の高解像度画像（各~5 km^2未満の画像）   ○ その結果少ない高解像度画像で、HRより高い性能を得ることができた。   ○ ↑適切なスケールを選択したことが効いたと考えられる   Experiment : 教師データを用いたシステム全体のパフォーマンス   18 Shreelekha Revankar et al. (2024), “Scale-Aware Recognition in Satellite images Under Resource Constraints”, ICLR 2025. より引用

Slide 19

Slide 19 text

● LR画像のみを使用した40のクラスについて、マルチラベル分類のためのいくつかのモデルの性能を比較   ● 各対応する訓練データとモデルについて、HRモデルの性能も示している   ● 高・低解像度モデルを用いて低解像度画像の画像検索を行うと提案手法の方が全て高い性能を記録した   Experiment : 低解像度での認識   19 低解像度における教師なしモデルでの認識性能低解像度における教師有りモデルでの認識性能 Shreelekha Revankar et al. (2024), “Scale-Aware Recognition in Satellite images Under Resource Constraints”, ICLR 2025. より引用

Slide 20

Slide 20 text

● 上段がLRとHRモデルで不一致度の上位の結果   ● 下段がLRとKDモデルの不一致度の上位の結果（低解像度画像しか用いていない）   ● 相関係数を計算すると結果が0.9322で両者のランキングが類似   Experiment : LRとHRモデルとLRとKDモデルの不一致どによる画像のランク付け   20 Shreelekha Revankar et al. (2024), “Scale-Aware Recognition in Satellite images Under Resource Constraints”, ICLR 2025. より引用

Slide 21

Slide 21 text

● 左図：横軸：logitの上位Kの数、縦軸：Kの適合率   ● 右図：横軸：高解像度サンプリング（取得）の予算、縦軸mAP@1000   Experiment : 不一致に基づくサンプリング戦略のパフォーマンス評価   21 少ない予算で高い性能   提案手法のサンプリングだと   HR onlyの性能に匹敵   Shreelekha Revankar et al. (2024), “Scale-Aware Recognition in Satellite images Under Resource Constraints”, ICLR 2025. より引用

Slide 22

Slide 22 text

● この論文を噛み砕いたイメージを共有すると以下の３つ   おわりに   22 テニスコート  は高解像度じゃないとわからないよ〜   LLMを活用した  概念に適切な解像度の判別と学習   知識蒸留を用いて   低解像度モデルを用いて高解像度じゃないと難しい概念を頑張って認識させる   高解像度はこうやって認識するんだよ！   正解合わせを使用   テニスコート  グラウンド  だめか！  高解像度画像を用意するか  不一致度を用いて、高解像度データが必要な領域を明確化  予算に合わせて取得   Shreelekha Revankar et al. (2024), “Scale-Aware Recognition in Satellite images Under Resource Constraints”, ICLR 2025. より引用