本資料はSatAI.challengeのサーベイメンバーと共に作成したものです。
SatAI.challengeは、リモートセンシング技術にAIを適用した論文の調査や、より俯瞰した技術トレンドの調査や国際学会のメタサーベイを行うグループです。speakerdeckではSatAI.challenge内での勉強会で使用した資料をWeb上で共有しています。
https://x.com/sataichallenge
紹介する論文は、「Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment」(ICLR 2024)です。AIをはじめとする自動分析手法は、日々取得される膨大な衛星画像データを効率的に処理する上で不可欠です。特に、Open-vocabularyモデルは、従来のAIモデルのように固定された概念(例: 建物、植生、車両など)しか認識できないのではなく、多種多様な概念を認識できる点で、衛星画像分析に適しています。
しかし、Open-vocabularyモデルを構築するには、膨大な数の衛星画像と言語(キャプション)のペアデータセットを用いてモデルをトレーニングする必要があります。ところが、衛星画像にキャプションを付与する作業には多大な労力がかかり、実現は非常に困難です。そこで本研究では、ジオタグ付き地上画像を活用して地上画像と衛星画像のペアを構築し、それを介して、Open-vocabularyモデルである CLIP が獲得したテキスト表現にアクセスすることで、テキストアノテーションを必要としない衛星画像向けOpen-vocabularyモデルを構築する手法 GRAFT を提案しました。
GRAFTによって構築されたモデルは、従来のテキストアノテーションを用いてトレーニングされたCLIPモデルと比較して、Zero-shotの画像レベルおよびピクセルレベルのタスクにおいて大幅に優れた性能を示しました。本研究は、大量のテキストアノテーションを用意するよりも、大量の地上画像を活用し、間接的にテキスト表現を獲得するアプローチがより効果的であることを証明しました。