本資料はSatAI.challengeのサーベイメンバーと共に作成したものです。
SatAI.challengeは、リモートセンシング技術にAIを適用した論文の調査や、より俯瞰した技術トレンドの調査や国際学会のメタサーベイを行う研究グループです。speakerdeckではSatAI.challenge内での勉強会で使用した資料をWeb上で共有しています。
https://x.com/sataichallenge
紹介する論文は、「Evaluating Tool-Augmented Agents in Remote Sensing Platforms」(ICLR ML4RS Workshop)です。本研究では、従来の研究が主に画像とテキストのペアを用いた状況でLLMエージェントの性能を評価していた一方で、実際のリモートセンシングプラットフォーム上での性能評価が行われていなかった点に着目しています。そのため、LLMエージェントが、ズーム、衛星画像の読み込み、物体検知モデルの利用など、一連のステップを正確に実行し、最終的に正確な答えを導き出す能力については十分に検証されていませんでした。本研究では、こうした課題に対応するため、LLMエージェントを実プラットフォームに近い環境で評価可能なベンチマーク「GeoLLM-QA」を開発しました。このベンチマークを用いた評価の結果、強力なLLMエージェントを構築するためには、従来の画像とテキストのペアによる評価だけでは不十分であり、エージェントが答えに至るプロセスそのものを評価する必要性が明らかになりました。