Upgrade to Pro — share decks privately, control downloads, hide ads and more …

RS-Agent: Automating Remote Sensing Tasks throu...

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent

本資料はSatAI.challengeのサーベイメンバーと共に作成したものです。
SatAI.challengeは、リモートセンシング技術にAIを適用した論文の調査や、より俯瞰した技術トレンドの調査や国際学会のメタサーベイを行う研究グループです。speakerdeckではSatAI.challenge内での勉強会で使用した資料をWeb上で共有しています。
https://x.com/sataichallenge

本研究では、リモートセンシング分野向けAIエージェント「RS-Agent」を提案し、複数の専門ツールとドメイン知識を統合することで、複雑な衛星画像解析タスクを自律的に実行可能としています。Task-Aware Retrievalによりタスク推論に基づく適切なツール選択を実現し、DualRAGによってリモートセンシング特有の専門知識を高精度に検索・活用しています。実験では、9データセット・18タスクにおいて既存のMLLMベース手法を上回る性能を達成し、95%以上の高いタスク計画精度を示されました。

Avatar for SatAI.challenge

SatAI.challenge

May 16, 2026

More Decks by SatAI.challenge

Other Decks in Research

Transcript

  1. Multimodal Large Language Model(MLLM)は衛星画像の基本タスクには対応できるが、複雑なリモー トセンシング応用には限界 → LLMベースのAIエージェント(RS-Agent)で解決 3 RS-Agent: Automating

    Remote Sensing Tasks through Intelligent Agent 【問題】既存のMLLMは基本的な指示追従・説明タスクに限定。専門ツールや知識を要するRS応用(物体検出・シー ン分類・変化検出など)には対応困難 【手法】RS-Agent:4コンポーネント(Central Controller・Toolkit・Solution Space・Knowledge Space)を統合したAIエー ジェントフレームワーク 【新機構①】Task-Aware Retrieval:タスク種別をLLMで推論し、専門的な解法ガイドを検索 → 高精度なツール選択 を実現 【新機構②】DualRAG:グローバル検索パス+キーワード別重み付き検索パスの2経路でドメイン知識を検索 【結果】9データセット・18タスクで評価。SOTAのMLLMを大幅に超え、タスク計画精度95%以上を達成 Wenjia Xu et al. (2026), “RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent” より引用
  2. ▪ MLLMの発展とリモートセンシングへの応用 ・GPT-4V、CLIP等の登場でマルチモーダルLLMが大きく進化 ・シーン分類、物体検出/カウント、変化検出、VQAなど多様なRSタスクへの応用が進む ・RSGPT、GeoChat等のRS特化MLLMが登場 ▪ 問題点:既存MLLMの限界 ・基本的な「指示追従」「画像説明」タスクには強いが、 複雑・多段のRS応用には弱い ・複数の専門ツールを組み合わせる必要がある実世界タスクには対応困難

    ・RSドメイン特有の知識(センサーの種類、解像度、スペクトル特性など)への対応が不十分 ▪ AIエージェントという解決策 ・AI Agent=LLMが中核となり、複数ツールを自律的に選択・実行できるシステム ・Toolformer、HuggingGPT等の先行研究でAIエージェントの有効性が示されている ・RS分野への本格的なAIエージェント適用が必要 背景・モチベーション Wenjia Xu et al. (2026), “RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent” より引用
  3. ▪ RS-Agentの4つのコンポーネント ① Central Controller(中央制御器) ・LLMベースの「脳」。タスク推論・計画・ツール呼び出しを管理 ② Toolkit(ツールキット) ・18種の専門ツール群(画像キャプション・シーン分類・物体検出/カウント・ 変化検出・超解像など)

    ③ Solution Space(解法空間) ・タスク別の解法ガイドデータベース ・Task-Aware Retrieval(タスク認識型検索)でツール選択を支援 ④ Knowledge Space(知識空間) ・RSドメイン知識データベース ・DualRAG(デュアル検索拡張生成)でドメイン知識を検索・提供 RS-Agent 全体アーキテクチャ Wenjia Xu et al. (2026), “RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent” より引用
  4. Task-Aware Retrieval(タスク認識型検索) ▪ 従来のRAGの問題点 ・一般的なRAGはユーザークエリを直接ベクトル化して検索するため、RSタスク特有の文脈を考慮できな い ・”count the number of

    cars”のような同じクエリでも、タスク(Object Counting)を正確に識別できないと 誤ったツールを選択してしまう ▪ Task-Aware Retrievalの仕組み(2ステップ) ① Task Inference(タスク推論)  ・ユーザークエリからタスク種別をLLMで推論(例:”Object Counting”)  ・タスクカテゴリを明示的に特定することで検索精度を向上 ② Solution Retrieval(解法検索)  ・推論されたタスク + 元クエリをキーに、Solution Spaceから最適な解法ガイドを検索  ・必要なツールの順序・パラメータをガイドとして取得 ▪ 効果(論文 Table 6より) ・タスク計画精度が標準RAGと比較して大幅に向上(Task-Aware有り vs 無しで+5〜10%) Wenjia Xu et al. (2026), “RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent” より引用
  5. DualRAG(デュアル検索拡張生成) ▪ DualRAGとは ・Knowledge Spaceからドメイン知識を検索するための2経路並列検索機構 ・Global path + Keyword pathの2つのRAGを組み合わせることで検索精度を向上

    ▪ 2つの検索経路 ① Global Path(全体セマンティック検索)  ・クエリ全体の意味をベクトル化して検索  ・コンテキスト全体を把握する大局的な検索 ② Keyword Path(重み付きキーワード検索)  ・クエリからキーワードを抽出し、重要語を重み付けして検索  ・LightRAGをベースとした手法を採用  ・具体的な専門用語(センサー種別・解像度・スペクトル特性など)を的確に検索 ▪ 効果(論文 Table 7より) ・LightRAG単体と比較して知識検索精度が向上 ・特に専門的なRSドメイン用語を含むクエリで効果が大きい Wenjia Xu et al. (2026), “RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent” より引用
  6. Toolkitと対応タスク一覧 ▪ RS-Agentが搭載する18種の専門ツール(論文 Table 8より) Wenjia Xu et al. (2026),

    “RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent” より引用
  7. 実験結果① タスク計画精度 ▪ タスク計画精度の評価(論文 Table 1・2より) ・RS-Agentは9つのデータセット・18種のタスクでタスク計画精度を測定 ・LLMが正しいツールの選択・実行順序を決定できるかを評価 ▪ 主要な比較結果(Table

    1) ・GPT-4ベースのRS-Agentが最高精度を達成 ・タスク計画精度:95%以上(全タスク平均) ・特に複雑なマルチタスク(VQA、Object Counting)で他手法を大幅に上回る ▪ Task-Aware Retrievalの効果(Table 6によるアブレーション) ・Task-Aware有り: 95.4% ・通常RAG: 90.2%(約5%向上) ・RAGなし: 82.7%(約13%向上) ▪ 考察:LLMの種類に依存しつつも、Task-Aware Retrievalが一貫して性能を向上させる Wenjia Xu et al. (2026), “RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent” より引用
  8. 実験結果② 各RSタスクの性能 ▪ Object Counting(物体カウント) ・DIOR-RSVG・UCMerced・NWPU-Captions・Sydney-Captions等9データセットで評価 ・RS-Agent(GPT-4V)がSOTA手法を上回る性能 ▪ Scene Classification(シーン分類)

    ・UCMerced・AID・NWPUの3データセットで評価 ・GPT-4V: 最高精度、LLaMA-3.1以下のオープンモデルでも既存手法に匹敵 ▪ Visual Question Answering (VQA) ・RSVQA-LR・RSVQA-HR・RSVQAxBENの3データセットで評価 ・DualRAGによるドメイン知識提供がVQA精度向上に大きく貢献 ▪ Change Detection(変化検出) ・LEVIR-CD・DSIFN-CD等で評価 ・マルチステップのツール実行計画を正確に生成でき高精度を達成 ▪ まとめ ・全18タスクで既存のMLLMベースライン(GPT-4V単体等)を上回る結果 ・特にDualRAGによるドメイン知識活用が差別化要因 Wenjia Xu et al. (2026), “RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent” より引用
  9. 定性的結果・デモ例 ▪ 論文 Figure 3 より(Qualitative Results) 例① Object Counting

     ユーザー: “How many airplanes are parked in this image? And what are their categories?”  → タスク推論: optical_detection, optical_plane_type  → ツール選択:optical_detection → 飛行機を検出 (bbox取得)  → ツール選択:optical_plane_type → 各飛行機の機種分類 例② Change Detection(衛星画像での土地変化検出)  ユーザー: “What changes happened between these two images?”  → タスク推論: Change Detection  → ツール選択: Change_Detection_Tool  → 結果: 変化した領域のマスク画像 + 説明テキスト 例③ VQA(リモートセンシング画像への質問応答)  ユーザー: “What is the dominant land cover type?”  → DualRAGでドメイン知識(土地被覆分類の定義)を取得  → Knowledge-grounded回答を生成 Wenjia Xu et al. (2026), “RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent” より引用
  10. まとめ・感想・ディスカッション 12 ▪ 論文のまとめ ・RS-AgentはLLMベースのAIエージェントで、リモートセンシングの複合タスクを自律的に解決 ・Task-Aware Retrieval(タスク認識型検索)でツール選択精度を大幅に向上 ・DualRAG(デュアルRAG)でドメイン知識の活用を強化 ・9データセット・18タスクで既存手法を上回る性能を達成(タスク計画精度95%以上) ▪

    感想・気になった点 ・LLMをベースにした「ツール呼び出し型」のアーキテクチャは非常に拡張性が高く、現在の一般ドメインの 流れにも沿う ・Task-Aware RetrievalとDualRAGに関しては新規性等は限定的に見える ・どちらかというとEarth AIで抽象的(embedding取得→何らかのdownstream head→結果)だった基盤モデ ルの利用方法がプリミティブなツール群として設計されている点の方が非常に参考になる Wenjia Xu et al. (2026), “RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent” より引用