RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent

中山洋平 1 RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent
第27回 SatAI.challenge勉強会

中山洋平 Degas Ltd. • 衛星基盤モデルの研究・開発 • 集合知エージェントシステムの研究・開発 • オンボードAIモデルの研究・開発
自己紹介 2

Multimodal Large Language Model(MLLM)は衛星画像の基本タスクには対応できるが、複雑なリモートセンシング応用には限界 → LLMベースのAIエージェント（RS-Agent）で解決 3 RS-Agent: Automating
Remote Sensing Tasks through Intelligent Agent 【問題】既存のMLLMは基本的な指示追従・説明タスクに限定。専門ツールや知識を要するRS応用（物体検出・シーン分類・変化検出など）には対応困難【手法】RS-Agent：4コンポーネント（Central Controller・Toolkit・Solution Space・Knowledge Space）を統合したAIエージェントフレームワーク【新機構①】Task-Aware Retrieval：タスク種別をLLMで推論し、専門的な解法ガイドを検索 → 高精度なツール選択を実現【新機構②】DualRAG：グローバル検索パス＋キーワード別重み付き検索パスの2経路でドメイン知識を検索【結果】9データセット・18タスクで評価。SOTAのMLLMを大幅に超え、タスク計画精度95%以上を達成 Wenjia Xu et al. (2026), “RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent” より引用

▪ MLLMの発展とリモートセンシングへの応用・GPT-4V、CLIP等の登場でマルチモーダルLLMが大きく進化・シーン分類、物体検出/カウント、変化検出、VQAなど多様なRSタスクへの応用が進む・RSGPT、GeoChat等のRS特化MLLMが登場 ▪ 問題点：既存MLLMの限界・基本的な「指示追従」「画像説明」タスクには強いが、複雑・多段のRS応用には弱い・複数の専門ツールを組み合わせる必要がある実世界タスクには対応困難
・RSドメイン特有の知識（センサーの種類、解像度、スペクトル特性など）への対応が不十分 ▪ AIエージェントという解決策・AI Agent＝LLMが中核となり、複数ツールを自律的に選択・実行できるシステム・Toolformer、HuggingGPT等の先行研究でAIエージェントの有効性が示されている・RS分野への本格的なAIエージェント適用が必要背景・モチベーション Wenjia Xu et al. (2026), “RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent” より引用

▪ RS-Agentの4つのコンポーネント ① Central Controller（中央制御器）・LLMベースの「脳」。タスク推論・計画・ツール呼び出しを管理 ② Toolkit（ツールキット）・18種の専門ツール群（画像キャプション・シーン分類・物体検出/カウント・変化検出・超解像など）
③ Solution Space（解法空間）・タスク別の解法ガイドデータベース・Task-Aware Retrieval（タスク認識型検索）でツール選択を支援 ④ Knowledge Space（知識空間）・RSドメイン知識データベース・DualRAG（デュアル検索拡張生成）でドメイン知識を検索・提供 RS-Agent 全体アーキテクチャ Wenjia Xu et al. (2026), “RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent” より引用

Task-Aware Retrieval（タスク認識型検索） ▪ 従来のRAGの問題点・一般的なRAGはユーザークエリを直接ベクトル化して検索するため、RSタスク特有の文脈を考慮できない・”count the number of
cars”のような同じクエリでも、タスク（Object Counting）を正確に識別できないと誤ったツールを選択してしまう ▪ Task-Aware Retrievalの仕組み（2ステップ） ① Task Inference（タスク推論）　・ユーザークエリからタスク種別をLLMで推論（例：”Object Counting”）　・タスクカテゴリを明示的に特定することで検索精度を向上 ② Solution Retrieval（解法検索）　・推論されたタスク + 元クエリをキーに、Solution Spaceから最適な解法ガイドを検索　・必要なツールの順序・パラメータをガイドとして取得 ▪ 効果（論文 Table 6より）・タスク計画精度が標準RAGと比較して大幅に向上（Task-Aware有り vs 無しで+5〜10%） Wenjia Xu et al. (2026), “RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent” より引用

DualRAG（デュアル検索拡張生成） ▪ DualRAGとは・Knowledge Spaceからドメイン知識を検索するための2経路並列検索機構・Global path + Keyword pathの2つのRAGを組み合わせることで検索精度を向上
▪ 2つの検索経路 ① Global Path（全体セマンティック検索）　・クエリ全体の意味をベクトル化して検索　・コンテキスト全体を把握する大局的な検索 ② Keyword Path（重み付きキーワード検索）　・クエリからキーワードを抽出し、重要語を重み付けして検索　・LightRAGをベースとした手法を採用　・具体的な専門用語（センサー種別・解像度・スペクトル特性など）を的確に検索 ▪ 効果（論文 Table 7より）・LightRAG単体と比較して知識検索精度が向上・特に専門的なRSドメイン用語を含むクエリで効果が大きい Wenjia Xu et al. (2026), “RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent” より引用

Toolkitと対応タスク一覧 ▪ RS-Agentが搭載する18種の専門ツール（論文 Table 8より） Wenjia Xu et al. (2026),
“RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent” より引用

実験結果① タスク計画精度 ▪ タスク計画精度の評価（論文 Table 1・2より）・RS-Agentは9つのデータセット・18種のタスクでタスク計画精度を測定・LLMが正しいツールの選択・実行順序を決定できるかを評価 ▪ 主要な比較結果（Table
1）・GPT-4ベースのRS-Agentが最高精度を達成・タスク計画精度：95%以上（全タスク平均）・特に複雑なマルチタスク（VQA、Object Counting）で他手法を大幅に上回る ▪ Task-Aware Retrievalの効果（Table 6によるアブレーション）・Task-Aware有り: 95.4% ・通常RAG: 90.2%（約5%向上）・RAGなし: 82.7%（約13%向上） ▪ 考察：LLMの種類に依存しつつも、Task-Aware Retrievalが一貫して性能を向上させる Wenjia Xu et al. (2026), “RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent” より引用

実験結果② 各RSタスクの性能 ▪ Object Counting（物体カウント）・DIOR-RSVG・UCMerced・NWPU-Captions・Sydney-Captions等9データセットで評価・RS-Agent（GPT-4V）がSOTA手法を上回る性能 ▪ Scene Classification（シーン分類）
・UCMerced・AID・NWPUの3データセットで評価・GPT-4V: 最高精度、LLaMA-3.1以下のオープンモデルでも既存手法に匹敵 ▪ Visual Question Answering (VQA) ・RSVQA-LR・RSVQA-HR・RSVQAxBENの3データセットで評価・DualRAGによるドメイン知識提供がVQA精度向上に大きく貢献 ▪ Change Detection（変化検出）・LEVIR-CD・DSIFN-CD等で評価・マルチステップのツール実行計画を正確に生成でき高精度を達成 ▪ まとめ・全18タスクで既存のMLLMベースライン（GPT-4V単体等）を上回る結果・特にDualRAGによるドメイン知識活用が差別化要因 Wenjia Xu et al. (2026), “RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent” より引用

定性的結果・デモ例 ▪ 論文 Figure 3 より（Qualitative Results）例① Object Counting
　ユーザー: “How many airplanes are parked in this image? And what are their categories?” 　→ タスク推論: optical_detection, optical_plane_type 　→ ツール選択：optical_detection → 飛行機を検出 (bbox取得) 　→ ツール選択：optical_plane_type → 各飛行機の機種分類例② Change Detection（衛星画像での土地変化検出）　ユーザー: “What changes happened between these two images?” 　→ タスク推論: Change Detection 　→ ツール選択: Change_Detection_Tool 　→ 結果: 変化した領域のマスク画像 + 説明テキスト例③ VQA（リモートセンシング画像への質問応答）　ユーザー: “What is the dominant land cover type?” 　→ DualRAGでドメイン知識（土地被覆分類の定義）を取得　→ Knowledge-grounded回答を生成 Wenjia Xu et al. (2026), “RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent” より引用

まとめ・感想・ディスカッション 12 ▪ 論文のまとめ・RS-AgentはLLMベースのAIエージェントで、リモートセンシングの複合タスクを自律的に解決・Task-Aware Retrieval（タスク認識型検索）でツール選択精度を大幅に向上・DualRAG（デュアルRAG）でドメイン知識の活用を強化・9データセット・18タスクで既存手法を上回る性能を達成（タスク計画精度95%以上） ▪
感想・気になった点・LLMをベースにした「ツール呼び出し型」のアーキテクチャは非常に拡張性が高く、現在の一般ドメインの流れにも沿う・Task-Aware RetrievalとDualRAGに関しては新規性等は限定的に見える・どちらかというとEarth AIで抽象的（embedding取得→何らかのdownstream head→結果）だった基盤モデルの利用方法がプリミティブなツール群として設計されている点の方が非常に参考になる Wenjia Xu et al. (2026), “RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent” より引用

RS-Agent: Automating Remote Sensing Tasks throu...

RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent

SatAI.challenge

More Decks by SatAI.challenge

Other Decks in Research

Featured

Transcript

中山洋平 1 RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent

中山洋平 Degas Ltd. • 衛星基盤モデルの研究・開発 • 集合知エージェントシステムの研究・開発 • オンボードAIモデルの研究・開発

Multimodal Large Language Model(MLLM)は衛星画像の基本タスクには対応できるが、複雑なリモートセンシング応用には限界 → LLMベースのAIエージェント（RS-Agent）で解決 3 RS-Agent: Automating

Task-Aware Retrieval（タスク認識型検索） ▪ 従来のRAGの問題点・一般的なRAGはユーザークエリを直接ベクトル化して検索するため、RSタスク特有の文脈を考慮できない・”count the number of

DualRAG（デュアル検索拡張生成） ▪ DualRAGとは・Knowledge Spaceからドメイン知識を検索するための2経路並列検索機構・Global path + Keyword pathの2つのRAGを組み合わせることで検索精度を向上

Toolkitと対応タスク一覧 ▪ RS-Agentが搭載する18種の専門ツール（論文 Table 8より） Wenjia Xu et al. (2026),

実験結果② 各RSタスクの性能 ▪ Object Counting（物体カウント）・DIOR-RSVG・UCMerced・NWPU-Captions・Sydney-Captions等9データセットで評価・RS-Agent（GPT-4V）がSOTA手法を上回る性能 ▪ Scene Classification（シーン分類）

定性的結果・デモ例 ▪ 論文 Figure 3 より（Qualitative Results）例① Object Counting