RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent

by SatAI.challenge

Embed

Start on current slide

Slide 1

Slide 1 text

中山洋平 1 RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent 第27回 SatAI.challenge勉強会

Slide 2

Slide 2 text

中山洋平 Degas Ltd. ● 衛星基盤モデルの研究・開発 ● 集合知エージェントシステムの研究・開発 ● オンボードAIモデルの研究・開発自己紹介 2

Slide 3

Slide 3 text

Multimodal Large Language Model(MLLM)は衛星画像の基本タスクには対応できるが、複雑なリモートセンシング応用には限界 → LLMベースのAIエージェント（RS-Agent）で解決 3 RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent 【問題】既存のMLLMは基本的な指示追従・説明タスクに限定。専門ツールや知識を要するRS応用（物体検出・シーン分類・変化検出など）には対応困難【手法】RS-Agent：4コンポーネント（Central Controller・Toolkit・Solution Space・Knowledge Space）を統合したAIエージェントフレームワーク【新機構①】Task-Aware Retrieval：タスク種別をLLMで推論し、専門的な解法ガイドを検索 → 高精度なツール選択を実現【新機構②】DualRAG：グローバル検索パス＋キーワード別重み付き検索パスの2経路でドメイン知識を検索【結果】9データセット・18タスクで評価。SOTAのMLLMを大幅に超え、タスク計画精度95%以上を達成 Wenjia Xu et al. (2026), “RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent” より引用

Slide 4

Slide 4 text

■ MLLMの発展とリモートセンシングへの応用・GPT-4V、CLIP等の登場でマルチモーダルLLMが大きく進化・シーン分類、物体検出/カウント、変化検出、VQAなど多様なRSタスクへの応用が進む・RSGPT、GeoChat等のRS特化MLLMが登場 ■ 問題点：既存MLLMの限界・基本的な「指示追従」「画像説明」タスクには強いが、複雑・多段のRS応用には弱い・複数の専門ツールを組み合わせる必要がある実世界タスクには対応困難・RSドメイン特有の知識（センサーの種類、解像度、スペクトル特性など）への対応が不十分 ■ AIエージェントという解決策・AI Agent＝LLMが中核となり、複数ツールを自律的に選択・実行できるシステム・Toolformer、HuggingGPT等の先行研究でAIエージェントの有効性が示されている・RS分野への本格的なAIエージェント適用が必要背景・モチベーション Wenjia Xu et al. (2026), “RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent” より引用

Slide 5

Slide 5 text

■ RS-Agentの4つのコンポーネント ① Central Controller（中央制御器）・LLMベースの「脳」。タスク推論・計画・ツール呼び出しを管理 ② Toolkit（ツールキット）・18種の専門ツール群（画像キャプション・シーン分類・物体検出/カウント・変化検出・超解像など） ③ Solution Space（解法空間）・タスク別の解法ガイドデータベース・Task-Aware Retrieval（タスク認識型検索）でツール選択を支援 ④ Knowledge Space（知識空間）・RSドメイン知識データベース・DualRAG（デュアル検索拡張生成）でドメイン知識を検索・提供 RS-Agent 全体アーキテクチャ Wenjia Xu et al. (2026), “RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent” より引用

Slide 6

Slide 6 text

Task-Aware Retrieval（タスク認識型検索） ■ 従来のRAGの問題点・一般的なRAGはユーザークエリを直接ベクトル化して検索するため、RSタスク特有の文脈を考慮できない・”count the number of cars”のような同じクエリでも、タスク（Object Counting）を正確に識別できないと誤ったツールを選択してしまう ■ Task-Aware Retrievalの仕組み（2ステップ） ① Task Inference（タスク推論）　・ユーザークエリからタスク種別をLLMで推論（例：”Object Counting”）　・タスクカテゴリを明示的に特定することで検索精度を向上 ② Solution Retrieval（解法検索）　・推論されたタスク + 元クエリをキーに、Solution Spaceから最適な解法ガイドを検索　・必要なツールの順序・パラメータをガイドとして取得 ■ 効果（論文 Table 6より）・タスク計画精度が標準RAGと比較して大幅に向上（Task-Aware有り vs 無しで+5〜10%） Wenjia Xu et al. (2026), “RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent” より引用

Slide 7

Slide 7 text

DualRAG（デュアル検索拡張生成） ■ DualRAGとは・Knowledge Spaceからドメイン知識を検索するための2経路並列検索機構・Global path + Keyword pathの2つのRAGを組み合わせることで検索精度を向上 ■ 2つの検索経路 ① Global Path（全体セマンティック検索）　・クエリ全体の意味をベクトル化して検索　・コンテキスト全体を把握する大局的な検索 ② Keyword Path（重み付きキーワード検索）　・クエリからキーワードを抽出し、重要語を重み付けして検索　・LightRAGをベースとした手法を採用　・具体的な専門用語（センサー種別・解像度・スペクトル特性など）を的確に検索 ■ 効果（論文 Table 7より）・LightRAG単体と比較して知識検索精度が向上・特に専門的なRSドメイン用語を含むクエリで効果が大きい Wenjia Xu et al. (2026), “RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent” より引用

Slide 8

Slide 8 text

Toolkitと対応タスク一覧 ■ RS-Agentが搭載する18種の専門ツール（論文 Table 8より） Wenjia Xu et al. (2026), “RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent” より引用

Slide 9

Slide 9 text

実験結果① タスク計画精度 ■ タスク計画精度の評価（論文 Table 1・2より）・RS-Agentは9つのデータセット・18種のタスクでタスク計画精度を測定・LLMが正しいツールの選択・実行順序を決定できるかを評価 ■ 主要な比較結果（Table 1）・GPT-4ベースのRS-Agentが最高精度を達成・タスク計画精度：95%以上（全タスク平均）・特に複雑なマルチタスク（VQA、Object Counting）で他手法を大幅に上回る ■ Task-Aware Retrievalの効果（Table 6によるアブレーション）・Task-Aware有り: 95.4% ・通常RAG: 90.2%（約5%向上）・RAGなし: 82.7%（約13%向上） ■ 考察：LLMの種類に依存しつつも、Task-Aware Retrievalが一貫して性能を向上させる Wenjia Xu et al. (2026), “RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent” より引用

Slide 10

Slide 10 text

実験結果② 各RSタスクの性能 ■ Object Counting（物体カウント）・DIOR-RSVG・UCMerced・NWPU-Captions・Sydney-Captions等9データセットで評価・RS-Agent（GPT-4V）がSOTA手法を上回る性能 ■ Scene Classification（シーン分類）・UCMerced・AID・NWPUの3データセットで評価・GPT-4V: 最高精度、LLaMA-3.1以下のオープンモデルでも既存手法に匹敵 ■ Visual Question Answering (VQA) ・RSVQA-LR・RSVQA-HR・RSVQAxBENの3データセットで評価・DualRAGによるドメイン知識提供がVQA精度向上に大きく貢献 ■ Change Detection（変化検出）・LEVIR-CD・DSIFN-CD等で評価・マルチステップのツール実行計画を正確に生成でき高精度を達成 ■ まとめ・全18タスクで既存のMLLMベースライン（GPT-4V単体等）を上回る結果・特にDualRAGによるドメイン知識活用が差別化要因 Wenjia Xu et al. (2026), “RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent” より引用

Slide 11

Slide 11 text

定性的結果・デモ例 ■ 論文 Figure 3 より（Qualitative Results）例① Object Counting 　ユーザー: “How many airplanes are parked in this image? And what are their categories?” 　→ タスク推論: optical_detection, optical_plane_type 　→ ツール選択：optical_detection → 飛行機を検出 (bbox取得) 　→ ツール選択：optical_plane_type → 各飛行機の機種分類例② Change Detection（衛星画像での土地変化検出）　ユーザー: “What changes happened between these two images?” 　→ タスク推論: Change Detection 　→ ツール選択: Change_Detection_Tool 　→ 結果: 変化した領域のマスク画像 + 説明テキスト例③ VQA（リモートセンシング画像への質問応答）　ユーザー: “What is the dominant land cover type?” 　→ DualRAGでドメイン知識（土地被覆分類の定義）を取得　→ Knowledge-grounded回答を生成 Wenjia Xu et al. (2026), “RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent” より引用

Slide 12

Slide 12 text

まとめ・感想・ディスカッション 12 ■ 論文のまとめ・RS-AgentはLLMベースのAIエージェントで、リモートセンシングの複合タスクを自律的に解決・Task-Aware Retrieval（タスク認識型検索）でツール選択精度を大幅に向上・DualRAG（デュアルRAG）でドメイン知識の活用を強化・9データセット・18タスクで既存手法を上回る性能を達成（タスク計画精度95%以上） ■ 感想・気になった点・LLMをベースにした「ツール呼び出し型」のアーキテクチャは非常に拡張性が高く、現在の一般ドメインの流れにも沿う・Task-Aware RetrievalとDualRAGに関しては新規性等は限定的に見える・どちらかというとEarth AIで抽象的（embedding取得→何らかのdownstream head→結果）だった基盤モデルの利用方法がプリミティブなツール群として設計されている点の方が非常に参考になる Wenjia Xu et al. (2026), “RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent” より引用