Slide 1

Slide 1 text

中山洋平 1 RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent 第27回 SatAI.challenge勉強会

Slide 2

Slide 2 text

中山 洋平 Degas Ltd. ● 衛星基盤モデルの研究・開発 ● 集合知エージェントシステムの研究・開発 ● オンボードAIモデルの研究・開発 自己紹介 2

Slide 3

Slide 3 text

Multimodal Large Language Model(MLLM)は衛星画像の基本タスクには対応できるが、複雑なリモー トセンシング応用には限界 → LLMベースのAIエージェント(RS-Agent)で解決 3 RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent 【問題】既存のMLLMは基本的な指示追従・説明タスクに限定。専門ツールや知識を要するRS応用(物体検出・シー ン分類・変化検出など)には対応困難 【手法】RS-Agent:4コンポーネント(Central Controller・Toolkit・Solution Space・Knowledge Space)を統合したAIエー ジェントフレームワーク 【新機構①】Task-Aware Retrieval:タスク種別をLLMで推論し、専門的な解法ガイドを検索 → 高精度なツール選択 を実現 【新機構②】DualRAG:グローバル検索パス+キーワード別重み付き検索パスの2経路でドメイン知識を検索 【結果】9データセット・18タスクで評価。SOTAのMLLMを大幅に超え、タスク計画精度95%以上を達成 Wenjia Xu et al. (2026), “RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent” より引用

Slide 4

Slide 4 text

■ MLLMの発展とリモートセンシングへの応用 ・GPT-4V、CLIP等の登場でマルチモーダルLLMが大きく進化 ・シーン分類、物体検出/カウント、変化検出、VQAなど多様なRSタスクへの応用が進む ・RSGPT、GeoChat等のRS特化MLLMが登場 ■ 問題点:既存MLLMの限界 ・基本的な「指示追従」「画像説明」タスクには強いが、 複雑・多段のRS応用には弱い ・複数の専門ツールを組み合わせる必要がある実世界タスクには対応困難 ・RSドメイン特有の知識(センサーの種類、解像度、スペクトル特性など)への対応が不十分 ■ AIエージェントという解決策 ・AI Agent=LLMが中核となり、複数ツールを自律的に選択・実行できるシステム ・Toolformer、HuggingGPT等の先行研究でAIエージェントの有効性が示されている ・RS分野への本格的なAIエージェント適用が必要 背景・モチベーション Wenjia Xu et al. (2026), “RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent” より引用

Slide 5

Slide 5 text

■ RS-Agentの4つのコンポーネント ① Central Controller(中央制御器) ・LLMベースの「脳」。タスク推論・計画・ツール呼び出しを管理 ② Toolkit(ツールキット) ・18種の専門ツール群(画像キャプション・シーン分類・物体検出/カウント・ 変化検出・超解像など) ③ Solution Space(解法空間) ・タスク別の解法ガイドデータベース ・Task-Aware Retrieval(タスク認識型検索)でツール選択を支援 ④ Knowledge Space(知識空間) ・RSドメイン知識データベース ・DualRAG(デュアル検索拡張生成)でドメイン知識を検索・提供 RS-Agent 全体アーキテクチャ Wenjia Xu et al. (2026), “RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent” より引用

Slide 6

Slide 6 text

Task-Aware Retrieval(タスク認識型検索) ■ 従来のRAGの問題点 ・一般的なRAGはユーザークエリを直接ベクトル化して検索するため、RSタスク特有の文脈を考慮できな い ・”count the number of cars”のような同じクエリでも、タスク(Object Counting)を正確に識別できないと 誤ったツールを選択してしまう ■ Task-Aware Retrievalの仕組み(2ステップ) ① Task Inference(タスク推論)  ・ユーザークエリからタスク種別をLLMで推論(例:”Object Counting”)  ・タスクカテゴリを明示的に特定することで検索精度を向上 ② Solution Retrieval(解法検索)  ・推論されたタスク + 元クエリをキーに、Solution Spaceから最適な解法ガイドを検索  ・必要なツールの順序・パラメータをガイドとして取得 ■ 効果(論文 Table 6より) ・タスク計画精度が標準RAGと比較して大幅に向上(Task-Aware有り vs 無しで+5〜10%) Wenjia Xu et al. (2026), “RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent” より引用

Slide 7

Slide 7 text

DualRAG(デュアル検索拡張生成) ■ DualRAGとは ・Knowledge Spaceからドメイン知識を検索するための2経路並列検索機構 ・Global path + Keyword pathの2つのRAGを組み合わせることで検索精度を向上 ■ 2つの検索経路 ① Global Path(全体セマンティック検索)  ・クエリ全体の意味をベクトル化して検索  ・コンテキスト全体を把握する大局的な検索 ② Keyword Path(重み付きキーワード検索)  ・クエリからキーワードを抽出し、重要語を重み付けして検索  ・LightRAGをベースとした手法を採用  ・具体的な専門用語(センサー種別・解像度・スペクトル特性など)を的確に検索 ■ 効果(論文 Table 7より) ・LightRAG単体と比較して知識検索精度が向上 ・特に専門的なRSドメイン用語を含むクエリで効果が大きい Wenjia Xu et al. (2026), “RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent” より引用

Slide 8

Slide 8 text

Toolkitと対応タスク一覧 ■ RS-Agentが搭載する18種の専門ツール(論文 Table 8より) Wenjia Xu et al. (2026), “RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent” より引用

Slide 9

Slide 9 text

実験結果① タスク計画精度 ■ タスク計画精度の評価(論文 Table 1・2より) ・RS-Agentは9つのデータセット・18種のタスクでタスク計画精度を測定 ・LLMが正しいツールの選択・実行順序を決定できるかを評価 ■ 主要な比較結果(Table 1) ・GPT-4ベースのRS-Agentが最高精度を達成 ・タスク計画精度:95%以上(全タスク平均) ・特に複雑なマルチタスク(VQA、Object Counting)で他手法を大幅に上回る ■ Task-Aware Retrievalの効果(Table 6によるアブレーション) ・Task-Aware有り: 95.4% ・通常RAG: 90.2%(約5%向上) ・RAGなし: 82.7%(約13%向上) ■ 考察:LLMの種類に依存しつつも、Task-Aware Retrievalが一貫して性能を向上させる Wenjia Xu et al. (2026), “RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent” より引用

Slide 10

Slide 10 text

実験結果② 各RSタスクの性能 ■ Object Counting(物体カウント) ・DIOR-RSVG・UCMerced・NWPU-Captions・Sydney-Captions等9データセットで評価 ・RS-Agent(GPT-4V)がSOTA手法を上回る性能 ■ Scene Classification(シーン分類) ・UCMerced・AID・NWPUの3データセットで評価 ・GPT-4V: 最高精度、LLaMA-3.1以下のオープンモデルでも既存手法に匹敵 ■ Visual Question Answering (VQA) ・RSVQA-LR・RSVQA-HR・RSVQAxBENの3データセットで評価 ・DualRAGによるドメイン知識提供がVQA精度向上に大きく貢献 ■ Change Detection(変化検出) ・LEVIR-CD・DSIFN-CD等で評価 ・マルチステップのツール実行計画を正確に生成でき高精度を達成 ■ まとめ ・全18タスクで既存のMLLMベースライン(GPT-4V単体等)を上回る結果 ・特にDualRAGによるドメイン知識活用が差別化要因 Wenjia Xu et al. (2026), “RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent” より引用

Slide 11

Slide 11 text

定性的結果・デモ例 ■ 論文 Figure 3 より(Qualitative Results) 例① Object Counting  ユーザー: “How many airplanes are parked in this image? And what are their categories?”  → タスク推論: optical_detection, optical_plane_type  → ツール選択:optical_detection → 飛行機を検出 (bbox取得)  → ツール選択:optical_plane_type → 各飛行機の機種分類 例② Change Detection(衛星画像での土地変化検出)  ユーザー: “What changes happened between these two images?”  → タスク推論: Change Detection  → ツール選択: Change_Detection_Tool  → 結果: 変化した領域のマスク画像 + 説明テキスト 例③ VQA(リモートセンシング画像への質問応答)  ユーザー: “What is the dominant land cover type?”  → DualRAGでドメイン知識(土地被覆分類の定義)を取得  → Knowledge-grounded回答を生成 Wenjia Xu et al. (2026), “RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent” より引用

Slide 12

Slide 12 text

まとめ・感想・ディスカッション 12 ■ 論文のまとめ ・RS-AgentはLLMベースのAIエージェントで、リモートセンシングの複合タスクを自律的に解決 ・Task-Aware Retrieval(タスク認識型検索)でツール選択精度を大幅に向上 ・DualRAG(デュアルRAG)でドメイン知識の活用を強化 ・9データセット・18タスクで既存手法を上回る性能を達成(タスク計画精度95%以上) ■ 感想・気になった点 ・LLMをベースにした「ツール呼び出し型」のアーキテクチャは非常に拡張性が高く、現在の一般ドメインの 流れにも沿う ・Task-Aware RetrievalとDualRAGに関しては新規性等は限定的に見える ・どちらかというとEarth AIで抽象的(embedding取得→何らかのdownstream head→結果)だった基盤モデ ルの利用方法がプリミティブなツール群として設計されている点の方が非常に参考になる Wenjia Xu et al. (2026), “RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent” より引用