Slide 1

Slide 1 text

Evaluating Tool-Augmented Agents in 
 Remote Sensing Platforms
 修 浩毅
 1 第2回 SatAI.challenge勉強会


Slide 2

Slide 2 text

目次 
 2 ● 自己紹介スライド
 ● 研究の1ページサマリ紹介 
 ● 研究の背景(Introduction) 
 ● 手法について(Method) 
 ● 実験(Experiment)
 ● 結論(Conclusion)


Slide 3

Slide 3 text

3 著者紹介 This image was generated by ChatGPT

Slide 4

Slide 4 text

修 浩毅 産総研 データプラットフォーム研究チーム ● 3次元点群解析 ● コンピュータ・グラフィックス ● 建物被害検知 点群セグメンテーション 自己紹介 4 GitHub Linkedin 点群からの法線推定 航空ライダーからの建物被害検知

Slide 5

Slide 5 text

5 研究の1ページサマリ紹介 This image was generated by ChatGPT

Slide 6

Slide 6 text

Evaluating Tool-Augmented Agents In Remote Sensing Platforms 
 6 ● 既存のデータセットでは、ユーザーのシステム使用状況などのニュアンスを考慮したLLM評価が難しい 
 ● そこで、LLM agentの言語理解能力とツールを用いたタスク実行能力(e.g., ズームする、衛星画像を読み込む、 物体検出をする)などを評価できるベンチマークを提案し、複数のLLMとプロンプト手法を検証 
 
 LLM agentのツール使用能力を評価するためのベンチマーク(GeoLLM-QA)を提案 
 Simranjit Singh et al. (2024), “EVALUATING TOOL-AUGMENTED AGENTS IN REMOTE SENSING PLATFORMS”, ICLR ML4RS Workshop. より引用

Slide 7

Slide 7 text

7 研究の背景 This image was generated by ChatGPT

Slide 8

Slide 8 text

背景:リモートセンシングでのLLMの活用 
 8 ● 従来、ユーザーが特定の衛星画像を使ってタスクを実行するには、そのタスクに関する知識やスキル、手間が 必要になる
 ● しかし、LLM agentはユーザーの質問やリクエストを理解することによって、ユーザーの代わりに複雑なタスクを 実行できる
 Haonan Guo et al. (2024), “Remote Sensing ChatGPT: Solving Remote Sensing Tasks with ChatGPT and Visual Models”, IGARSS 2024. より引用

Slide 9

Slide 9 text

背景:既往研究の問題点 
 9 ● 現状、LLM agentはimage-textペアが与えられた状況下で評価される 
 ● しかし、現実にはLLMは複雑なタスクを行うことを求められる 
 ● 例:
 ○ User:2023年5月にメキシコシティ空港にあるすべての航空機を、YOLOを使用してxview1の全画像から検 出してください。
 ○ LLM:地図をメキシコシティ空港にズーム、SQLでxview1画像を読み込み、座標に基づいてフィルタリング、 YOLO検出器を...
 Simranjit Singh et al. (2024), “EVALUATING TOOL-AUGMENTED AGENTS IN REMOTE SENSING PLATFORMS”, ICLR ML4RS Workshop. より引用 画像ーテキストペアが与えられていると仮定 
 実際のところ
 LLM
 User: detect all the airplanes in airport A in B city in Nov. 2024 
 Tool 1
 …
 Tool n
 data
 models
 Answer: there are … 


Slide 10

Slide 10 text

背景:本研究の狙い 
 10 ● 実際のシステムを使うときをイメージしてLLM agentを評価する 
 ● 評価用のベンチマークがないため作成する 
 ● 作成したベンチマーク上でLLM agentを評価する 
 Simranjit Singh et al. (2024), “EVALUATING TOOL-AUGMENTED AGENTS IN REMOTE SENSING PLATFORMS”, ICLR ML4RS Workshop. より引用 より強力なリモセンLLM agentを作るためのインサイトを提供する 


Slide 11

Slide 11 text

11 手法について This image was generated by ChatGPT

Slide 12

Slide 12 text

GeoLLM-QA framework: 検証用プラットフォーム 
 12 ● LLM-assisted なプラットフォームで評価をするためのウェブアプリを開発 
 ● 117個オープンソースAPIを呼び出し可能にし、言語、視覚、触覚など多様な入力手段を通じて幅広いリモートセ ンシングのユースケースを検証可能 
 ● オープンソース予定(まだ) 
 Simranjit Singh et al. (2024), “EVALUATING TOOL-AUGMENTED AGENTS IN REMOTE SENSING PLATFORMS”, ICLR ML4RS Workshop. より引用

Slide 13

Slide 13 text

GeoLLM-QA framework: 問題設定 
 13 実際のUI体験を想定し問題を設定: {q, T, r, S} 
 ● User question (q): ユーザーの質問/プロンプト 
 ○ q: 2023年5月にメキシコシティ空港にあるすべての航空機を、YOLOを使用してXView1の全画像から検出 してください。
 ● Agent tool-calls (T): LLMによるツールの呼び出し 
 ○ T={t_1, t_2, …}, t_i = {tool_i, args_i} 
 ● Agent response to user (r) and platform state (S): LLMからの回答内容及びシステムの状態 
 ○ r: 5機あります
 ○ S: map positioning (ズームレベル、位置など), loaded database (読み込んだデータセット) , ... 
 Simranjit Singh et al. (2024), “EVALUATING TOOL-AUGMENTED AGENTS IN REMOTE SENSING PLATFORMS”, ICLR ML4RS Workshop. より引用 LLM
 Tool 1
 Tool n
 …
 Tool 2
 Tool 1
 Tool n
 Tool 2
 Response to user
 User question
 Platform state
 Agent tool calls 


Slide 14

Slide 14 text

GeoLLM-QA framework: データソース 
 14 複数のデータセットを統合し、5000枚の衛星画像、80カテゴリ+メタデータのデータセットを作成 
 Darius Lam et al. (2018), “xView: Objects in Context in Overhead Imagery”, arxiv. より引用 Fernando Paolo et al. (2018), “xView3-SAR: Detecting Dark Fishing Activity Using Synthetic Aperture Radar Imagery”, arxiv. より引用 Jian Ding et al. (2018), “Object Detection in Aerial Images: A Large-Scale Benchmark and Challenges”, arxiv. より引用 データセット データソース 画像枚数 クラス タスク xview-1 Worldview-3 1413 60 object detection xview-3 Sentinel-1 991 2 dark vessel detection DOTA-v2.0 Multi source 11268 18 object detection xview-1
 xview-3
 DOTA-v2.0


Slide 15

Slide 15 text

GeoLLM-QA framework: Benchmark creation 
 15 人間アノテーターとGPT-4でQAペアを効率的に作成 
 1. Reference template collection: 25テンプレート質問に対し て、GPT-4とhuman-in-the-loopによって正答を作成 
 2. LLM-guided question generation: GPT-4によってテンプ レート質問から1000個のバリエーションを生成 
 3. Human-guided ground truth generation: 1000個の生成し た質問に対して、GPT-4とhuman-on-the-loopで正答を作 成
 Simranjit Singh et al. (2024), “EVALUATING TOOL-AUGMENTED AGENTS IN REMOTE SENSING PLATFORMS”, ICLR ML4RS Workshop. より引用 テンプレート質問からのバリエーション生成 
 テンプレート質問


Slide 16

Slide 16 text

GeoLLM-QA framework: Benchmark creation 
 16 LLMのツール使用能力と推論力を評価できる指標を使用 
 ● Success rate: platform state (S)がground truth state にマッチしてるか 
 ● Correctness ratio: ツールを正しく使用できているか R_correct = max(0, 1 - N_error/N_tools) 
 ● ROUGE score: 正しく回答できているか 
 ● Cost (tokens): 回答に使用したtoken数 
 ● (Detection) Recall: detectionタスクのrecall 
 ○ Golden detectorを使用するため、エラーはdetectorからではなく、LLMのタスクの完成度に起因する 
 Simranjit Singh et al. (2024), “EVALUATING TOOL-AUGMENTED AGENTS IN REMOTE SENSING PLATFORMS”, ICLR ML4RS Workshop. より引用

Slide 17

Slide 17 text

17 実験 This image was generated by ChatGPT

Slide 18

Slide 18 text

実験(Experiment) 
 18 ● LLM:
 ○ GPT-3.5
 ○ GPT-4
 ● プロンプト手法:
 ○ Chain-of-thought (CoT) 
 ○ Chameleon
 ○ ReAct
 Pan Lu et al. (2024), “Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models”, arxiv. より引用 Shunyu Yao et al. (2022), “ReAct: Synergizing Reasoning and Acting in Language Models”, arxiv より引用 Jason Wei et al. (2022), “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models”, arxiv. より引用

Slide 19

Slide 19 text

実験(Experiment) 
 19 ● GPT-4は3.5に比べツール使用能力(Corretness rate)がかなり向上 
 ● CoTとReActはChameleonよりも正確かつtoken-efficient 
 ● detection recall と他の指標の傾向が一致しない(detection recallが高い手法は優秀なLLM agentとは限らな い)
 Simranjit Singh et al. (2024), “EVALUATING TOOL-AUGMENTED AGENTS IN REMOTE SENSING PLATFORMS”, ICLR ML4RS Workshop. より引用

Slide 20

Slide 20 text

実験(Experiment) 
 20 ● 一貫して最も顕著なエラーは必要なツールを使用しなかったこと(”Missed Function”) 
 ● エラーパターンはプロンプト手法ではなくGPT(3.5と4)の能力に起因する 
 Simranjit Singh et al. (2024), “EVALUATING TOOL-AUGMENTED AGENTS IN REMOTE SENSING PLATFORMS”, ICLR ML4RS Workshop. より引用

Slide 21

Slide 21 text

21 結論 This image was generated by ChatGPT

Slide 22

Slide 22 text

結論(Conclusion) 
 22 ● 実際のプラットフォームでLLMのツール使用能力を評価できるベンチマークを作成 
 ● 複数プロンプト手法でGPT3.5とGPT4.0のタスク実行能力を検証 
 ● 固定されたimage-textペアではなく、実際のシステム環境をイメージしたベンチマークでLLM agentの検証す る必要性を確認
 Simranjit Singh et al. (2024), “EVALUATING TOOL-AUGMENTED AGENTS IN REMOTE SENSING PLATFORMS”, ICLR ML4RS Workshop. より引用