Evaluating Tool-Augmented Agents in Remote Sensing Platforms

Slide 1

Slide 1 text

Evaluating Tool-Augmented Agents in   Remote Sensing Platforms  修　浩毅  1 第2回 SatAI.challenge勉強会 

Slide 2

Slide 2 text

目次   2 ● 自己紹介スライド  ● 研究の1ページサマリ紹介   ● 研究の背景（Introduction）   ● 手法について（Method）   ● 実験（Experiment）  ● 結論（Conclusion） 

Slide 3

Slide 3 text

3 著者紹介 This image was generated by ChatGPT

Slide 4

Slide 4 text

修　浩毅産総研データプラットフォーム研究チーム ● 3次元点群解析 ● コンピュータ・グラフィックス ● 建物被害検知点群セグメンテーション自己紹介 4 GitHub Linkedin 点群からの法線推定航空ライダーからの建物被害検知

Slide 5

Slide 5 text

5 研究の1ページサマリ紹介 This image was generated by ChatGPT

Slide 6

Slide 6 text

Evaluating Tool-Augmented Agents In Remote Sensing Platforms   6 ● 既存のデータセットでは、ユーザーのシステム使用状況などのニュアンスを考慮したLLM評価が難しい   ● そこで、LLM agentの言語理解能力とツールを用いたタスク実行能力（e.g., ズームする、衛星画像を読み込む、物体検出をする）などを評価できるベンチマークを提案し、複数のLLMとプロンプト手法を検証     LLM agentのツール使用能力を評価するためのベンチマーク(GeoLLM-QA)を提案   Simranjit Singh et al. (2024), “EVALUATING TOOL-AUGMENTED AGENTS IN REMOTE SENSING PLATFORMS”, ICLR ML4RS Workshop. より引用

Slide 7

Slide 7 text

7 研究の背景 This image was generated by ChatGPT

Slide 8

Slide 8 text

背景：リモートセンシングでのLLMの活用   8 ● 従来、ユーザーが特定の衛星画像を使ってタスクを実行するには、そのタスクに関する知識やスキル、手間が必要になる  ● しかし、LLM agentはユーザーの質問やリクエストを理解することによって、ユーザーの代わりに複雑なタスクを実行できる  Haonan Guo et al. (2024), “Remote Sensing ChatGPT: Solving Remote Sensing Tasks with ChatGPT and Visual Models”, IGARSS 2024. より引用

Slide 9

Slide 9 text

背景：既往研究の問題点   9 ● 現状、LLM agentはimage-textペアが与えられた状況下で評価される   ● しかし、現実にはLLMは複雑なタスクを行うことを求められる   ● 例：  ○ User：2023年5月にメキシコシティ空港にあるすべての航空機を、YOLOを使用してxview1の全画像から検出してください。  ○ LLM：地図をメキシコシティ空港にズーム、SQLでxview1画像を読み込み、座標に基づいてフィルタリング、 YOLO検出器を...  Simranjit Singh et al. (2024), “EVALUATING TOOL-AUGMENTED AGENTS IN REMOTE SENSING PLATFORMS”, ICLR ML4RS Workshop. より引用画像ーテキストペアが与えられていると仮定   実際のところ  LLM  User: detect all the airplanes in airport A in B city in Nov. 2024   Tool 1  …  Tool n  data  models  Answer: there are …  

Slide 10

Slide 10 text

背景：本研究の狙い   10 ● 実際のシステムを使うときをイメージしてLLM agentを評価する   ● 評価用のベンチマークがないため作成する   ● 作成したベンチマーク上でLLM agentを評価する   Simranjit Singh et al. (2024), “EVALUATING TOOL-AUGMENTED AGENTS IN REMOTE SENSING PLATFORMS”, ICLR ML4RS Workshop. より引用より強力なリモセンLLM agentを作るためのインサイトを提供する  

Slide 11

Slide 11 text

11 手法について This image was generated by ChatGPT

Slide 12

Slide 12 text

GeoLLM-QA framework: 検証用プラットフォーム   12 ● LLM-assisted なプラットフォームで評価をするためのウェブアプリを開発   ● 117個オープンソースAPIを呼び出し可能にし、言語、視覚、触覚など多様な入力手段を通じて幅広いリモートセンシングのユースケースを検証可能   ● オープンソース予定（まだ）   Simranjit Singh et al. (2024), “EVALUATING TOOL-AUGMENTED AGENTS IN REMOTE SENSING PLATFORMS”, ICLR ML4RS Workshop. より引用

Slide 13

Slide 13 text

GeoLLM-QA framework: 問題設定   13 実際のUI体験を想定し問題を設定: {q, T, r, S}   ● User question (q): ユーザーの質問/プロンプト   ○ q: 2023年5月にメキシコシティ空港にあるすべての航空機を、YOLOを使用してXView1の全画像から検出してください。  ● Agent tool-calls (T): LLMによるツールの呼び出し   ○ T={t_1, t_2, …}, t_i = {tool_i, args_i}   ● Agent response to user (r) and platform state (S): LLMからの回答内容及びシステムの状態   ○ r: 5機あります  ○ S: map positioning (ズームレベル、位置など), loaded database (読み込んだデータセット) , ...   Simranjit Singh et al. (2024), “EVALUATING TOOL-AUGMENTED AGENTS IN REMOTE SENSING PLATFORMS”, ICLR ML4RS Workshop. より引用 LLM  Tool 1  Tool n  …  Tool 2  Tool 1  Tool n  Tool 2  Response to user  User question  Platform state  Agent tool calls  

Slide 14

Slide 14 text

GeoLLM-QA framework: データソース   14 複数のデータセットを統合し、5000枚の衛星画像、80カテゴリ＋メタデータのデータセットを作成   Darius Lam et al. (2018), “xView: Objects in Context in Overhead Imagery”, arxiv. より引用 Fernando Paolo et al. (2018), “xView3-SAR: Detecting Dark Fishing Activity Using Synthetic Aperture Radar Imagery”, arxiv. より引用 Jian Ding et al. (2018), “Object Detection in Aerial Images: A Large-Scale Benchmark and Challenges”, arxiv. より引用データセットデータソース画像枚数クラスタスク xview-1 Worldview-3 1413 60 object detection xview-3 Sentinel-1 991 2 dark vessel detection DOTA-v2.0 Multi source 11268 18 object detection xview-1  xview-3  DOTA-v2.0 

Slide 15

Slide 15 text

GeoLLM-QA framework: Benchmark creation   15 人間アノテーターとGPT-4でQAペアを効率的に作成   1. Reference template collection: 25テンプレート質問に対して、GPT-4とhuman-in-the-loopによって正答を作成   2. LLM-guided question generation: GPT-4によってテンプレート質問から1000個のバリエーションを生成   3. Human-guided ground truth generation: 1000個の生成した質問に対して、GPT-4とhuman-on-the-loopで正答を作成  Simranjit Singh et al. (2024), “EVALUATING TOOL-AUGMENTED AGENTS IN REMOTE SENSING PLATFORMS”, ICLR ML4RS Workshop. より引用テンプレート質問からのバリエーション生成   テンプレート質問 

Slide 16

Slide 16 text

GeoLLM-QA framework: Benchmark creation   16 LLMのツール使用能力と推論力を評価できる指標を使用   ● Success rate: platform state (S)がground truth state にマッチしてるか   ● Correctness ratio: ツールを正しく使用できているか R_correct = max(0, 1 - N_error/N_tools)   ● ROUGE score: 正しく回答できているか   ● Cost (tokens): 回答に使用したtoken数   ● (Detection) Recall: detectionタスクのrecall   ○ Golden detectorを使用するため、エラーはdetectorからではなく、LLMのタスクの完成度に起因する   Simranjit Singh et al. (2024), “EVALUATING TOOL-AUGMENTED AGENTS IN REMOTE SENSING PLATFORMS”, ICLR ML4RS Workshop. より引用

Slide 17

Slide 17 text

17 実験 This image was generated by ChatGPT

Slide 18

Slide 18 text

実験（Experiment）   18 ● LLM：  ○ GPT-３.5  ○ GPT-４  ● プロンプト手法：  ○ Chain-of-thought (CoT)   ○ Chameleon  ○ ReAct  Pan Lu et al. (2024), “Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models”, arxiv. より引用 Shunyu Yao et al. (2022), “ReAct: Synergizing Reasoning and Acting in Language Models”, arxiv より引用 Jason Wei et al. (2022), “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models”, arxiv. より引用

Slide 19

Slide 19 text

実験（Experiment）   19 ● GPT-4は３.５に比べツール使用能力（Corretness rate）がかなり向上   ● CoTとReActはChameleonよりも正確かつtoken-efficient   ● detection recall と他の指標の傾向が一致しない（detection recallが高い手法は優秀なLLM agentとは限らない）  Simranjit Singh et al. (2024), “EVALUATING TOOL-AUGMENTED AGENTS IN REMOTE SENSING PLATFORMS”, ICLR ML4RS Workshop. より引用

Slide 20

Slide 20 text

実験（Experiment）   20 ● 一貫して最も顕著なエラーは必要なツールを使用しなかったこと（”Missed Function”）   ● エラーパターンはプロンプト手法ではなくGPT（３.５と4）の能力に起因する   Simranjit Singh et al. (2024), “EVALUATING TOOL-AUGMENTED AGENTS IN REMOTE SENSING PLATFORMS”, ICLR ML4RS Workshop. より引用

Slide 21

Slide 21 text

21 結論 This image was generated by ChatGPT

Slide 22

Slide 22 text

結論（Conclusion）   22 ● 実際のプラットフォームでLLMのツール使用能力を評価できるベンチマークを作成   ● 複数プロンプト手法でGPT３.5とGPT４.0のタスク実行能力を検証   ● 固定されたimage-textペアではなく、実際のシステム環境をイメージしたベンチマークでLLM agentの検証する必要性を確認  Simranjit Singh et al. (2024), “EVALUATING TOOL-AUGMENTED AGENTS IN REMOTE SENSING PLATFORMS”, ICLR ML4RS Workshop. より引用