Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Evaluating Tool-Augmented Agents in Remote Sens...

Evaluating Tool-Augmented Agents in Remote Sensing Platforms

本資料はSatAI.challengeのサーベイメンバーと共に作成したものです。
SatAI.challengeは、リモートセンシング技術にAIを適用した論文の調査や、より俯瞰した技術トレンドの調査や国際学会のメタサーベイを行う研究グループです。speakerdeckではSatAI.challenge内での勉強会で使用した資料をWeb上で共有しています。
https://x.com/sataichallenge

紹介する論文は、「Evaluating Tool-Augmented Agents in Remote Sensing Platforms」(ICLR ML4RS Workshop)です。本研究では、従来の研究が主に画像とテキストのペアを用いた状況でLLMエージェントの性能を評価していた一方で、実際のリモートセンシングプラットフォーム上での性能評価が行われていなかった点に着目しています。そのため、LLMエージェントが、ズーム、衛星画像の読み込み、物体検知モデルの利用など、一連のステップを正確に実行し、最終的に正確な答えを導き出す能力については十分に検証されていませんでした。本研究では、こうした課題に対応するため、LLMエージェントを実プラットフォームに近い環境で評価可能なベンチマーク「GeoLLM-QA」を開発しました。このベンチマークを用いた評価の結果、強力なLLMエージェントを構築するためには、従来の画像とテキストのペアによる評価だけでは不十分であり、エージェントが答えに至るプロセスそのものを評価する必要性が明らかになりました。

SatAI.challenge

November 15, 2024
Tweet

More Decks by SatAI.challenge

Other Decks in Research

Transcript

  1. 目次 
 2 • 自己紹介スライド
 • 研究の1ページサマリ紹介 
 • 研究の背景(Introduction)

    
 • 手法について(Method) 
 • 実験(Experiment)
 • 結論(Conclusion)

  2. Evaluating Tool-Augmented Agents In Remote Sensing Platforms 
 6 •

    既存のデータセットでは、ユーザーのシステム使用状況などのニュアンスを考慮したLLM評価が難しい 
 • そこで、LLM agentの言語理解能力とツールを用いたタスク実行能力(e.g., ズームする、衛星画像を読み込む、 物体検出をする)などを評価できるベンチマークを提案し、複数のLLMとプロンプト手法を検証 
 
 LLM agentのツール使用能力を評価するためのベンチマーク(GeoLLM-QA)を提案 
 Simranjit Singh et al. (2024), “EVALUATING TOOL-AUGMENTED AGENTS IN REMOTE SENSING PLATFORMS”, ICLR ML4RS Workshop. より引用
  3. 背景:既往研究の問題点 
 9 • 現状、LLM agentはimage-textペアが与えられた状況下で評価される 
 • しかし、現実にはLLMは複雑なタスクを行うことを求められる 


    • 例:
 ◦ User:2023年5月にメキシコシティ空港にあるすべての航空機を、YOLOを使用してxview1の全画像から検 出してください。
 ◦ LLM:地図をメキシコシティ空港にズーム、SQLでxview1画像を読み込み、座標に基づいてフィルタリング、 YOLO検出器を...
 Simranjit Singh et al. (2024), “EVALUATING TOOL-AUGMENTED AGENTS IN REMOTE SENSING PLATFORMS”, ICLR ML4RS Workshop. より引用 画像ーテキストペアが与えられていると仮定 
 実際のところ
 LLM
 User: detect all the airplanes in airport A in B city in Nov. 2024 
 Tool 1
 …
 Tool n
 data
 models
 Answer: there are … 

  4. 背景:本研究の狙い 
 10 • 実際のシステムを使うときをイメージしてLLM agentを評価する 
 • 評価用のベンチマークがないため作成する 


    • 作成したベンチマーク上でLLM agentを評価する 
 Simranjit Singh et al. (2024), “EVALUATING TOOL-AUGMENTED AGENTS IN REMOTE SENSING PLATFORMS”, ICLR ML4RS Workshop. より引用 より強力なリモセンLLM agentを作るためのインサイトを提供する 

  5. GeoLLM-QA framework: 検証用プラットフォーム 
 12 • LLM-assisted なプラットフォームで評価をするためのウェブアプリを開発 
 •

    117個オープンソースAPIを呼び出し可能にし、言語、視覚、触覚など多様な入力手段を通じて幅広いリモートセ ンシングのユースケースを検証可能 
 • オープンソース予定(まだ) 
 Simranjit Singh et al. (2024), “EVALUATING TOOL-AUGMENTED AGENTS IN REMOTE SENSING PLATFORMS”, ICLR ML4RS Workshop. より引用
  6. GeoLLM-QA framework: 問題設定 
 13 実際のUI体験を想定し問題を設定: {q, T, r, S}

    
 • User question (q): ユーザーの質問/プロンプト 
 ◦ q: 2023年5月にメキシコシティ空港にあるすべての航空機を、YOLOを使用してXView1の全画像から検出 してください。
 • Agent tool-calls (T): LLMによるツールの呼び出し 
 ◦ T={t_1, t_2, …}, t_i = {tool_i, args_i} 
 • Agent response to user (r) and platform state (S): LLMからの回答内容及びシステムの状態 
 ◦ r: 5機あります
 ◦ S: map positioning (ズームレベル、位置など), loaded database (読み込んだデータセット) , ... 
 Simranjit Singh et al. (2024), “EVALUATING TOOL-AUGMENTED AGENTS IN REMOTE SENSING PLATFORMS”, ICLR ML4RS Workshop. より引用 LLM
 Tool 1
 Tool n
 …
 Tool 2
 Tool 1
 Tool n
 Tool 2
 Response to user
 User question
 Platform state
 Agent tool calls 

  7. GeoLLM-QA framework: データソース 
 14 複数のデータセットを統合し、5000枚の衛星画像、80カテゴリ+メタデータのデータセットを作成 
 Darius Lam et

    al. (2018), “xView: Objects in Context in Overhead Imagery”, arxiv. より引用 Fernando Paolo et al. (2018), “xView3-SAR: Detecting Dark Fishing Activity Using Synthetic Aperture Radar Imagery”, arxiv. より引用 Jian Ding et al. (2018), “Object Detection in Aerial Images: A Large-Scale Benchmark and Challenges”, arxiv. より引用 データセット データソース 画像枚数 クラス タスク xview-1 Worldview-3 1413 60 object detection xview-3 Sentinel-1 991 2 dark vessel detection DOTA-v2.0 Multi source 11268 18 object detection xview-1
 xview-3
 DOTA-v2.0

  8. GeoLLM-QA framework: Benchmark creation 
 15 人間アノテーターとGPT-4でQAペアを効率的に作成 
 1. Reference

    template collection: 25テンプレート質問に対し て、GPT-4とhuman-in-the-loopによって正答を作成 
 2. LLM-guided question generation: GPT-4によってテンプ レート質問から1000個のバリエーションを生成 
 3. Human-guided ground truth generation: 1000個の生成し た質問に対して、GPT-4とhuman-on-the-loopで正答を作 成
 Simranjit Singh et al. (2024), “EVALUATING TOOL-AUGMENTED AGENTS IN REMOTE SENSING PLATFORMS”, ICLR ML4RS Workshop. より引用 テンプレート質問からのバリエーション生成 
 テンプレート質問

  9. GeoLLM-QA framework: Benchmark creation 
 16 LLMのツール使用能力と推論力を評価できる指標を使用 
 • Success

    rate: platform state (S)がground truth state にマッチしてるか 
 • Correctness ratio: ツールを正しく使用できているか R_correct = max(0, 1 - N_error/N_tools) 
 • ROUGE score: 正しく回答できているか 
 • Cost (tokens): 回答に使用したtoken数 
 • (Detection) Recall: detectionタスクのrecall 
 ◦ Golden detectorを使用するため、エラーはdetectorからではなく、LLMのタスクの完成度に起因する 
 Simranjit Singh et al. (2024), “EVALUATING TOOL-AUGMENTED AGENTS IN REMOTE SENSING PLATFORMS”, ICLR ML4RS Workshop. より引用
  10. 実験(Experiment) 
 18 • LLM:
 ◦ GPT-3.5
 ◦ GPT-4
 •

    プロンプト手法:
 ◦ Chain-of-thought (CoT) 
 ◦ Chameleon
 ◦ ReAct
 Pan Lu et al. (2024), “Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models”, arxiv. より引用 Shunyu Yao et al. (2022), “ReAct: Synergizing Reasoning and Acting in Language Models”, arxiv より引用 Jason Wei et al. (2022), “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models”, arxiv. より引用
  11. 実験(Experiment) 
 19 • GPT-4は3.5に比べツール使用能力(Corretness rate)がかなり向上 
 • CoTとReActはChameleonよりも正確かつtoken-efficient 


    • detection recall と他の指標の傾向が一致しない(detection recallが高い手法は優秀なLLM agentとは限らな い)
 Simranjit Singh et al. (2024), “EVALUATING TOOL-AUGMENTED AGENTS IN REMOTE SENSING PLATFORMS”, ICLR ML4RS Workshop. より引用
  12. 結論(Conclusion) 
 22 • 実際のプラットフォームでLLMのツール使用能力を評価できるベンチマークを作成 
 • 複数プロンプト手法でGPT3.5とGPT4.0のタスク実行能力を検証 
 •

    固定されたimage-textペアではなく、実際のシステム環境をイメージしたベンチマークでLLM agentの検証す る必要性を確認
 Simranjit Singh et al. (2024), “EVALUATING TOOL-AUGMENTED AGENTS IN REMOTE SENSING PLATFORMS”, ICLR ML4RS Workshop. より引用