A g e n t s の 動 作 検 証 5 Bedrock Agentsのレスポンスを解析 Bedrock Agentの動作をトレース・可視化 LLMアプリケーション開発支援ツール • Webダッシュボード • トレース管理 • プロンプト管理 • データセット管理 • LLM as a Judge評価(有償版) など Bedrock Agentの動作結果を評価 LLMアプリケーションの評価支援ツール • RAG • Agents/Tool use cases • Natural Language Comparison • SQL など
A g e n t s の 構 成 と 実 施 内 容 10 AWS Cloud Lambda Bedrock Agents OpenSearch Service Bedrock Knowledge bases Lambda Web検索 get_sales ストアIDと年月から売り上げを取得 get_weather Webから天気を取得 store-info ストアID、名前、所在地、 オーナー情報を保持 メッセージリスト HumanMessage AIMessage ToolMessage AIMessage … ①エージェント実行 ②トレースデータ収集 ③メッセージリスト化 ④評価 Could you tell me the Sunset Books sales at 2024/11?
To o l U s e の 引 数 に 誤 り 13 エージェントへの入力 Could you tell me the Sunset Books sales at 2024/11? エージェントの応答 The sales for Sunset Books in November 2024 were $7800. GET__x_amz_knowledgebase_HKT0EAPIPL__Search {"searchQuery": "Sunset Books"} get_sales__get_store_sales {"id":"2","year":"2024","month":"11"} 実行結果 評価:ケース2 ※Tool Useの引数を正しくないものに変更 期待する回答 7800 USD 期待する toolUse GET__x_amz_knowledgebase_HKT0EAPIPL__Search {"searchQuery": "Sunset Books"} get_sales__get_store_sales {"id":"3","year":"2024","month":"11"} 実行結果 Agent Goal Accuracy 1.0 Tool Call Accuracy 0.9219615108186483