Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

Bedrock AgentCore Evaluationsで学ぶLLM as a judge入門

Avatar for ShichijoYuhi ShichijoYuhi
December 23, 2025

Bedrock AgentCore Evaluationsで学ぶLLM as a judge入門

JAWS-UG AI/ML #34:re:Invent 2025 Recap AI/ML登壇資料
登壇アーカイブ:https://www.youtube.com/watch?v=dzAJgfUsXiI
SNS_X:https://x.com/nanaj_7_o

Avatar for ShichijoYuhi

ShichijoYuhi

December 23, 2025
Tweet

Other Decks in Technology

Transcript

  1. 申し込み 業務A 業務B 申し込み完了 申し込み ML/AIを使った業務C 申し込み完了 予測がTRUE 予測がFALSE 正解がTRUE

    正解がFALSE 80 20 20 30 ビジネスKGIが最重要ではあるけど、AIの品質定量化も重要 例:適合率X%で試算すると、トータル業務稼働をY%削減できる見込み! MLプロジェクトのKGIとKPI BEFORE AFTER 従来のML問題だと、混同行列等で精度算出しやすい --->自然言語で返ってくる生成AIの場合どう評価する??
  2. ##Role ユーザーのリクエストに応えられてるか,0点~1点で評価してください。 ## Criteria ``` {  "0.00":"まったく応えられていない",  "0.25":"hoge",  "0.50":"huga",  "0.75":"piyo",

      "1.00":"ユーザーの目的達成を実現している" } ``` 評価基準を設けた生成AIエージェントによる評価手法 LLM as a judgeとは 評価テーマを記述。 生成AIに目的感を指示 評価観点を記述。 その他例文を付け足すケースも有る
  3. AgentCoreにデプロイされたAIモデルのIn/Out内容をLLM judgeする機能。 オンライン評価が運用向き、オンデマンド評価が開発向き BedrockAgentCoreEvaluationsの機能一覧 概 要 ユ ー ス ケ

    ー ス オンライン評価 オンライン評価 カスタム評価 オンデマンド評価 ゴール達成度、真正性、論理性、 といったAWSがデフォルトが提供する 評価項目を10個まで選択して、 非同期的にエージェント評価 一般的なAIエージェントアプリケ ーションのふるまい監視 特殊要件/評価プロンプト自体にも 責任を持ちたい場合の AIエージェントアプリケーション のふるまい監視 ◆カスタム評価用のプロンプトを チューニングしたいとき ◆正常/異常系のテストを目的に テストしたいセッションIDが自明 である場合 オリジナルの評価プロンプトによる エージェント評価 SDK等を通じて、同期的に評価する。 AgentCoreでの会話ID(セッションID) の指定が必要なことに注意 <運用> <運用> <開発>
  4. ビルトインプロンプトが簡素であるため、構造化した論点を用意することでより厳格に! オンライン評価-カスタム評価 ビルトインの正確性 オリジナルの正確性 You are evaluating the correctness of

    the A ssistant's response.You are given a task and a candidate response. Is this a correct and accurate response to the task? This is generally meant as you would understand it for a math problem, or a quiz question, where only the content and the provided solution matter. Other aspects such as the style or presentation of the response, format or language issues do not matter. Context : {context} Candidate Response: {assistant_turn} ## Role You are an evaluator agent whose role is to assess the correctness of the A ssistant's response, ## Description ### Factual Accuracy   * Does the response contain factual errors?   * Are claims consistent with widely accepted knowledge or the task’s context?   * If the task includes specific data, does the response correctly use and reference it? (省略)
  5. AgentCoreにデプロイされたAIモデルのIn/Out内容をLLM judgeする機能。 オンライン評価が運用向き、オンデマンド評価が開発向き BedrockAgentCoreEvaluationsの機能一覧(再掲) 概 要 ユ ー ス ケ

    ー ス オンライン評価 オンライン評価 カスタム評価 オンデマンド評価 ゴール達成度、真正性、論理性、 といったAWSがデフォルトが提供する 評価項目を10個まで選択して、 非同期的にエージェント評価 一般的なAIエージェントアプリケ ーションのふるまい監視 特殊要件/評価プロンプト自体にも 責任を持ちたい場合の AIエージェントアプリケーション のふるまい監視 ◆カスタム評価用のプロンプトを チューニングしたいとき ◆正常/異常系のテストを目的に テストしたいセッションIDが自明 である場合 オリジナルの評価プロンプトによる エージェント評価 SDK等を通じて、同期的に評価する。 AgentCoreでの会話ID(セッションID) の指定が必要なことに注意 <運用> <運用> <開発>