ADK を使ってエージェントを評価してみた

開江太一 DX開発事業部　フルスタックセクション　テックフロンティアグループ ADK を使ってエージェントを評価してみた雲勉 Google Cloud Tech
Night

開江太一・2024 年新卒入社 / 入社 2 年目・Google Cloud
の生成 AI サービスを活用したシステム開発に従事・Google Cloud Partner Top Engineer 2026 ・Google Cloud Partner All Certification Holders 2025 アイレット株式会社ひ　ら　く　えた　い　ち経歴 DX開発事業部フルスタックセクションテックフロンティアグループ

01 02 03 アジェンダエージェントの評価とは ADK でエージェントを評価するまとめ

エージェントの評価とは？

AI が生成した回答の評価 • 従来のプログラム ◦ 例：「1 ＋ 1」→ 答えは必ず「２」 ◦
評価：完全一致で判定可能

AI が生成した回答の評価 • 従来のプログラム ◦ 例：「1 ＋ 1」→ 答えは必ず「２」 ◦
評価：完全一致で判定可能 • 生成 AI ◦ 例：「東京の魅力を教えて」 ◦ 回答A：「美味しい食事が沢山あります。」 ◦ 回答B：「歴史と現代が融合した街です。」 ◦ 評価：どちらも正解 ▪ 回答の「意味的な妥当性」や「好ましさ」を測る必要がある

エージェントの評価とは回答評価（Final response evaluation）最終的な回答は正確か？軌跡評価（Trajectory evaluation）質問　　　　　呼出返却　　　　　
回答正しいツールを正しい順序で呼び出したか？回答を評価するだけでは、エージェントが正しいプロセスを経たか判断できない → エージェントの実行過程も含めて評価する

ADK でエージェントを評価する

ADK（Agent Development Kit） Google が提供する、 AI エージェント開発のためのフレームワーク • 複数の専門エージェントを連携させ、複雑なワーク　　
フローを実現 • 豊富なツールにより、外部データソースや API との　連携をサポート • あらかじめ定義されたテストケースに対し、　　エージェントのパフォーマンスを体系的に評価可能

ADK でエージェントを評価するエージェント評価の実行方法は 3 種類用意されている • ADK Web UI（adk web）
◦ Web インターフェースを通じてエージェントを評価する • CLI（adk eval） ◦ コマンドラインからエージェントの評価を実行する • pytest ◦ Python テストの中に評価処理を組み込む

ADK Web UI（adk web） • エージェントと会話して、理想的な会話セッションを作成する ◦ Trace タブで回答の内部ロジックを確認可能 ◦
エージェントが正しくツールを使用せずに回答した場合は、不適切と判断

ADK Web UI（adk web） • 評価セットに現在のセッションを追加して評価を実行する ◦ Tool trajectory avg
score ▪ エージェントが実行したツールが、テストケースとどれだけ一致しているかを判定 ◦ Response match score ▪ 最終的な回答が、基準となる回答とどの程度類似しているかを判定（ROUGE-1）

回答の揺らぎをどう扱うか正解データ：「明日の東京の天気は、朝から晩まで激しい雨が降るでしょう。」　AIの回答：「翌日の都内は、終日を通して豪雨となる見込みです。」 • ROUGE-1（単語一致） ◦ 評価：『明日』≠『翌日』、『東京』≠『都内』 ◦ 判定：FAIL

回答の揺らぎをどう扱うか正解データ：「明日の東京の天気は、朝から晩まで激しい雨が降るでしょう。」　AIの回答：「翌日の都内は、終日を通して豪雨となる見込みです。」 • ROUGE-1（単語一致） ◦ 評価：『明日』≠『翌日』、『東京』≠『都内』 ◦ 判定：FAIL
• LLM-as-a-judge（意味一致） ◦ 評価：『明日/翌日』、『東京/都内』『激しい雨/豪雨』 ◦ 判定：PASS ▪ チャットボットなど、「表現の自由度」が高いタスクに適している

CLI（adk eval） • CLI を使って評価セットの評価を実行する ◦ test_config.json でエージェントの評価基準をカスタム可能 • final_response_match_v2：LLM
を使用して意味的な一致を判定する • safety_v1：有害コンテンツ（ヘイトスピーチ、PII の漏洩）をチェックする • rubric_based_final_response_quality_v1：言葉遣いなどのカスタムルール ◦ etc…

CLI（adk eval） • CLI を使って評価セットの評価を実行する ◦ Evalset ファイル（ json）でデータセットを定義する ◦
Web UI から Evalset を出力することも可能

まとめ

まとめ • AI エージェントは「回答」だけでなく「実行過程」も含めて評価する • LLM-as-a-judge を用いることで、自由度が高いタスクでも正当な評価が可能になる • ADK には複雑な評価プロセスを体系化・効率化できる機能が備わっている
◦ Web UI（adk web） ◦ CLI（adk eval）

ご清聴ありがとうございました

ADK を使ってエージェントを評価してみた

ADK を使ってエージェントを評価してみた

hirataikue

More Decks by hirataikue

Other Decks in Technology

Featured

Transcript

開江太一 DX開発事業部　フルスタックセクション　テックフロンティアグループ ADK を使ってエージェントを評価してみた雲勉 Google Cloud Tech

開江太一・2024 年新卒入社 / 入社 2 年目・Google Cloud

01 02 03 アジェンダエージェントの評価とは ADK でエージェントを評価するまとめ

エージェントの評価とは？

AI が生成した回答の評価 • 従来のプログラム ◦ 例：「1 ＋ 1」→ 答えは必ず「２」 ◦

AI が生成した回答の評価 • 従来のプログラム ◦ 例：「1 ＋ 1」→ 答えは必ず「２」 ◦

エージェントの評価とは回答評価（Final response evaluation）最終的な回答は正確か？軌跡評価（Trajectory evaluation）質問　　　　　呼出返却

ADK でエージェントを評価する

ADK（Agent Development Kit） Google が提供する、 AI エージェント開発のためのフレームワーク • 複数の専門エージェントを連携させ、複雑なワーク

ADK でエージェントを評価するエージェント評価の実行方法は 3 種類用意されている • ADK Web UI（adk web）

ADK Web UI（adk web） • エージェントと会話して、理想的な会話セッションを作成する ◦ Trace タブで回答の内部ロジックを確認可能 ◦

ADK Web UI（adk web） • 評価セットに現在のセッションを追加して評価を実行する ◦ Tool trajectory avg

CLI（adk eval） • CLI を使って評価セットの評価を実行する ◦ test_config.json でエージェントの評価基準をカスタム可能 • final_response_match_v2：LLM

CLI（adk eval） • CLI を使って評価セットの評価を実行する ◦ Evalset ファイル（ json）でデータセットを定義する ◦

まとめ

ご清聴ありがとうございました