Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ADK を使ってエージェントを評価してみた

ADK を使ってエージェントを評価してみた

雲勉 Google Cloud Tech Night

Avatar for hirataikue

hirataikue

March 16, 2026

More Decks by hirataikue

Other Decks in Technology

Transcript

  1. 開江 太一 ・2024 年新卒入社 / 入社 2 年目 ・Google Cloud

    の生成 AI サービスを活用したシステム開発に従事 ・Google Cloud Partner Top Engineer 2026 ・Google Cloud Partner All Certification Holders 2025 アイレット株式会社 ひ ら く え た い ち 経歴 DX開発事業部 フルスタックセクション テックフロンティアグループ
  2. AI が生成した回答の評価 • 従来のプログラム ◦ 例:「1 + 1」→ 答えは必ず「2」 ◦

    評価:完全一致で判定可能 • 生成 AI ◦ 例:「東京の魅力を教えて」 ◦ 回答A:「美味しい食事が沢山あります。」 ◦ 回答B:「歴史と現代が融合した街です。」 ◦ 評価:どちらも正解 ▪ 回答の「意味的な妥当性 」や「好ましさ」を測る必要がある
  3. エージェントの評価とは 回答評価(Final response evaluation) 最終的な回答は正確か? 軌跡評価(Trajectory evaluation) 質問      呼出 返却     

    回答 正しいツールを正しい順序で呼び出したか? 回答を評価するだけでは、エージェントが正しいプロセスを経たか判断できない → エージェントの実行過程も含めて評価する
  4. ADK(Agent Development Kit) Google が提供する、 AI エージェント開発のためのフレームワーク • 複数の専門エージェントを連携させ、複雑なワーク   

    フローを実現 • 豊富なツールにより、外部データソースや API との   連携をサポート • あらかじめ定義されたテストケースに対し、    エージェントのパフォーマンスを体系的に評価可能
  5. ADK でエージェントを評価する エージェント評価の実行方法は 3 種類用意されている • ADK Web UI(adk web)

    ◦ Web インターフェースを通じてエージェントを評価する • CLI(adk eval) ◦ コマンドラインからエージェントの評価を実行する • pytest ◦ Python テストの中に評価処理を組み込む
  6. ADK Web UI(adk web) • 評価セットに現在のセッションを追加して評価を実行する ◦ Tool trajectory avg

    score ▪ エージェントが実行したツールが、テストケースとどれだけ一致しているかを判定 ◦ Response match score ▪ 最終的な回答が、基準となる回答とどの程度類似しているかを判定(ROUGE-1)
  7. CLI(adk eval) • CLI を使って評価セットの評価を実行する ◦ test_config.json でエージェントの評価基準をカスタム可能 • final_response_match_v2:LLM

    を使用して意味的な一致を判定する • safety_v1:有害コンテンツ(ヘイトスピーチ、PII の漏洩)をチェックする • rubric_based_final_response_quality_v1:言葉遣いなどのカスタムルール ◦ etc…