Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ADK を使ってエージェントを評価してみた

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.

ADK を使ってエージェントを評価してみた

雲勉 Google Cloud Tech Night

Avatar for hirataikue

hirataikue

March 16, 2026
Tweet

More Decks by hirataikue

Other Decks in Technology

Transcript

  1. 開江 太一 ・2024 年新卒入社 / 入社 2 年目 ・Google Cloud

    の生成 AI サービスを活用したシステム開発に従事 ・Google Cloud Partner Top Engineer 2026 ・Google Cloud Partner All Certification Holders 2025 アイレット株式会社 ひ ら く え た い ち 経歴 DX開発事業部 フルスタックセクション テックフロンティアグループ
  2. AI が生成した回答の評価 • 従来のプログラム ◦ 例:「1 + 1」→ 答えは必ず「2」 ◦

    評価:完全一致で判定可能 • 生成 AI ◦ 例:「東京の魅力を教えて」 ◦ 回答A:「美味しい食事が沢山あります。」 ◦ 回答B:「歴史と現代が融合した街です。」 ◦ 評価:どちらも正解 ▪ 回答の「意味的な妥当性 」や「好ましさ」を測る必要がある
  3. エージェントの評価とは 回答評価(Final response evaluation) 最終的な回答は正確か? 軌跡評価(Trajectory evaluation) 質問      呼出 返却     

    回答 正しいツールを正しい順序で呼び出したか? 回答を評価するだけでは、エージェントが正しいプロセスを経たか判断できない → エージェントの実行過程も含めて評価する
  4. ADK(Agent Development Kit) Google が提供する、 AI エージェント開発のためのフレームワーク • 複数の専門エージェントを連携させ、複雑なワーク   

    フローを実現 • 豊富なツールにより、外部データソースや API との   連携をサポート • あらかじめ定義されたテストケースに対し、    エージェントのパフォーマンスを体系的に評価可能
  5. ADK でエージェントを評価する エージェント評価の実行方法は 3 種類用意されている • ADK Web UI(adk web)

    ◦ Web インターフェースを通じてエージェントを評価する • CLI(adk eval) ◦ コマンドラインからエージェントの評価を実行する • pytest ◦ Python テストの中に評価処理を組み込む
  6. ADK Web UI(adk web) • 評価セットに現在のセッションを追加して評価を実行する ◦ Tool trajectory avg

    score ▪ エージェントが実行したツールが、テストケースとどれだけ一致しているかを判定 ◦ Response match score ▪ 最終的な回答が、基準となる回答とどの程度類似しているかを判定(ROUGE-1)
  7. CLI(adk eval) • CLI を使って評価セットの評価を実行する ◦ test_config.json でエージェントの評価基準をカスタム可能 • final_response_match_v2:LLM

    を使用して意味的な一致を判定する • safety_v1:有害コンテンツ(ヘイトスピーチ、PII の漏洩)をチェックする • rubric_based_final_response_quality_v1:言葉遣いなどのカスタムルール ◦ etc…