Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ADK を使ってエージェントを評価してみた
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
hirataikue
March 16, 2026
Technology
0
4
ADK を使ってエージェントを評価してみた
雲勉 Google Cloud Tech Night
hirataikue
March 16, 2026
Tweet
Share
More Decks by hirataikue
See All by hirataikue
Google Cloud 認定資格 英語試験合格への道
hirataikue
2
56
新卒エンジニアがAWS認定資格を全冠して得られたもの
hirataikue
1
420
Other Decks in Technology
See All in Technology
Phase12_総括_自走化
overflowinc
0
1.4k
スケールアップ企業でQA組織が機能し続けるための組織設計と仕組み〜ボトムアップとトップダウンを両輪としたアプローチ〜
qa
0
260
LLMに何を任せ、何を任せないか
cap120
10
5.1k
「お金で解決」が全てではない!大規模WebアプリのCI高速化 #phperkaigi
stefafafan
5
2.3k
Astro Islandsの 内部実装を 「日本で一番わかりやすく」 ざっくり解説!
knj
1
270
RGBに陥らないために -プロダクトの価値を届けるまで-
righttouch
PRO
0
110
Embeddings : Symfony AI en pratique
lyrixx
0
210
形式手法特論:SMT ソルバで解く認可ポリシの静的解析 #kernelvm / Kernel VM Study Tsukuba No3
ytaka23
1
780
スピンアウト講座05_実践活用事例
overflowinc
0
1.1k
The Rise of Browser Automation: AI-Powered Web Interaction in 2026
marcthompson_seo
0
310
AI時代のIssue駆動開発のススメ
moongift
PRO
0
210
スピンアウト講座01_GitHub管理
overflowinc
0
1.3k
Featured
See All Featured
Designing for Performance
lara
611
70k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
231
22k
Avoiding the “Bad Training, Faster” Trap in the Age of AI
tmiket
0
110
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
2
180
The AI Search Optimization Roadmap by Aleyda Solis
aleyda
1
5.5k
Lightning talk: Run Django tests with GitHub Actions
sabderemane
0
150
The State of eCommerce SEO: How to Win in Today's Products SERPs - #SEOweek
aleyda
2
10k
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
300
Bioeconomy Workshop: Dr. Julius Ecuru, Opportunities for a Bioeconomy in West Africa
akademiya2063
PRO
1
75
Music & Morning Musume
bryan
47
7.1k
Are puppies a ranking factor?
jonoalderson
1
3.1k
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
Transcript
開江 太一 DX開発事業部 フルスタックセクション テックフロンティアグループ ADK を使って エージェントを評価してみた 雲勉 Google Cloud Tech
Night
開江 太一 ・2024 年新卒入社 / 入社 2 年目 ・Google Cloud
の生成 AI サービスを活用したシステム開発に従事 ・Google Cloud Partner Top Engineer 2026 ・Google Cloud Partner All Certification Holders 2025 アイレット株式会社 ひ ら く え た い ち 経歴 DX開発事業部 フルスタックセクション テックフロンティアグループ
01 02 03 アジェンダ エージェントの評価 とは ADK でエージェントを評価する まとめ
エージェントの評価とは?
AI が生成した回答の評価 • 従来のプログラム ◦ 例:「1 + 1」→ 答えは必ず「2」 ◦
評価:完全一致で判定可能
AI が生成した回答の評価 • 従来のプログラム ◦ 例:「1 + 1」→ 答えは必ず「2」 ◦
評価:完全一致で判定可能 • 生成 AI ◦ 例:「東京の魅力を教えて」 ◦ 回答A:「美味しい食事が沢山あります。」 ◦ 回答B:「歴史と現代が融合した街です。」 ◦ 評価:どちらも正解 ▪ 回答の「意味的な妥当性 」や「好ましさ」を測る必要がある
エージェントの評価とは 回答評価(Final response evaluation) 最終的な回答は正確か? 軌跡評価(Trajectory evaluation) 質問 呼出 返却
回答 正しいツールを正しい順序で呼び出したか? 回答を評価するだけでは、エージェントが正しいプロセスを経たか判断できない → エージェントの実行過程も含めて評価する
ADK でエージェントを評価する
ADK(Agent Development Kit) Google が提供する、 AI エージェント開発のためのフレームワーク • 複数の専門エージェントを連携させ、複雑なワーク
フローを実現 • 豊富なツールにより、外部データソースや API との 連携をサポート • あらかじめ定義されたテストケースに対し、 エージェントのパフォーマンスを体系的に評価可能
ADK でエージェントを評価する エージェント評価の実行方法は 3 種類用意されている • ADK Web UI(adk web)
◦ Web インターフェースを通じてエージェントを評価する • CLI(adk eval) ◦ コマンドラインからエージェントの評価を実行する • pytest ◦ Python テストの中に評価処理を組み込む
ADK Web UI(adk web) • エージェントと会話して、理想的な会話セッションを作成する ◦ Trace タブで回答の内部ロジックを確認可能 ◦
エージェントが正しくツールを使用せずに回答した場合は、不適切と判断
ADK Web UI(adk web) • 評価セットに現在のセッションを追加して評価を実行する ◦ Tool trajectory avg
score ▪ エージェントが実行したツールが、テストケースとどれだけ一致しているかを判定 ◦ Response match score ▪ 最終的な回答が、基準となる回答とどの程度類似しているかを判定(ROUGE-1)
回答の揺らぎをどう扱うか 正解データ: 「明日の東京の天気は、朝から晩まで激しい雨が降るでしょう。」 AIの回答:「翌日の都内は、終日を通して豪雨となる見込みです。」 • ROUGE-1(単語一致) ◦ 評価:『明日』≠『翌日』、『東京』≠『都内』 ◦ 判定:FAIL
回答の揺らぎをどう扱うか 正解データ: 「明日の東京の天気は、朝から晩まで激しい雨が降るでしょう。」 AIの回答:「翌日の都内は、終日を通して豪雨となる見込みです。」 • ROUGE-1(単語一致) ◦ 評価:『明日』≠『翌日』、『東京』≠『都内』 ◦ 判定:FAIL
• LLM-as-a-judge(意味一致) ◦ 評価:『明日/翌日』、『東京/都内』『激しい雨/豪雨』 ◦ 判定:PASS ▪ チャットボットなど、「表現の自由度 」が高いタスクに適している
CLI(adk eval) • CLI を使って評価セットの評価を実行する ◦ test_config.json でエージェントの評価基準をカスタム可能 • final_response_match_v2:LLM
を使用して意味的な一致を判定する • safety_v1:有害コンテンツ(ヘイトスピーチ、PII の漏洩)をチェックする • rubric_based_final_response_quality_v1:言葉遣いなどのカスタムルール ◦ etc…
CLI(adk eval) • CLI を使って評価セットの評価を実行する ◦ Evalset ファイル( json)でデータセットを定義する ◦
Web UI から Evalset を出力することも可能
まとめ
まとめ • AI エージェントは「回答」だけでなく「実行過程」も含めて評価する • LLM-as-a-judge を用いることで、自由度が高いタスクでも正当な評価が可能になる • ADK には複雑な評価プロセスを体系化・効率化できる機能が備わっている
◦ Web UI(adk web) ◦ CLI(adk eval)
ご清聴ありがとうございました