Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ADK を使ってエージェントを評価してみた
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
hirataikue
March 16, 2026
Technology
15
0
Share
ADK を使ってエージェントを評価してみた
雲勉 Google Cloud Tech Night
hirataikue
March 16, 2026
More Decks by hirataikue
See All by hirataikue
Google Cloud 認定資格 英語試験合格への道
hirataikue
2
58
新卒エンジニアがAWS認定資格を全冠して得られたもの
hirataikue
1
430
Other Decks in Technology
See All in Technology
新規サービス開発におけるReact Nativeのリアル〜技術選定の裏側と実践的OSS活用〜
grandbig
2
180
AIペネトレーションテスト・ セキュリティ検証「AgenticSec」ご紹介資料
laysakura
0
1.6k
Contract One Engineering Unit 紹介資料
sansan33
PRO
0
16k
ふりかえりがなかった職能横断チームにふりかえりを導入してみて学んだこと 〜チームのふりかえりを「みんなで未来を考える場」にするプロローグ設計〜
masahiro1214shimokawa
0
350
プロダクトを触って語って理解する、チーム横断バグバッシュのすすめ / 20260411 Naoki Takahashi
shift_evolve
PRO
1
270
プロジェクトマネジメントは AIでどう変わるか?
mkg5383
0
220
GitHub Copilotを極める会 - 開発者のための活用術
findy_eventslides
6
4k
仕様通り動くの先へ。Claude Codeで「使える」を検証する
gotalab555
8
3.2k
新メンバーのために、シニアエンジニアが環境を作る時代
puku0x
0
710
Proxmox超入門
devops_vtj
0
180
Introduction to Bill One Development Engineer
sansan33
PRO
0
400
AI時代に新卒採用、はじめました/junior-engineer-never-die
dmnlk
0
250
Featured
See All Featured
The Invisible Side of Design
smashingmag
302
51k
Six Lessons from altMBA
skipperchong
29
4.2k
More Than Pixels: Becoming A User Experience Designer
marktimemedia
3
370
The Curse of the Amulet
leimatthew05
1
11k
Conquering PDFs: document understanding beyond plain text
inesmontani
PRO
4
2.6k
How Software Deployment tools have changed in the past 20 years
geshan
0
33k
Breaking role norms: Why Content Design is so much more than writing copy - Taylor Woolridge
uxyall
0
250
Noah Learner - AI + Me: how we built a GSC Bulk Export data pipeline
techseoconnect
PRO
0
160
We Are The Robots
honzajavorek
0
210
Effective software design: The role of men in debugging patriarchy in IT @ Voxxed Days AMS
baasie
0
290
Unsuck your backbone
ammeep
672
58k
Taking LLMs out of the black box: A practical guide to human-in-the-loop distillation
inesmontani
PRO
3
2.1k
Transcript
開江 太一 DX開発事業部 フルスタックセクション テックフロンティアグループ ADK を使って エージェントを評価してみた 雲勉 Google Cloud Tech
Night
開江 太一 ・2024 年新卒入社 / 入社 2 年目 ・Google Cloud
の生成 AI サービスを活用したシステム開発に従事 ・Google Cloud Partner Top Engineer 2026 ・Google Cloud Partner All Certification Holders 2025 アイレット株式会社 ひ ら く え た い ち 経歴 DX開発事業部 フルスタックセクション テックフロンティアグループ
01 02 03 アジェンダ エージェントの評価 とは ADK でエージェントを評価する まとめ
エージェントの評価とは?
AI が生成した回答の評価 • 従来のプログラム ◦ 例:「1 + 1」→ 答えは必ず「2」 ◦
評価:完全一致で判定可能
AI が生成した回答の評価 • 従来のプログラム ◦ 例:「1 + 1」→ 答えは必ず「2」 ◦
評価:完全一致で判定可能 • 生成 AI ◦ 例:「東京の魅力を教えて」 ◦ 回答A:「美味しい食事が沢山あります。」 ◦ 回答B:「歴史と現代が融合した街です。」 ◦ 評価:どちらも正解 ▪ 回答の「意味的な妥当性 」や「好ましさ」を測る必要がある
エージェントの評価とは 回答評価(Final response evaluation) 最終的な回答は正確か? 軌跡評価(Trajectory evaluation) 質問 呼出 返却
回答 正しいツールを正しい順序で呼び出したか? 回答を評価するだけでは、エージェントが正しいプロセスを経たか判断できない → エージェントの実行過程も含めて評価する
ADK でエージェントを評価する
ADK(Agent Development Kit) Google が提供する、 AI エージェント開発のためのフレームワーク • 複数の専門エージェントを連携させ、複雑なワーク
フローを実現 • 豊富なツールにより、外部データソースや API との 連携をサポート • あらかじめ定義されたテストケースに対し、 エージェントのパフォーマンスを体系的に評価可能
ADK でエージェントを評価する エージェント評価の実行方法は 3 種類用意されている • ADK Web UI(adk web)
◦ Web インターフェースを通じてエージェントを評価する • CLI(adk eval) ◦ コマンドラインからエージェントの評価を実行する • pytest ◦ Python テストの中に評価処理を組み込む
ADK Web UI(adk web) • エージェントと会話して、理想的な会話セッションを作成する ◦ Trace タブで回答の内部ロジックを確認可能 ◦
エージェントが正しくツールを使用せずに回答した場合は、不適切と判断
ADK Web UI(adk web) • 評価セットに現在のセッションを追加して評価を実行する ◦ Tool trajectory avg
score ▪ エージェントが実行したツールが、テストケースとどれだけ一致しているかを判定 ◦ Response match score ▪ 最終的な回答が、基準となる回答とどの程度類似しているかを判定(ROUGE-1)
回答の揺らぎをどう扱うか 正解データ: 「明日の東京の天気は、朝から晩まで激しい雨が降るでしょう。」 AIの回答:「翌日の都内は、終日を通して豪雨となる見込みです。」 • ROUGE-1(単語一致) ◦ 評価:『明日』≠『翌日』、『東京』≠『都内』 ◦ 判定:FAIL
回答の揺らぎをどう扱うか 正解データ: 「明日の東京の天気は、朝から晩まで激しい雨が降るでしょう。」 AIの回答:「翌日の都内は、終日を通して豪雨となる見込みです。」 • ROUGE-1(単語一致) ◦ 評価:『明日』≠『翌日』、『東京』≠『都内』 ◦ 判定:FAIL
• LLM-as-a-judge(意味一致) ◦ 評価:『明日/翌日』、『東京/都内』『激しい雨/豪雨』 ◦ 判定:PASS ▪ チャットボットなど、「表現の自由度 」が高いタスクに適している
CLI(adk eval) • CLI を使って評価セットの評価を実行する ◦ test_config.json でエージェントの評価基準をカスタム可能 • final_response_match_v2:LLM
を使用して意味的な一致を判定する • safety_v1:有害コンテンツ(ヘイトスピーチ、PII の漏洩)をチェックする • rubric_based_final_response_quality_v1:言葉遣いなどのカスタムルール ◦ etc…
CLI(adk eval) • CLI を使って評価セットの評価を実行する ◦ Evalset ファイル( json)でデータセットを定義する ◦
Web UI から Evalset を出力することも可能
まとめ
まとめ • AI エージェントは「回答」だけでなく「実行過程」も含めて評価する • LLM-as-a-judge を用いることで、自由度が高いタスクでも正当な評価が可能になる • ADK には複雑な評価プロセスを体系化・効率化できる機能が備わっている
◦ Web UI(adk web) ◦ CLI(adk eval)
ご清聴ありがとうございました