Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ADK を使ってエージェントを評価してみた
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
hirataikue
March 16, 2026
Technology
15
0
Share
ADK を使ってエージェントを評価してみた
雲勉 Google Cloud Tech Night
hirataikue
March 16, 2026
More Decks by hirataikue
See All by hirataikue
Google Cloud 認定資格 英語試験合格への道
hirataikue
2
58
新卒エンジニアがAWS認定資格を全冠して得られたもの
hirataikue
1
430
Other Decks in Technology
See All in Technology
Contract One Engineering Unit 紹介資料
sansan33
PRO
0
16k
インフラを Excel 管理していた組織が 3 ヶ月で IaC 化されるまで
geekplus_tech
3
180
試されDATA SAPPORO [LT]Claude Codeで「ゆっくりデータ分析」
ishikawa_satoru
0
360
AIペネトレーションテスト・ セキュリティ検証「AgenticSec」ご紹介資料
laysakura
0
1.6k
🀄️ on swiftc
giginet
PRO
0
330
サイバーフィジカル社会とは何か / What Is a Cyber-Physical Society?
ks91
PRO
0
160
生成AI時代のエンジニア育成 変わる時代と変わらないコト
starfish719
0
610
AIエージェントを構築して感じた、AI時代のCDKとの向き合い方
smt7174
1
180
3つのボトルネックを解消し、リリースエンジニアリングを再定義した話
nealle
0
380
Proxmox超入門
devops_vtj
0
180
LLM とプロンプトエンジニアリング/チューターを定義する / LLMs and Prompt Engineering, and Defining Tutors
ks91
PRO
0
340
AI環境整備はどのくらい開発生産性を変えうるか? #AI駆動開発 #AI自走環境
ucchi0909
0
120
Featured
See All Featured
Bash Introduction
62gerente
615
210k
Lightning Talk: Beautiful Slides for Beginners
inesmontani
PRO
1
510
First, design no harm
axbom
PRO
2
1.2k
What the history of the web can teach us about the future of AI
inesmontani
PRO
1
510
Money Talks: Using Revenue to Get Sh*t Done
nikkihalliwell
0
200
Side Projects
sachag
455
43k
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
32
2.8k
DevOps and Value Stream Thinking: Enabling flow, efficiency and business value
helenjbeal
1
160
Agile Leadership in an Agile Organization
kimpetersen
PRO
0
120
How to build a perfect <img>
jonoalderson
1
5.4k
[RailsConf 2023] Rails as a piece of cake
palkan
59
6.5k
Transcript
開江 太一 DX開発事業部 フルスタックセクション テックフロンティアグループ ADK を使って エージェントを評価してみた 雲勉 Google Cloud Tech
Night
開江 太一 ・2024 年新卒入社 / 入社 2 年目 ・Google Cloud
の生成 AI サービスを活用したシステム開発に従事 ・Google Cloud Partner Top Engineer 2026 ・Google Cloud Partner All Certification Holders 2025 アイレット株式会社 ひ ら く え た い ち 経歴 DX開発事業部 フルスタックセクション テックフロンティアグループ
01 02 03 アジェンダ エージェントの評価 とは ADK でエージェントを評価する まとめ
エージェントの評価とは?
AI が生成した回答の評価 • 従来のプログラム ◦ 例:「1 + 1」→ 答えは必ず「2」 ◦
評価:完全一致で判定可能
AI が生成した回答の評価 • 従来のプログラム ◦ 例:「1 + 1」→ 答えは必ず「2」 ◦
評価:完全一致で判定可能 • 生成 AI ◦ 例:「東京の魅力を教えて」 ◦ 回答A:「美味しい食事が沢山あります。」 ◦ 回答B:「歴史と現代が融合した街です。」 ◦ 評価:どちらも正解 ▪ 回答の「意味的な妥当性 」や「好ましさ」を測る必要がある
エージェントの評価とは 回答評価(Final response evaluation) 最終的な回答は正確か? 軌跡評価(Trajectory evaluation) 質問 呼出 返却
回答 正しいツールを正しい順序で呼び出したか? 回答を評価するだけでは、エージェントが正しいプロセスを経たか判断できない → エージェントの実行過程も含めて評価する
ADK でエージェントを評価する
ADK(Agent Development Kit) Google が提供する、 AI エージェント開発のためのフレームワーク • 複数の専門エージェントを連携させ、複雑なワーク
フローを実現 • 豊富なツールにより、外部データソースや API との 連携をサポート • あらかじめ定義されたテストケースに対し、 エージェントのパフォーマンスを体系的に評価可能
ADK でエージェントを評価する エージェント評価の実行方法は 3 種類用意されている • ADK Web UI(adk web)
◦ Web インターフェースを通じてエージェントを評価する • CLI(adk eval) ◦ コマンドラインからエージェントの評価を実行する • pytest ◦ Python テストの中に評価処理を組み込む
ADK Web UI(adk web) • エージェントと会話して、理想的な会話セッションを作成する ◦ Trace タブで回答の内部ロジックを確認可能 ◦
エージェントが正しくツールを使用せずに回答した場合は、不適切と判断
ADK Web UI(adk web) • 評価セットに現在のセッションを追加して評価を実行する ◦ Tool trajectory avg
score ▪ エージェントが実行したツールが、テストケースとどれだけ一致しているかを判定 ◦ Response match score ▪ 最終的な回答が、基準となる回答とどの程度類似しているかを判定(ROUGE-1)
回答の揺らぎをどう扱うか 正解データ: 「明日の東京の天気は、朝から晩まで激しい雨が降るでしょう。」 AIの回答:「翌日の都内は、終日を通して豪雨となる見込みです。」 • ROUGE-1(単語一致) ◦ 評価:『明日』≠『翌日』、『東京』≠『都内』 ◦ 判定:FAIL
回答の揺らぎをどう扱うか 正解データ: 「明日の東京の天気は、朝から晩まで激しい雨が降るでしょう。」 AIの回答:「翌日の都内は、終日を通して豪雨となる見込みです。」 • ROUGE-1(単語一致) ◦ 評価:『明日』≠『翌日』、『東京』≠『都内』 ◦ 判定:FAIL
• LLM-as-a-judge(意味一致) ◦ 評価:『明日/翌日』、『東京/都内』『激しい雨/豪雨』 ◦ 判定:PASS ▪ チャットボットなど、「表現の自由度 」が高いタスクに適している
CLI(adk eval) • CLI を使って評価セットの評価を実行する ◦ test_config.json でエージェントの評価基準をカスタム可能 • final_response_match_v2:LLM
を使用して意味的な一致を判定する • safety_v1:有害コンテンツ(ヘイトスピーチ、PII の漏洩)をチェックする • rubric_based_final_response_quality_v1:言葉遣いなどのカスタムルール ◦ etc…
CLI(adk eval) • CLI を使って評価セットの評価を実行する ◦ Evalset ファイル( json)でデータセットを定義する ◦
Web UI から Evalset を出力することも可能
まとめ
まとめ • AI エージェントは「回答」だけでなく「実行過程」も含めて評価する • LLM-as-a-judge を用いることで、自由度が高いタスクでも正当な評価が可能になる • ADK には複雑な評価プロセスを体系化・効率化できる機能が備わっている
◦ Web UI(adk web) ◦ CLI(adk eval)
ご清聴ありがとうございました