Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AI Agentにおける評価指標とAgent GPA
Search
tsho
February 26, 2026
Technology
480
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
AI Agentにおける評価指標とAgent GPA
第61回 MLOps 勉強会の発表です。AI Agentの評価指標であるAgent GPAの説明です。
tsho
February 26, 2026
More Decks by tsho
See All by tsho
20260321_エンベディングってなに?RAGってなに?エンベディングの説明とGemini Embedding 2 の紹介
tsho
0
230
Scale SciPy with jax.shard_map - jax.shard_mapで SciPy をスケール
tsho
0
140
Developer Advocate / Community Managerなるには?
tsho
0
780
25/04/12 - Build with AI Hands-on Appendix
tsho
1
89
Unit testしてますか?
tsho
1
670
Other Decks in Technology
See All in Technology
LLMにもCAP定理があるという話
harukasakihara
0
270
個人の発見を、組織の知恵に 〜生成AI活用を"探索"から"組織の仕組み"へ〜
kintotechdev
3
1.1k
運用を見据えたAIエージェント設計実践
amacbee
1
3.4k
価格.comをAI駆動で全面刷新する ー 30年分の技術的負債を返し、次の30年の土台をつくる ー / AI Engineering Summit Tokyo 2026
tkyowa
52
58k
React、まだ楽しくて草
uhyo
7
4.2k
Microsoft Build Keynoteふりかえり
tomokusaba
0
120
スキルと MCP ツール、責務をどう分けるか? AI が迷わないインターフェース設計の戦略
cdataj
1
500
Socrates × Looker 〜セマンティックレイヤーで進化するデータ分析エージェント〜
hanon52_
3
1.6k
TypeScript Compiler APIとPHP-Parserを活用し、TypeScriptとPHPで型を共有する
shuta13
0
370
サプライチェーンセキュリティの空白地帯 - 信頼できる”依存性”の未来を考える
rung
PRO
2
800
「エンジニア進化論」2028年の開発完全自動化、エンジニアはどう進化するか
cyberagentdevelopers
PRO
2
210
【Gen-AX】20260530開催_JJUG CCC 2026 Spring
genax
1
450
Featured
See All Featured
Visual Storytelling: How to be a Superhuman Communicator
reverentgeek
2
550
The World Runs on Bad Software
bkeepers
PRO
72
12k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.5k
JAMstack: Web Apps at Ludicrous Speed - All Things Open 2022
reverentgeek
1
460
Ecommerce SEO: The Keys for Success Now & Beyond - #SERPConf2024
aleyda
1
2k
Paper Plane (Part 1)
katiecoart
PRO
0
8.7k
Agile that works and the tools we love
rasmusluckow
331
21k
4 Signs Your Business is Dying
shpigford
187
22k
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
1.3k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.9k
How Software Deployment tools have changed in the past 20 years
geshan
0
34k
Practical Orchestrator
shlominoach
191
11k
Transcript
© 2026 Snowflake Inc. All Rights Reserved AI Agent における評価手法と
Agent GPA Sho Tanaka Feb 2026
© 2026 Snowflake Inc. All Rights Reserved AI/ML, Dataの登壇やデモ開発を担当 -
ex-Google gTech Ads, ML/Data - MLOps community 運営 (2020~) - Google Developer Expert, AI/ML tsho / 田中 翔 (Sho Tanaka) Linkedin.com/in/tsho Lead Developer Advocate @ Snowflake
© 2026 Snowflake Inc. All Rights Reserved AI Agentとは?
© 2026 Snowflake Inc. All Rights Reserved
© 2026 Snowflake Inc. All Rights Reserved AI Agent の活用事例
メルカリにおけるデータアナリティクス AI エージェント「Socrates」と ADK 活用 事例 - Speaker Deck コクヨ、ジンズなどがAIエージェント自社 開発 「Snowflake Intelligence」日本提 供
© 2026 Snowflake Inc. All Rights Reserved
© 2026 Snowflake Inc. All Rights Reserved AIOpsは2016年ごろにガー トナーが定義したものもあ るので注意
© 2026 Snowflake Inc. All Rights Reserved
© 2026 Snowflake Inc. All Rights Reserved 評価手法
© 2026 Snowflake Inc. All Rights Reserved AI Agent /
LLM による代表的な評価指標
© 2026 Snowflake Inc. All Rights Reserved 例:ADK の評価指標 Why
Evaluate Agents - Agent Development Kit (ADK) LLM-as-a-judge Final_response_match_v2, rubric_based_final_response_qual ity_v1 etc. Code-based / Deterministic コード・ルールベース/一致 tool_trajectory_avg_score Traditional NLP Metrics 従来の自然言語処理指標 response_match_score Human Evaluation 人間による評価 (機能として明示的な「指標」はない が、Web UI (Trace View) で支援)
© 2026 Snowflake Inc. All Rights Reserved Agent GPA と
TruLens
© 2026 Snowflake Inc. All Rights Reserved
© 2026 Snowflake Inc. All Rights Reserved
© 2026 Snowflake Inc. All Rights Reserved
© 2026 Snowflake Inc. All Rights Reserved Agent GPA の論文
What Is Your Agent's GPA? A Framework for Evaluating Agent Goal-Plan-Action Alignment
© 2026 Snowflake Inc. All Rights Reserved OSS としても提供中 https://github.com/truera/trulens
https://www.trulens.org/
© 2026 Snowflake Inc. All Rights Reserved https://www.trulens.org/getting_started/quickstarts/web-search-agent-evaluation/#10-add- evaluations
© 2026 Snowflake Inc. All Rights Reserved
© 2026 Snowflake Inc. All Rights Reserved さいごに
© 2026 Snowflake Inc. All Rights Reserved Snowflake 上で Private
Preview として提供中 What’s Your Agent’s GPA? A Framework for Evaluating AI Agent Reliability
© 2026 Snowflake Inc. All Rights Reserved 参考
© 2026 Snowflake Inc. All Rights Reserved CS 329T: Trustworthy
Machine Learning
© 2026 Snowflake Inc. All Rights Reserved https://learn.deeplearning.ai/
© 2026 Snowflake Inc. All Rights Reserved THANK YOU