Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI Agentにおける評価指標とAgent GPA

Sponsored · SiteGround - Reliable hosting with speed, security, and support you can count on.
Avatar for tsho tsho
February 26, 2026

AI Agentにおける評価指標とAgent GPA

第61回 MLOps 勉強会の発表です。AI Agentの評価指標であるAgent GPAの説明です。

Avatar for tsho

tsho

February 26, 2026
Tweet

More Decks by tsho

Other Decks in Technology

Transcript

  1. © 2026 Snowflake Inc. All Rights Reserved AI/ML, Dataの登壇やデモ開発を担当 -

    ex-Google gTech Ads, ML/Data - MLOps community 運営 (2020~) - Google Developer Expert, AI/ML tsho / 田中 翔 (Sho Tanaka) Linkedin.com/in/tsho Lead Developer Advocate @ Snowflake
  2. © 2026 Snowflake Inc. All Rights Reserved AI Agent の活用事例

    メルカリにおけるデータアナリティクス AI エージェント「Socrates」と ADK 活用 事例 - Speaker Deck コクヨ、ジンズなどがAIエージェント自社 開発 「Snowflake Intelligence」日本提 供
  3. © 2026 Snowflake Inc. All Rights Reserved AI Agent /

    LLM による代表的な評価指標
  4. © 2026 Snowflake Inc. All Rights Reserved 例:ADK の評価指標 Why

    Evaluate Agents - Agent Development Kit (ADK) LLM-as-a-judge Final_response_match_v2, rubric_based_final_response_qual ity_v1 etc. Code-based / Deterministic コード・ルールベース/一致 tool_trajectory_avg_score Traditional NLP Metrics 従来の自然言語処理指標 response_match_score Human Evaluation 人間による評価 (機能として明示的な「指標」はない が、Web UI (Trace View) で支援)
  5. © 2026 Snowflake Inc. All Rights Reserved Agent GPA の論文

    What Is Your Agent's GPA? A Framework for Evaluating Agent Goal-Plan-Action Alignment
  6. © 2026 Snowflake Inc. All Rights Reserved Snowflake 上で Private

    Preview として提供中 What’s Your Agent’s GPA? A Framework for Evaluating AI Agent Reliability