さまざまなAgent FrameworkとAIエージェントの評価

1 さまざまなAgent FrameworkとAIエージェントの評価 .NETラボ勉強会 2025年10月

山田顕人（Kento.Yamada） @ymd65536 自己紹介 2 仕事：クラウドインテグレーション開発ロール：マルチクラウドデベロッパー活動：.NETラボ勉強会の運営、Azure AI Community運営最近：Microsoft
MVP ２年目になりました。受賞歴 LAPRAS OUTPUT AWARD 2024 01 Google Cloud Partner Top Engineer 2025 DataAnalytics（2024年〜） Google Cloud Partner Tech Blog Challenge 2023 Cloud AI/ML 部門

今日話すことゴール：AIエージェントを開発/評価するといった内容を学ぶ • 前回の話ここから本題：AIエージェントの評価方法について • AIエージェントとは何か（定義の話） • さまざまなAgent Framework
• AIエージェントの評価・モニタリング • Microsoft Agent Frameworkとは • デモ • そもそも：~を使えば良いんじゃないかって？ • まとめ 3

前回の話 4 簡単にまとめると • AI（LLM）の応答は不確実なので応答を評価（テスト）するのは難しい • AIエージェントの根っことなるLLMの評価項目はさまざま • AIエージェントにはエバリュエータを使おう AIエージェントを評価する場合は根っことなるLLMの理解が不可欠になる。
LLMの理解を助けるツールとしてエバリュエータが存在する。

AIエージェントとは何か（定義の話） 5 • ある目標に向けて与えられたタスクを（自律性をもって）遂行する • （時には）自律性と知性を持ち、計画を立て、タスクを実行する 2025/YY/MMに .NETラボが開催されます。イベントをカレンダーに登録します！
資料も作成しておきます！

さまざまなAgent Framework（一部紹介） • LangChain • Strands Agents（AWS） • Agent Development
Kit(Google) • Mastra • CrewAI • Claude Agents SDK • OpenAI Agents SDK 今回紹介するものに関連 • Semantic Kernel • AutoGen • Microsoft.Extensions.AI 6

Strands Agentsとは 7

Strands Agents（AWS） 8 • AWSにおける代表的なAIエージェントフレームワーク • AWSのサービス開発・運用においても利用されていることで有名 Strands Agents 引用：https://github.com/strands-agents/sdk-python

Strands Agents（AWS） 10行程度でサンプルが動くという驚異の短さ 9 引用：https://github.com/ymd65536/strands_agents_sdk/blob/main/sample/getting_started/agent.py

Google ADK（Agent Development Kit）とは 10

Google Agent Development Kitの構造 11 SessionService Agent Runner name model
description instruction Tool エージェントの情報 Toolの設定チャットセッションの管理ルートエージェントエージェントの起動 SubAgent SubAgentの設定 MemoryService チャット履歴の管理

基本：ADKはルートとサブでエージェントが必要 12 d：文章を要約するエージェントです。 d：地域の天気を教えてくれるエージェントです。 d：今日のニュースを教えてくれるエージェントです。質問：天気について教えてくれる人は誰だ？ルートエージェントはサブエージェントのdescriptionを判断する。ルートエージェント

補足：徹底解説している資料 13 参考：https://speakerdeck.com/ymd65536/google-agent-development-kit-deline-botwozuo-tutemita

Microsoft Agent Frameworkとは Semantic KernelやAutoGen、Microsoft Exstension.AIをベースにした開発キット 15 参考：https://learn.microsoft.com/ja-jp/agent-framework/overview/agent-framework-overview

インテリジェント AI エージェントのためのオープンソースエンジン 16 Microsoft Agent Framework: インテリジェント AI
エージェントのためのオープンソースエンジン - YouTube https://www.youtube.com/watch?v=yOBcPuLLmuY&t=32s

補足：Blazorを使ったハンズオン資料 17 参考：https://zenn.dev/ymd65536/articles/ms_agent_framework_codespaces

AIエージェントの評価・モニタリング 18

自然言語の回答はどう評価するか 19 どんな出力がされるかわからない確率的なものなのでソフトウェアテストの概念では評価ができない。そこで評価器を使う .NETラボ勉強会はどんな勉強会ですか？ .NETラボ勉強会は毎月第4土曜日に開催される勉強会です。Surfaceが大好きな人が集まる場所でもあり、 Copilot愛好家が登壇したこともあります。どなたでも参加できるCopilotファミリーなコミュニティです。

自然言語の回答からAIエージェントを評価する大事なこと • 性能の検証 • 信頼性と安全性の確保（Azure Content Safetyの機能） • ユーザー体験の向上
以下の2つで実現可能 Azure AI Evaluation SDK Microsoft.Extensions.AI.Evaluation ※他の方法もあるけど、それは最後のオチで説明します 20

AIエージェントの性能検証（まだやっていない。今回は省略） • IntentResolutionEvaluator ◦ 明確な正解がある場合にどれだけ正確な答えを出せるか。意図したものか • ToolCallAccuracyEvaluator ◦ 指示通りのツールを使用できているか •
TaskAdherenceEvaluator ◦ 指示したタスクをどれくらい遂行できているか 21

AIエージェントの信頼性と安全性の確保（前回やった） • HateUnfairnessEvaluator ◦ ヘイト判定 • SexualEvaluator ◦ 性的コンテンツ判定（Learnではエロ用語という記述もある） •
ViolenceEvaluator ◦ 暴力コンテンツ判定 • SelfHarmEvaluator ◦ 自傷コンテンツ判定 • CodeVulnerabilityEvaluator ◦ コードの脆弱性 22 参考：https://learn.microsoft.com/ja-jp/azure/ai-foundry/concepts/evaluation-evaluators/risk-safety-evaluators

ユーザー体験の向上ユーザにとって受け取りやすいか（流暢性）などを評価する。 • 一貫性 ◦ CoherenceEvaluator ◦ 次のスライドで例を紹介 • 流暢性
◦ FluencyEvaluator • 質問と応答の関連性 ◦ RelevanceEvaluator 参考：https://learn.microsoft.com/ja-jp/azure/ai-foundry/concepts/evaluation- evaluators/general-purpose-evaluators 23

質問例：「地球温暖化の主な原因をいくつか説明してください。」 24 回答は首尾一貫しており、論理的に構成され、明確な関連性と適切な接続を用いて質問に効果的に対応している。まず第一に、最大の原因は化石燃料の燃焼です。発電や輸送のために石炭、石油、天然ガスが燃やされると、大量の二酸化炭素が大気中に排出されます。このガスが温室効果を強め、地球の気温を上昇させているのです。次に重要なのは、森林破壊です。木々は「地球の肺」として機能し、大気中の二酸化炭素を吸収しますが、大規模
な伐採によってこの天然の吸収源が減少しています。さらに、農業や産業プロセスからも、メタンや亜酸化窒素といった強力な温室効果ガスが排出されています。検証の回答回答の評価

25 デモ用の構成 Cloud Run Blazor Server Cloud Monitoring Microsoft Azure
Secret Manager マネージドIDを呼び出し Cloud Build

デモ 26

27 デモのサンプル

28 デモのサンプル

オチ：そもそも~を使えば良いんじゃないかって？ 29 Azure AI Foundry Agent Service を使おう！！

オチ：そもそも~を使えば良いんじゃないかって？ 30 Azure AI Foundry Agent Serviceではなく Azure AI Evaluation
SDKやMicrosoft.Extensions.AI.Evaluationを使う理由 • 特定の評価項目に対してより小さいアプローチをかけたい • ローカルテストコードに組み込みたい • CI/CDに組み込む ◦ GitHub Actionsに組み込むなど

まとめ • 前回の振り返り • さまざまなAgent Framework • Microsoft Agent Frameworkについて
• 評価器の説明をいくつか • 実際にいくつかデモを見た • 使い分けが大事 31

次回予告 • .NETラボ勉強会 2025年12月 32

おわり 33

さまざまなAgent FrameworkとAIエージェントの評価

さまざまなAgent FrameworkとAIエージェントの評価

Kento.Yamada

More Decks by Kento.Yamada

Other Decks in Research

Featured

Transcript

1 さまざまなAgent FrameworkとAIエージェントの評価 .NETラボ勉強会 2025年10月

山田顕人（Kento.Yamada） @ymd65536 自己紹介 2 仕事：クラウドインテグレーション開発ロール：マルチクラウドデベロッパー活動：.NETラボ勉強会の運営、Azure AI Community運営最近：Microsoft

今日話すことゴール：AIエージェントを開発/評価するといった内容を学ぶ • 前回の話ここから本題：AIエージェントの評価方法について • AIエージェントとは何か（定義の話） • さまざまなAgent Framework

さまざまなAgent Framework（一部紹介） • LangChain • Strands Agents（AWS） • Agent Development

Strands Agentsとは 7

Strands Agents（AWS） 8 • AWSにおける代表的なAIエージェントフレームワーク • AWSのサービス開発・運用においても利用されていることで有名 Strands Agents 引用：https://github.com/strands-agents/sdk-python

Strands Agents（AWS） 10行程度でサンプルが動くという驚異の短さ 9 引用：https://github.com/ymd65536/strands_agents_sdk/blob/main/sample/getting_started/agent.py

Google ADK（Agent Development Kit）とは 10

Google Agent Development Kitの構造 11 SessionService Agent Runner name model

補足：徹底解説している資料 13 参考：https://speakerdeck.com/ymd65536/google-agent-development-kit-deline-botwozuo-tutemita

14

Microsoft Agent Frameworkとは Semantic KernelやAutoGen、Microsoft Exstension.AIをベースにした開発キット 15 参考：https://learn.microsoft.com/ja-jp/agent-framework/overview/agent-framework-overview

インテリジェント AI エージェントのためのオープンソースエンジン 16 Microsoft Agent Framework: インテリジェント AI

補足：Blazorを使ったハンズオン資料 17 参考：https://zenn.dev/ymd65536/articles/ms_agent_framework_codespaces

AIエージェントの評価・モニタリング 18

自然言語の回答からAIエージェントを評価する大事なこと • 性能の検証 • 信頼性と安全性の確保（Azure Content Safetyの機能） • ユーザー体験の向上

AIエージェントの信頼性と安全性の確保（前回やった） • HateUnfairnessEvaluator ◦ ヘイト判定 • SexualEvaluator ◦ 性的コンテンツ判定（Learnではエロ用語という記述もある） •

ユーザー体験の向上ユーザにとって受け取りやすいか（流暢性）などを評価する。 • 一貫性 ◦ CoherenceEvaluator ◦ 次のスライドで例を紹介 • 流暢性

25 デモ用の構成 Cloud Run Blazor Server Cloud Monitoring Microsoft Azure

デモ 26

27 デモのサンプル

28 デモのサンプル

オチ：そもそも~を使えば良いんじゃないかって？ 29 Azure AI Foundry Agent Service を使おう！！

オチ：そもそも~を使えば良いんじゃないかって？ 30 Azure AI Foundry Agent Serviceではなく Azure AI Evaluation

まとめ • 前回の振り返り • さまざまなAgent Framework • Microsoft Agent Frameworkについて

次回予告 • .NETラボ勉強会 2025年12月 32

おわり 33