Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Strands Agents Evals SDK 試してみた ~ Experiment Ge...
Search
xthixsl_ml
January 23, 2026
42
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Strands Agents Evals SDK 試してみた ~ Experiment Generator編 ~
xthixsl_ml
January 23, 2026
More Decks by xthixsl_ml
See All by xthixsl_ml
制限付きRAGを試してみた
xthixsl_ml
0
28
MLモデル実装にStrategy パターンを導入してみた
xthixsl_ml
0
120
Vibe ML Model Training, Tracking and Kaizen
xthixsl_ml
0
47
TorchServeからFastAPIにした話
xthixsl_ml
0
34
全部をAIエージェントにしない設計: AWS Step Functions × Amazon Bedrock AgentCore × Strands Agents Multiagent Graphで不確実性を考慮するワークフロー
xthixsl_ml
0
220
BentoML使ってみた
xthixsl_ml
0
64
社内AIハッカソンでAmazon Bedrock AgentCore 使ってみた
xthixsl_ml
2
230
新卒エンジニアが挑む、AWS Knowledge MCP Serverを活用したキャッチアップ術
xthixsl_ml
0
70
受託開発で直面するPoCからMLOpsへの壁とその乗り越え方
xthixsl_ml
2
410
Featured
See All Featured
Design of three-dimensional binary manipulators for pick-and-place task avoiding obstacles (IECON2024)
konakalab
0
450
Product Roadmaps are Hard
iamctodd
PRO
55
12k
Thoughts on Productivity
jonyablonski
76
5.2k
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
1
2.7k
Effective software design: The role of men in debugging patriarchy in IT @ Voxxed Days AMS
baasie
0
400
How to build an LLM SEO readiness audit: a practical framework
nmsamuel
1
770
Darren the Foodie - Storyboard
khoart
PRO
3
3.4k
YesSQL, Process and Tooling at Scale
rocio
174
15k
Test your architecture with Archunit
thirion
1
2.3k
Building Applications with DynamoDB
mza
96
7.1k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.4k
エンジニアに許された特別な時間の終わり
watany
107
250k
Transcript
©Fusic Co., Ltd. 0 Strands Agents Evals SDK 試してみた ~
Experiment Generator編 ~ 2026.01.24 佐藤 礼央奈 X: @xthixsl_ml JAWS-UG福岡 #23 re:Invent re:Cap!!
©Fusic Co., Ltd. 1 自己紹介 はじめに 佐藤 礼央奈 R E
O N A S AT O 株式会社Fusic エンジニア 東京の大学を卒業。在学中にエンジニアとして3社で約2年半の長期イン ターンを経験。機械学習や生成AIの研究開発に携わる中で、MLモデルの 本番運用に興味を持ちMLOpsに関心を深める。生成AIも取り入れた開発 や、AWSパートナー企業での経験から、同領域に強みを持つFusicに魅力 を感じ、2025年に新卒入社。
©Fusic Co., Ltd. 2 1. Strands Agents Evalsとは 2. Experiment
Generatorとは 3. 使ってみた 4. まとめ
©Fusic Co., Ltd. 3 Strands Agents Evalsとは 1
©Fusic Co., Ltd. 4 1. Strands Agents Evalsとは サブタイトル •
Strands Agentsに追加されたAIエージェント評価を行うためのSDKです。AIエージェントの出力品質 やツール使用パターンを自動評価できます。 機能 何ができるか OutputEvaluator ルーブリックに基づき、エージェントの回答品質をLLMで自動評価する TrajectoryEvaluator ツール使用の選択・順序(trajectory)の妥当性を自動評価する HelpfulnessEvaluator 回答の「役立ち度」を7段階で自動評価する Custom Evaluator 独自ロジックの評価指標(Evaluator)を追加して評価できる Experiment Generator 文脈からテストケース(+評価器)をLLMで自動生成し、評価まで実行でき る Serialization Experimentと評価結果(Report)をJSONで保存・復元できる
©Fusic Co., Ltd. 5 1. Strands Agents Evalsとは サブタイトル •
Strands Agentsに追加されたAIエージェント評価を行うためのSDKです。AIエージェントの出力品質 やツール使用パターンを自動評価できます。 今回はExperiment Generator
©Fusic Co., Ltd. 6 Experiment Generatorとは 2
©Fusic Co., Ltd. 7 2. Experiment Generatorとは サブタイトル • Experiment
Generatorはテストケースと評価基準をLLMで自動生成することができます。
©Fusic Co., Ltd. 8 2. Experiment Generatorとは サブタイトル テストデータ作成するのが面倒なあなたにおすすめです •
Experiment Generatorはテストケースと評価基準をLLMで自動生成することができます。
©Fusic Co., Ltd. 9 使ってみた 3
©Fusic Co., Ltd. 10 3. 使ってみた サブタイトル ※Importは省略してます。ブログへ
©Fusic Co., Ltd. 11 3. 使ってみた サブタイトル
©Fusic Co., Ltd. 12 3. 使ってみた サブタイトル 1. テストケースの作成 2.
テストの評価
©Fusic Co., Ltd. 13 まとめ 4
©Fusic Co., Ltd. 14 まとめ Strands Agents Evals SDKの概要を説明しました。 Experiment
Generatorを使うと簡単にテストケースが作成可能に。 Point.01 Point.02 Experiment Generatorのテストケースはテスト・回答があっているか注意が必要 Point.03
©Fusic Co., Ltd. 15 Thank You We are Hiring! https://recruit.fusic.co.jp/
ご清聴いただきありがとうございました