Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Strands Agents Evals SDK 試してみた ~ Experiment Ge...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
xthixsl_ml
January 23, 2026
42
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Strands Agents Evals SDK 試してみた ~ Experiment Generator編 ~
xthixsl_ml
January 23, 2026
More Decks by xthixsl_ml
See All by xthixsl_ml
制限付きRAGを試してみた
xthixsl_ml
0
28
MLモデル実装にStrategy パターンを導入してみた
xthixsl_ml
0
120
Vibe ML Model Training, Tracking and Kaizen
xthixsl_ml
0
47
TorchServeからFastAPIにした話
xthixsl_ml
0
34
全部をAIエージェントにしない設計: AWS Step Functions × Amazon Bedrock AgentCore × Strands Agents Multiagent Graphで不確実性を考慮するワークフロー
xthixsl_ml
0
220
BentoML使ってみた
xthixsl_ml
0
64
社内AIハッカソンでAmazon Bedrock AgentCore 使ってみた
xthixsl_ml
2
230
新卒エンジニアが挑む、AWS Knowledge MCP Serverを活用したキャッチアップ術
xthixsl_ml
0
70
受託開発で直面するPoCからMLOpsへの壁とその乗り越え方
xthixsl_ml
2
410
Featured
See All Featured
Dominate Local Search Results - an insider guide to GBP, reviews, and Local SEO
greggifford
PRO
0
190
Git: the NoSQL Database
bkeepers
PRO
432
67k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.5k
Why Our Code Smells
bkeepers
PRO
340
58k
From Legacy to Launchpad: Building Startup-Ready Communities
dugsong
0
230
Rebuilding a faster, lazier Slack
samanthasiow
85
9.5k
New Earth Scene 8
popppiees
3
2.3k
GraphQLとの向き合い方2022年版
quramy
50
15k
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
570
How to Get Subject Matter Experts Bought In and Actively Contributing to SEO & PR Initiatives.
livdayseo
0
140
Believing is Seeing
oripsolob
1
140
<Decoding/> the Language of Devs - We Love SEO 2024
nikkihalliwell
1
240
Transcript
©Fusic Co., Ltd. 0 Strands Agents Evals SDK 試してみた ~
Experiment Generator編 ~ 2026.01.24 佐藤 礼央奈 X: @xthixsl_ml JAWS-UG福岡 #23 re:Invent re:Cap!!
©Fusic Co., Ltd. 1 自己紹介 はじめに 佐藤 礼央奈 R E
O N A S AT O 株式会社Fusic エンジニア 東京の大学を卒業。在学中にエンジニアとして3社で約2年半の長期イン ターンを経験。機械学習や生成AIの研究開発に携わる中で、MLモデルの 本番運用に興味を持ちMLOpsに関心を深める。生成AIも取り入れた開発 や、AWSパートナー企業での経験から、同領域に強みを持つFusicに魅力 を感じ、2025年に新卒入社。
©Fusic Co., Ltd. 2 1. Strands Agents Evalsとは 2. Experiment
Generatorとは 3. 使ってみた 4. まとめ
©Fusic Co., Ltd. 3 Strands Agents Evalsとは 1
©Fusic Co., Ltd. 4 1. Strands Agents Evalsとは サブタイトル •
Strands Agentsに追加されたAIエージェント評価を行うためのSDKです。AIエージェントの出力品質 やツール使用パターンを自動評価できます。 機能 何ができるか OutputEvaluator ルーブリックに基づき、エージェントの回答品質をLLMで自動評価する TrajectoryEvaluator ツール使用の選択・順序(trajectory)の妥当性を自動評価する HelpfulnessEvaluator 回答の「役立ち度」を7段階で自動評価する Custom Evaluator 独自ロジックの評価指標(Evaluator)を追加して評価できる Experiment Generator 文脈からテストケース(+評価器)をLLMで自動生成し、評価まで実行でき る Serialization Experimentと評価結果(Report)をJSONで保存・復元できる
©Fusic Co., Ltd. 5 1. Strands Agents Evalsとは サブタイトル •
Strands Agentsに追加されたAIエージェント評価を行うためのSDKです。AIエージェントの出力品質 やツール使用パターンを自動評価できます。 今回はExperiment Generator
©Fusic Co., Ltd. 6 Experiment Generatorとは 2
©Fusic Co., Ltd. 7 2. Experiment Generatorとは サブタイトル • Experiment
Generatorはテストケースと評価基準をLLMで自動生成することができます。
©Fusic Co., Ltd. 8 2. Experiment Generatorとは サブタイトル テストデータ作成するのが面倒なあなたにおすすめです •
Experiment Generatorはテストケースと評価基準をLLMで自動生成することができます。
©Fusic Co., Ltd. 9 使ってみた 3
©Fusic Co., Ltd. 10 3. 使ってみた サブタイトル ※Importは省略してます。ブログへ
©Fusic Co., Ltd. 11 3. 使ってみた サブタイトル
©Fusic Co., Ltd. 12 3. 使ってみた サブタイトル 1. テストケースの作成 2.
テストの評価
©Fusic Co., Ltd. 13 まとめ 4
©Fusic Co., Ltd. 14 まとめ Strands Agents Evals SDKの概要を説明しました。 Experiment
Generatorを使うと簡単にテストケースが作成可能に。 Point.01 Point.02 Experiment Generatorのテストケースはテスト・回答があっているか注意が必要 Point.03
©Fusic Co., Ltd. 15 Thank You We are Hiring! https://recruit.fusic.co.jp/
ご清聴いただきありがとうございました