Strands Agents Evals SDK 試してみた ~ Experiment Generator編 ~

©Fusic Co., Ltd. 0 Strands Agents Evals SDK 試してみた ~
Experiment Generator編 ~ 2026.01.24 佐藤礼央奈 X: @xthixsl_ml JAWS-UG福岡 #23 re:Invent re:Cap!!

©Fusic Co., Ltd. 1 自己紹介はじめに佐藤礼央奈 R E
O N A S AT O 株式会社Fusic エンジニア東京の大学を卒業。在学中にエンジニアとして3社で約2年半の長期インターンを経験。機械学習や生成AIの研究開発に携わる中で、MLモデルの本番運用に興味を持ちMLOpsに関心を深める。生成AIも取り入れた開発や、AWSパートナー企業での経験から、同領域に強みを持つFusicに魅力を感じ、2025年に新卒入社。

©Fusic Co., Ltd. 2 1. Strands Agents Evalsとは 2. Experiment
Generatorとは 3. 使ってみた 4. まとめ

©Fusic Co., Ltd. 3 Strands Agents Evalsとは 1

©Fusic Co., Ltd. 4 1. Strands Agents Evalsとはサブタイトル •
Strands Agentsに追加されたAIエージェント評価を行うためのSDKです。AIエージェントの出力品質やツール使用パターンを自動評価できます。機能何ができるか OutputEvaluator ルーブリックに基づき、エージェントの回答品質をLLMで自動評価する TrajectoryEvaluator ツール使用の選択・順序（trajectory）の妥当性を自動評価する HelpfulnessEvaluator 回答の「役立ち度」を7段階で自動評価する Custom Evaluator 独自ロジックの評価指標（Evaluator）を追加して評価できる Experiment Generator 文脈からテストケース（＋評価器）をLLMで自動生成し、評価まで実行できる Serialization Experimentと評価結果（Report）をJSONで保存・復元できる

©Fusic Co., Ltd. 5 1. Strands Agents Evalsとはサブタイトル •
Strands Agentsに追加されたAIエージェント評価を行うためのSDKです。AIエージェントの出力品質やツール使用パターンを自動評価できます。今回はExperiment Generator

©Fusic Co., Ltd. 6 Experiment Generatorとは 2

©Fusic Co., Ltd. 7 2. Experiment Generatorとはサブタイトル • Experiment
Generatorはテストケースと評価基準をLLMで自動生成することができます。

©Fusic Co., Ltd. 8 2. Experiment Generatorとはサブタイトルテストデータ作成するのが面倒なあなたにおすすめです •
Experiment Generatorはテストケースと評価基準をLLMで自動生成することができます。

©Fusic Co., Ltd. 9 使ってみた 3

©Fusic Co., Ltd. 14 まとめ Strands Agents Evals SDKの概要を説明しました。 Experiment
Generatorを使うと簡単にテストケースが作成可能に。 Point.01 Point.02 Experiment Generatorのテストケースはテスト・回答があっているか注意が必要 Point.03

Strands Agents Evals SDK 試してみた ~ Experiment Ge...

Strands Agents Evals SDK 試してみた ~ Experiment Generator編 ~

xthixsl_ml

More Decks by xthixsl_ml

Featured

Transcript

©Fusic Co., Ltd. 0 Strands Agents Evals SDK 試してみた ~

©Fusic Co., Ltd. 1 自己紹介はじめに佐藤礼央奈 R E

©Fusic Co., Ltd. 2 1. Strands Agents Evalsとは 2. Experiment

©Fusic Co., Ltd. 3 Strands Agents Evalsとは 1

©Fusic Co., Ltd. 4 1. Strands Agents Evalsとはサブタイトル •

©Fusic Co., Ltd. 5 1. Strands Agents Evalsとはサブタイトル •

©Fusic Co., Ltd. 6 Experiment Generatorとは 2

©Fusic Co., Ltd. 7 2. Experiment Generatorとはサブタイトル • Experiment

©Fusic Co., Ltd. 8 2. Experiment Generatorとはサブタイトルテストデータ作成するのが面倒なあなたにおすすめです •

©Fusic Co., Ltd. 9 使ってみた 3

©Fusic Co., Ltd. 10 3. 使ってみたサブタイトル ※Importは省略してます。ブログへ

©Fusic Co., Ltd. 11 3. 使ってみたサブタイトル

©Fusic Co., Ltd. 12 3. 使ってみたサブタイトル 1. テストケースの作成 2.

©Fusic Co., Ltd. 13 まとめ 4

©Fusic Co., Ltd. 14 まとめ Strands Agents Evals SDKの概要を説明しました。 Experiment

©Fusic Co., Ltd. 15 Thank You We are Hiring! https://recruit.fusic.co.jp/