Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Strands Agents Evals SDK 試してみた ~ Experiment Ge...

Avatar for xthixsl_ml xthixsl_ml
January 23, 2026
20

Strands Agents Evals SDK 試してみた ~ Experiment Generator編 ~

Avatar for xthixsl_ml

xthixsl_ml

January 23, 2026
Tweet

More Decks by xthixsl_ml

Transcript

  1. ©Fusic Co., Ltd. 0 Strands Agents Evals SDK 試してみた ~

    Experiment Generator編 ~ 2026.01.24 佐藤 礼央奈 X: @xthixsl_ml JAWS-UG福岡 #23 re:Invent re:Cap!!
  2. ©Fusic Co., Ltd. 1 自己紹介 はじめに 佐藤 礼央奈 R E

    O N A S AT O 株式会社Fusic エンジニア 東京の大学を卒業。在学中にエンジニアとして3社で約2年半の長期イン ターンを経験。機械学習や生成AIの研究開発に携わる中で、MLモデルの 本番運用に興味を持ちMLOpsに関心を深める。生成AIも取り入れた開発 や、AWSパートナー企業での経験から、同領域に強みを持つFusicに魅力 を感じ、2025年に新卒入社。
  3. ©Fusic Co., Ltd. 2 1. Strands Agents Evalsとは 2. Experiment

    Generatorとは 3. 使ってみた 4. まとめ
  4. ©Fusic Co., Ltd. 4 1. Strands Agents Evalsとは サブタイトル •

    Strands Agentsに追加されたAIエージェント評価を行うためのSDKです。AIエージェントの出力品質 やツール使用パターンを自動評価できます。 機能 何ができるか OutputEvaluator ルーブリックに基づき、エージェントの回答品質をLLMで自動評価する TrajectoryEvaluator ツール使用の選択・順序(trajectory)の妥当性を自動評価する HelpfulnessEvaluator 回答の「役立ち度」を7段階で自動評価する Custom Evaluator 独自ロジックの評価指標(Evaluator)を追加して評価できる Experiment Generator 文脈からテストケース(+評価器)をLLMで自動生成し、評価まで実行でき る Serialization Experimentと評価結果(Report)をJSONで保存・復元できる
  5. ©Fusic Co., Ltd. 5 1. Strands Agents Evalsとは サブタイトル •

    Strands Agentsに追加されたAIエージェント評価を行うためのSDKです。AIエージェントの出力品質 やツール使用パターンを自動評価できます。 今回はExperiment Generator
  6. ©Fusic Co., Ltd. 7 2. Experiment Generatorとは サブタイトル • Experiment

    Generatorはテストケースと評価基準をLLMで自動生成することができます。
  7. ©Fusic Co., Ltd. 8 2. Experiment Generatorとは サブタイトル テストデータ作成するのが面倒なあなたにおすすめです •

    Experiment Generatorはテストケースと評価基準をLLMで自動生成することができます。
  8. ©Fusic Co., Ltd. 14 まとめ Strands Agents Evals SDKの概要を説明しました。 Experiment

    Generatorを使うと簡単にテストケースが作成可能に。 Point.01 Point.02 Experiment Generatorのテストケースはテスト・回答があっているか注意が必要 Point.03
  9. ©Fusic Co., Ltd. 15 Thank You We are Hiring! https://recruit.fusic.co.jp/

    ご清聴いただきありがとうございました