Strands Agentsに追加されたAIエージェント評価を行うためのSDKです。AIエージェントの出力品質 やツール使用パターンを自動評価できます。 機能 何ができるか OutputEvaluator ルーブリックに基づき、エージェントの回答品質をLLMで自動評価する TrajectoryEvaluator ツール使用の選択・順序(trajectory)の妥当性を自動評価する HelpfulnessEvaluator 回答の「役立ち度」を7段階で自動評価する Custom Evaluator 独自ロジックの評価指標(Evaluator)を追加して評価できる Experiment Generator 文脈からテストケース(+評価器)をLLMで自動生成し、評価まで実行でき る Serialization Experimentと評価結果(Report)をJSONで保存・復元できる