$30 off During Our Annual Pro Sale. View Details »

Strands AgentsのEvaluatorをLangfuseにぶち込んでみた

Strands AgentsのEvaluatorをLangfuseにぶち込んでみた

2025/12/20@JAWS-UG Presents - AI Builders Day懇親会LT(5min)

Avatar for あんどお

あんどお

December 20, 2025
Tweet

More Decks by あんどお

Other Decks in Technology

Transcript

  1. 自己紹介 安藤 弘輝 Hiroki Ando # 所属 システム本部 / テクノロジー戦略室

    / AI Agent開発チーム # 普段の業務内容 ・AI活用の推進 ・生成AIの評価基盤開発 ・生成AIを使ったサービスの開発 # 経歴等 ・通信キャリアで新規サービス企画・プロマネ ・ベンチャーで与信スコアリングモデルの開発 # 趣味や一言 脳筋としてトライアスロンやフルマラソンなどを通し、種々の限界に挑んでい ます。最近はハンターハンターを読んで念能力開発のヒントを探してます。 レバレジーズ株式会社
  2. Evaluatorの種類 No. Evaluator 評価観点 評価内容 1 FaithfulnessEvaluator 忠実性 エージェントの応答が会話履歴に対して忠実か 2

    GoalSuccessRateEvaluator 目標達成率 会話においてすべての目標が正常に達成されたか 3 HarmfulnessEvaluator 有害性 エージェントの応答に有害コンテンツが含まれているか 4 HelpfulnessEvaluator 有用性 ユーザーの視点から見たエージェントの応答の有用性 5 InteractionsEvaluator インタラクション精度 マルチエージェントの各ステップの適切性、情報の流れ 6 OutputEvaluator 出力精度 出力の内容、品質、期待される出力との一致度 7 ToolParameterAccuracyEvaluator ツールパラメータ精度 コンテキストからの情報を忠実に使用しているか 8 ToolSelectionAccuracyEvaluator ツール選択精度 適切なタイミングで適切なツールが選択されているか 9 TrajectoryEvaluator 実行経路 タスク実行のステップやツールの順序の適切性 9つのEvaluatorがプリセットされている
  3. Evaluatorの種類 No. Evaluator 評価観点 評価内容 1 FaithfulnessEvaluator 忠実性 エージェントの応答が会話履歴に対して忠実か 2

    GoalSuccessRateEvaluator 目標達成率 会話においてすべての目標が正常に達成されたか 3 HarmfulnessEvaluator 有害性 エージェントの応答に有害コンテンツが含まれているか 4 HelpfulnessEvaluator 有用性 ユーザーの視点から見たエージェントの応答の有用性 5 InteractionsEvaluator インタラクション精度 マルチエージェントの各ステップの適切性、情報の流れ 6 OutputEvaluator 出力精度 出力の内容、品質、期待される出力との一致度 7 ToolParameterAccuracyEvaluator ツールパラメータ精度 コンテキストからの情報を忠実に使用しているか 8 ToolSelectionAccuracyEvaluator ツール選択精度 適切なタイミングで適切なツールが選択されているか 9 TrajectoryEvaluator 実行経路 タスク実行のステップやツールの順序の適切性 9つのEvaluatorがプリセットされている 今回はこちらを利用
  4. Agentが正しく四則演算できるか検証 4 * 5= 3 * 5 - 5 =

    10 + 10 * 100 - 3 = AgentがToolsを利用して計算 入力の準備 実行経路(trajectory) [mul] [mul, sub] [add, mul, sub] add sub mul div 4 5 = 20 3 5 5 = 10 10 10 100 3 = 107 Tools 計算 結果の取得 Step1 Agent実行と 結果の取得 Step2 テストケース 作成 回答の作 成 テストケースの準備 [mul] [mul, sub] [add, mul, sub] 正解はこれ、、、 expected_trajectory Step3 Evaluation と可視化 Strands Agent この回答で テストしよう、、、 Evaluation機能 Langfuse 可視化
  5. スコア: [1.0] 総合スコア: 1.0 テスト合否: [True] テストケース: [{'input': '4 *

    5=', 'actual_output': 'The result of 4 * 5 is 20.\n', 'name': 'single', 'expected_output': None, 'expected_trajectory': ['mul'], 'actual_trajectory': [{'name': 'mul', 'input': {'a': 4, 'b': 5}, 'tool_result': '20'}], 'metadata': None, 'actual_interactions': None, 'expected_interactions': None}] 評価理由: ["The AI agent used the multiplication tool ('mul') exactly ~~ 割愛 ~~ expected trajectory."] 詳細結果: [[EvaluationOutput(score=1.0, test_pass=True, reason="The ~~ 割愛 ~~, label='Perfect Match')]] TrajectoryEvaluatorでAgent評価してみた Step3-2 : 結果を確認する 評価結果:Agentの動作結果と回答が完全に一致  →Agentが正しく指示通りに動作したことが確認できる