AIエージェント開発/運用入門～re:Invent 2025 新機能活用Edition～

©Mitsubishi Electric Corporation AIエージェント開発/運用入門～re:Invent 2025 新機能活用Edition～三菱電機株式会社塚田真規

©Mitsubishi Electric Corporation 自己紹介 2 塚田真規 Masaki Tsukada 三菱電機株式会社
デジタルイノベーション事業本部 AI戦略プロジェクトグループ • AWS Community Builder 2025 (AI Engineering) • 2024/2025 Japan AWS All Certifications Engineers • JAWS-UG AI/ML支部運営

©Mitsubishi Electric Corporation 人と対話するAIエージェント(4.5節) 3 AIエージェントの評価(8.4節) GUI LLM AIエージェントユーザー
クエリ承認/ 拒否まとめレポートユーザーツール “re:Invent 2025”edition ユーザークエリ承認/ 拒否まとめレポート評価項目 AIエージェント Ragas Langfuse Trace Trace HumanMessage AIMessage ToolMessage AIMessage AgentGoal Accuracy ToolCall Accuracy … … 軌跡の評価 Amazon SQS ユーザー Lambda durable functions Amazon S3 GUI ユーザークエリ承認/ 拒否まとめレポート

©Mitsubishi Electric Corporation 4 NEW Lambda durable functions AWS Lambdaでワークフローを構築可能に！
• 自動チェックポイントを用いた状態管理 • ステップや待機の実行前後の情報を自動取得し、中断箇所からの再開が可能 • 最大1年間の待機時間 • 待機中はコンピュートコストはかからない • 並列実行も可能 • MapやParallel

©Mitsubishi Electric Corporation 5 from aws_durable_execution_sdk_python.config import Duration from aws_durable_execution_sdk_python.context
import DurableContext, StepContext, durable_step from aws_durable_execution_sdk_python.execution import durable_execution @durable_step def my_step(step_context: StepContext, my_arg: int) -> str: step_context.logger.info("Hello from my_step") return f"from my_step: {my_arg}" @durable_execution def lambda_handler(event, context) -> dict: msg: str = context.step(my_step(123)) context.wait(Duration.from_seconds(10)) context.logger.info("Waited for 10 seconds without consuming CPU.") return { "statusCode": 200, "body": msg, } from langgraph.checkpoint.memory import InMemorySaver from langgraph.func import entrypoint, task from langgraph.types import interrupt @task def write_essay(topic: str) -> str: """Write an essay about the given topic.""" time.sleep(1) return f"An essay about topic: {topic}" @entrypoint(checkpointer=InMemorySaver()) def workflow(topic: str) -> dict: essay = write_essay("cat").result() is_approved = interrupt({ "essay": essay, "action": "Please approve/reject the essay", }) return { "essay": essay, "is_approved": is_approved, } Lambda durable functions LangGraph Functional API 似ている…？置き換え可能では！？

©Mitsubishi Electric Corporation 人と対話するAIエージェント (AIエージェント開発/運用入門 4.5節) 6 ユーザー • ユーザークエリの内容をWeb検索し、レポート作成するＡＩエージェント
• ツールとしては「Web検索」と「ファイル出力」が利用可能 • ツール使用前にユーザー事前確認するHuman-in-the-loopを搭載 GUIパート AIエージェントパートツール GUI ユーザークエリ承認/拒否 LLM AIエージェントファイル出力 Web検索まとめレポートユーザークエリ承認/拒否まとめレポート

©Mitsubishi Electric Corporation Lambda durable functionsを使った「人と対話するAIエージェント」 7 Amazon SQS AWS
Lambda LLM推論ツール実行 @durable_step @durable_execution context.step(~) context.step(~) @durable_step SQSへpush context.wait_for_callback(~) • クエリ • ツール承認/拒否 Long Polling Amazon S3 ツール情報ユーザー生成レポート署名付きURL • Lambda→Streamlitへのデータ通知はSQSを採用 • 生成結果はS3にアップロードし、署名付きURLで共有 • エージェント開発フレームワークは使用しない起動/フィードバック通知

©Mitsubishi Electric Corporation 8

©Mitsubishi Electric Corporation 9 コールバック1回目 →APPROVE コールバック2回目 →DENY コールバック３回目 →APPROVE
ツール実行ツール実行

©Mitsubishi Electric Corporation 請求されるコンピュート時間は？ 10 待機→再開ごとにLambdaはinvokeされる様子 3回中断したので、4度のLambda invokeが発生 billedDurationMSの合計：52,101 (52秒)

©Mitsubishi Electric Corporation 人と対話するAIエージェント(4.5節) 11 AIエージェントの評価(8.4節) GUI LLM AIエージェントユーザー
クエリ承認/ 拒否まとめレポートユーザーツールユーザークエリ承認/ 拒否まとめレポート評価項目 AIエージェント Ragas Langfuse Trace Trace HumanMessage AIMessage ToolMessage AIMessage AgentGoal Accuracy ToolCall Accuracy … … 軌跡の評価 Strands Evals SDK Strands Agents AIエージェント Trajectory Evaluator 評価項目軌跡の評価 “re:Invent 2025”edition “re:Invent 2025”edition Amazon SQS ユーザー Lambda durable functions Amazon S3 GUI ユーザークエリ承認/ 拒否まとめレポート

©Mitsubishi Electric Corporation 12 Strands Evals SDK re:Invent 2025で発表されたAIエージェント/LLMアプリケーション評価フレームワーク評価メトリクス
Output Trace Session AIエージェントの単一出力を評価シングルターンの行動を評価 E2Eの動作結果を評価 OutputEvaluator ToolSelectionEvaluator TrajectoryEvaluator CustomEvaluator GoalSuccessRateEvaluator FaithfulnessEvaluator テストケース生成シミュレータによる動的会話生成

©Mitsubishi Electric Corporation 13 Strands Evals SDKによるAIエージェントの軌跡評価評価メトリクス Session TrajectoryEvaluator
• AIエージェントが利用した一連のツール呼び出しを評価 ✓ 適切なツールやアクションを実行したかを確認 LLM AIエージェントツールβ ツールγ ツールα ツールα LLM LLM LLM LLM 期待する軌跡ツールβ ツールγ ツールα 軌跡比較評価

©Mitsubishi Electric Corporation 14 軌跡評価のためのビルトインツール exact_match_scorer 完全一致 in_order_match_scorer 順序一致 any_order_match_scorer
順序不問 test_cases = [ Case[str, str]( name="calc trajectory evaluation", input="3 + 4 * 5 - 1 =", expected_trajectory= ["mul", "add", "sub"], ), ] evaluator = TrajectoryEvaluator( rubric=""" AIエージェントが期待した順番で抜け漏れなしにツールを利用して回答したか評価してください期待する順番と異なっている、抜け漏れがある場合は失敗と判断してください """, include_inputs=True ) テストケース STRANDS AGENTS add：足し算ツール sub：引き算ツール mul：掛け算ツール div：割り算ツール Claude Haiku 4.5 評価対象エージェント Evaluator

©Mitsubishi Electric Corporation 15 div：割り算ツール input: {5, 5} add：足し算ツール input:
{3, 4} sub：引き算ツール input: {7, 1} 期待する軌跡 div：割り算ツール input: {5, 5} 期待する軌跡 add：足し算ツール input: {3, 4} sub：引き算ツール input: {7, 1} 「実行軌跡」と「期待する軌跡」が一致する場合「実行軌跡」と「期待する軌跡」が一致しない場合

©Mitsubishi Electric Corporation まとめ 16 • 書籍ハンズオンをAWS re:Invent 2025の新機能へ置き換えるチャレンジ •
「Lambda durable functions」を「人と対話するAIエージェント実装 • チェックポイントを活用したHuman-in-the-loop • Strands Evals SDKによるAIエージェントの評価 • ビルドインツールとTrajectoryEvaluatorでAIエージェントの実行軌跡を評価

AIエージェント開発/運用入門～re:Invent 2025 新機能活用Edition～

AIエージェント開発/運用入門～re:Invent 2025 新機能活用Edition～

matsukada

More Decks by matsukada

Featured

Transcript

©Mitsubishi Electric Corporation AIエージェント開発/運用入門～re:Invent 2025 新機能活用Edition～三菱電機株式会社塚田真規

©Mitsubishi Electric Corporation 自己紹介 2 塚田真規 Masaki Tsukada 三菱電機株式会社

©Mitsubishi Electric Corporation 人と対話するAIエージェント(4.5節) 3 AIエージェントの評価(8.4節) GUI LLM AIエージェントユーザー

©Mitsubishi Electric Corporation 4 NEW Lambda durable functions AWS Lambdaでワークフローを構築可能に！

©Mitsubishi Electric Corporation 5 from aws_durable_execution_sdk_python.config import Duration from aws_durable_execution_sdk_python.context

©Mitsubishi Electric Corporation 人と対話するAIエージェント (AIエージェント開発/運用入門 4.5節) 6 ユーザー • ユーザークエリの内容をWeb検索し、レポート作成するＡＩエージェント

©Mitsubishi Electric Corporation Lambda durable functionsを使った「人と対話するAIエージェント」 7 Amazon SQS AWS

©Mitsubishi Electric Corporation 8

©Mitsubishi Electric Corporation 9 コールバック1回目 →APPROVE コールバック2回目 →DENY コールバック３回目 →APPROVE

©Mitsubishi Electric Corporation 請求されるコンピュート時間は？ 10 待機→再開ごとにLambdaはinvokeされる様子 3回中断したので、4度のLambda invokeが発生 billedDurationMSの合計：52,101 (52秒)

©Mitsubishi Electric Corporation 人と対話するAIエージェント(4.5節) 11 AIエージェントの評価(8.4節) GUI LLM AIエージェントユーザー

©Mitsubishi Electric Corporation 12 Strands Evals SDK re:Invent 2025で発表されたAIエージェント/LLMアプリケーション評価フレームワーク評価メトリクス

©Mitsubishi Electric Corporation 13 Strands Evals SDKによるAIエージェントの軌跡評価評価メトリクス Session TrajectoryEvaluator

©Mitsubishi Electric Corporation 14 軌跡評価のためのビルトインツール exact_match_scorer 完全一致 in_order_match_scorer 順序一致 any_order_match_scorer

©Mitsubishi Electric Corporation 15 div：割り算ツール input: {5, 5} add：足し算ツール input:

©Mitsubishi Electric Corporation まとめ 16 • 書籍ハンズオンをAWS re:Invent 2025の新機能へ置き換えるチャレンジ •

AIエージェント開発/運用入門 ～re:Invent 2025 新機能活用Edition～

AIエージェント開発/運用入門 ～re:Invent 2025 新機能活用Edition～

More Decks by matsukada

Featured

Transcript

AIエージェント開発/運用入門～re:Invent 2025 新機能活用Edition～

AIエージェント開発/運用入門～re:Invent 2025 新機能活用Edition～