AI エージェントは「作って終わり」ではありません。
実際にユーザーに価値を提供し続けるには、推論プロセスを可視化し、回答の質を継続的に評価する「信頼性」の実装が重要です。
本セッションでは、Strands Agents や Amazon Bedrock AgentCore などを活用した AI エージェントを例に、Datadog へのトレース収集や LLM-as-a-Judge による評価の実践方法を解説します。
さらに、Datadog LLM Observability を通じて可視化したトレースと、LLM による自動評価や AI エージェントのトピック分析を通じて、AI エージェントに求められる「信頼性」を考察します。
https://fortee.jp/jawsdays-2026/proposal/81fb6f2f-904d-4d00-9569-3180c54f79f6
https://ejholmes.github.io/2026/02/28/mcp-is-dead-long-live-the-cli.html