作りっぱなしで終わらせない！価値を出し続ける AI エージェントのための「信頼性」設計 / Designing Reliability for AI Agents that Deliver Continuous Value

作りっぱなしで終わらせない！価値を出し続ける AI エージェントのための「信頼性」設計 7th Mar, JAWS DAYS 2026 Speaker:
Kento Kimura

> who am i? self_intro: name: “Kento Kimura” alias: ”AoTo”
age: 28 company: “Datadog” role: sales_engineer communities: - name: “Jagu‘e’r” description: “Japan Google Cloud Usergroup for Enterprise” - name: “JDDUG” description: “Japan Datadog User Group” - name: “JAWS-UG” description: “Japan AWS User Group” conferences: - name: “GCTS” description: “Google Cloud Community Tech Surge” - name: “o11yconjp” description: “Observability Conference Tokyo”

話すひと • 担当：パブリッククラウドのアーキテクト知識を活かした　 Datadog のプリセールス技術支援 • 出没するコミュニティ： Google
Cloud のユーザーコミュニティ「Jagu'e'r」 Datadog のユーザーコミュニティ「JDDUG」 AWS のユーザーコミュニティ「JAWS」クラウドネイティブカンファレンス「CloudNative Days」 • JAWS DAYS: 2024, 2025 にも参加してました！ • 肩書き： AWS Community Builder(Cloud Operations, 2024~) 2023 Japan AWS Jr. Champion 2022-25 APN All AWS Certiﬁcations Engineer • 好きな AWS サービス: CloudWatch Application Signals 木村健人 (Kento Kimura) Datadog Japan GK

話すこと 01 AI エージェントを構築しよう 04 LLM の「信頼性」を考える 03 LLM を評価する
LLM: LLM-as-a-Judge 02 AI エージェントの思考プロセス

話すこと 01 AI エージェントを構築しよう 04 LLM の「信頼性」を考える 03 LLM を評価する
LLM: LLM-as-a-Judge 02 AI エージェントの思考プロセス XX Strands Agents 以外の AI エージェント話さないこと XX XX Ragas, NeMo などの外部評価 Datadog の基本的な機能 XX Datadog の具体的な設定方法

AI エージェントを構築しよう

2026年は AI エージェント「構築」元年？

AI エージェント開発に求めること 1. シンプルな設計変化の早い AI エージェント開発で変更容易性を高める

AI エージェント開発に求めること 1. シンプルな設計変化の早い AI エージェント開発で変更容易性を高める 2. マルチエージェント前提役割を限定して特化させることで、コンテキストの最適化

3. 外部接続 API の直接利用 < MCP で安全な接続

3. 外部接続 API の直接利用 < MCP で安全な接続 4. オブザーバビリティの組み込み非決定論的な動作をする AI エージェントの挙動を、テレメトリーから確認・説明

MCP is dead.

MCP is dead?

MCP is dead? 「作る側」は MCP を使わなくてもいい

3. 外部接続 API の直接利用 < MCP で安全な接続 < CLI で効率的な接続 4. オブザーバビリティの組み込み非決定論的な動作をする AI エージェントの挙動を、テレメトリーから確認・説明

AI エージェント開発の選択肢 Strands Agents AWS のシンプルな AI エージェント SDK •
AWS サービスとのネイティブな統合 • Python, TypeScript に対応 • Agent-as-Tool や Swarm, Graph などの概念 Google ADK Google の Gemini 中心の AI エージェント SDK • Google Cloud サービスとのネイティブな統合 • Python, TypeScript, Go, Java に対応 • テスト・評価・デプロイを含む開発基盤 LangChain 広範な用途で利用できる LLM フレームワーク • AI エージェントだけではないフレームワーク • Python, TypeScript, Go, Java に対応 • Chains, Agents, Tools, Memory などの抽象化

3. 外部接続 API の直接利用 < MCP で安全な接続 < CLI で効率的な接続 4. オブザーバビリティの組み込み非決定論的な動作をする AI エージェントの挙動を、テレメトリーから確認・説明

3. 外部接続 API の直接利用 < MCP で安全な接続 < CLI で効率的な接続 4. オブザーバビリティの組み込み非決定論的な動作をする AI エージェントの挙動を、テレメトリーから確認・説明 Agent Loop

3. 外部接続 API の直接利用 < MCP で安全な接続 < CLI で効率的な接続 4. オブザーバビリティの組み込み非決定論的な動作をする AI エージェントの挙動を、テレメトリーから確認・説明 Agent Loop Swarm Agent-as-tools

3. 外部接続 API の直接利用 < MCP で安全な接続 < CLI で効率的な接続 4. オブザーバビリティの組み込み非決定論的な動作をする AI エージェントの挙動を、テレメトリーから確認・説明 Agent Loop Swarm Agent-as-tools Tools

3. 外部接続 API の直接利用 < MCP で安全な接続 < CLI で効率的な接続 4. オブザーバビリティの組み込み非決定論的な動作をする AI エージェントの挙動を、テレメトリーから確認・説明 Agent Loop Swarm Agent-as-tools Tools StrandsTelemetry

3. 外部接続 API の直接利用 < MCP で安全な接続 < CLI で効率的な接続 4. オブザーバビリティの組み込み非決定論的な動作をする AI エージェントの挙動を、テレメトリーから確認・説明 Strands Agents ができること Agent Loop Swarm Agent-as-tools Tools StrandsTelemetry

どこで動かす？

Amazon Bedrock AgentCore AI エージェントの構築に適した機能群を備えたプラットフォーム実行基盤(Runtime), 組み込みツール(Built-in tools), 外部接続(Gateways), 認証認可(Identity),
アクセス権限制御(Policy), オブザーバビリティ(Observability, Evaluations)

Strands Agents on Bedrock AgentCore Runtime Strands Agents SDK の呼び出しを
AgentCore Runtime SDK でラップ bedrock-agentcore-starter-toolkit で、 agentcore configure → launch するだけ！ from strands import Agent from bedrock_agentcore import BedrockAgentCoreApp app = BedrockAgentCoreApp() agent = Agent() @app.entrypoint async def agent_invocation(payload): user_message = payload.get( "prompt", "No prompt found in input" ) stream = agent.stream_async(user_message) async for event in stream: print(event) yield (event) if __name__ == "__main__": app.run()

AI エージェントの思考プロセス

AI エージェントの「自律的」な動作 AI エージェントは単純な LLM チャットボットと違い、「自律的」に動作する AI エージェントの自律性：最初の入力の後に人間からの追加の指示がなくとも、目的の達成に向けてツール実行・情報収集・タスク分解・並列化・失敗時のリトライなどを、
モデルの出力を“判断材料”として進められる状態

Strands Agents の Agent Loop モデル ⇄ ツールの繰返し処理モデルが判断し、必要ならツール実行して、結果を文脈へ反映して再び推論を実施
→目的達成まで上記の処理を継続する！モデルの各呼び出しは以下の判断で停止ターン終了・ツール使用・最大トークン数・停止シーケンス・コンテンツフィルタリング・ガードレールの介入など…

Strands Agents の Agent Loop モデル ⇄ ツールの繰返し処理モデルが判断し、必要ならツール実行して、結果を文脈へ反映して再び推論を実施
→目的達成まで上記の処理を継続する！モデルの各呼び出しは以下の判断で停止ターン終了・ツール使用・最大トークン数・停止シーケンス・コンテンツフィルタリング・ガードレールの介入など… 中身を見ないとツールの利用や停止理由がわからない！！

オブザーバビリティ APM, 分散トレースプロファイリングサーバレス監視, ログ・メトリクスクラウドインテグレーション利用される技術スタック Python,
TypeScript, Go, Java... AgentCore Runtime, Lambda, ECS Amazon Bedrock, Cognito, IAM オブザーバビリティのアプローチ Managed Infrastructure Application

オブザーバビリティ新たなアプローチが必要 APM, 分散トレースプロファイリングサーバレス監視, ログ・メトリクスクラウドインテグレーション
利用される技術スタック Strands Agents, LangChain… Python, TypeScript, Go, Java... AgentCore Runtime, Lambda, ECS Amazon Bedrock, Cognito, IAM オブザーバビリティのアプローチ Managed Infrastructure Application AI Agents

LLM を評価する LLM

AI エージェントの評価観点ユーザーが求める結果が予期せぬ動作で得られなくなる割合が十分に低いか問題ツールやモデル呼び出しを介して、ユーザー体験を損なわない水準でレスポンスを返せるかパフォーマンス開発者が想定したルールに沿って、ユーザーが求める結果を提供できるか品質自律的に呼び出すモデルへの入出力トークン=利用コスト
が想定外に増加していないかコスト AI エージェント経由の攻撃を想定した権限制御やデータ保護がされているか安全性

AI エージェントの評価観点ユーザーが求める結果が予期せぬ動作で得られなくなる割合が十分に低いかツールやモデル呼び出しを介して、ユーザー体験を損なわない水準でレスポンスを返せるか開発者が想定したルールに沿って、ユーザーが求める結果を提供できるか自律的に呼び出すモデルへの入出力トークン=利用コストが想定外に増加していないか AI エージェント経由の攻撃を想定した権限制御やデータ保護がされているか
問題パフォーマンス品質コスト安全性

AI エージェントの評価観点ユーザーが求める結果が予期せぬ動作で得られなくなる割合が十分に低いか Issue ツールやモデル呼び出しを介して、ユーザー体験を損なわない水準でレスポンスを返せるか Performance 開発者が想定したルールに沿って、ユーザーが求める結果を提供できるか Quality 自律的に呼び出すモデルへの入出力トークン=利用コスト
が想定外に増加していないか Cost AI エージェント経由の攻撃を想定した権限制御やデータ保護がされているか Safety ①ユーザーが求める出力と、 ②開発者が求める行動が本当に達成されているか？

LLM-as-a-Judge: 複雑な評価を定量化 LLM を評価者(Judge)として使い、 LLM や AI エージェントの出力や行動を自動評価する仕組み “ “

LLM-as-a-Judge: 複雑な評価を定量化 LLM を評価者(Judge)として使い、 LLM や AI エージェントの出力や行動を自動評価する仕組み “ “
• 正確性(Correctness) • 一貫性(Consistency) • 網羅性(Completeness) • 推論の妥当性(Reasoning quality) • 安全性(Safety) • フォーマット遵守

そこで Datadog

AI のための Datadog AIスタック全体のエンドツーエンドなオブザーバビリティとセキュリティ • LLM Observability • Data
Observability • GPU Monitoring (preview) • AI Guard (preview) • AI Agents Console (preview) Datadog のための AI DatadogプラットフォームのAI活用機能 • Bits AI SRE Agent • Bits AI Dev Agent (preview) • Bits AI Security Analyst (preview) • MCP Server (preview) • Bits AI Assistant (preview) Datadog × AI の機能群

Amazon Bedrock AgentCore + Datadog OpenTelemetry の柔軟性を活用して、単純な設定のみでオブザーバビリティプラットフォームの Datadog へトレースを直接転送
Datadog LLM Observability

StrandsTelemetry の Datadog 転送設定環境変数設定と StrandsTelemetry の初期化で Datadog へ
LLM トレースを直接転送できる！ # 環境変数の設定 OTEL_EXPORTER_OTLP_TRACES_PROTOCOL=http/protobuf OTEL_EXPORTER_OTLP_TRACES_ENDPOINT=https://otlp.datadoghq.com/v1/traces OTEL_EXPORTER_OTLP_TRACES_HEADERS=dd-api-key=<YOUR_API_KEY>,dd-otlp-source=llmobs OTEL_SEMCONV_STABILITY_OPT_IN=gen_ai_latest_experimental Strands Agents SDK # StrandsTelemetry と OTLP exporter の初期化 telemetry = StrandsTelemetry() telemetry.setup_otlp_exporter()

StrandsTrace の Datadog 転送設定環境変数設定と StrandsTelemetry の初期化で Datadog へ
LLM トレースを直接転送できる！ # 環境変数の設定 OTEL_EXPORTER_OTLP_TRACES_PROTOCOL=http/protobuf OTEL_EXPORTER_OTLP_TRACES_ENDPOINT=https://otlp.datadoghq.com/v1/traces OTEL_EXPORTER_OTLP_TRACES_HEADERS=dd-api-key=<YOUR_API_KEY>,dd-otlp-source=llmobs OTEL_SEMCONV_STABILITY_OPT_IN=gen_ai_latest_experimental Strands Agents SDK # StrandsTelemetry と OTLP exporter の初期化 telemetry = StrandsTelemetry() telemetry.setup_otlp_exporter() LLM トレースの生成・転送

AWS Vercel Amazon Bedrock Demo: Strands Agent on Bedrock +
Datadog Bedrock AgentCore CopilotKit SDK AgentCore Runtime (SDK) Strands Agents SDK AgentCore Identity AgentCore Gateway AgentCore Memory LLM Models Amazon Nova Claude Models OpenAI GPT OSS Client Browser AG-UI Build/Deploy

Datadog Bedrock AgentCore CopilotKit SDK AgentCore Runtime (SDK) Strands Agents SDK DATADOG ORGANIZATION AgentCore Identity AgentCore Gateway AgentCore Memory LLM Models Amazon Nova Claude Models OpenAI GPT OSS Client Browser AG-UI Build/Deploy

Datadog Bedrock AgentCore CopilotKit SDK AgentCore Runtime (SDK) Strands Agents SDK DATADOG ORGANIZATION LLM Observability AgentCore Identity AgentCore Gateway AgentCore Memory LLM Models Amazon Nova Claude Models OpenAI GPT OSS Client Browser AG-UI OpenTelemetry StrandsTrace Build/Deploy

Datadog Bedrock AgentCore CopilotKit SDK AgentCore Runtime (SDK) Strands Agents SDK DATADOG ORGANIZATION LLM Observability AgentCore Identity AgentCore Gateway AgentCore Memory LLM Models Amazon Nova Claude Models OpenAI GPT OSS Client Browser AG-UI Evaluations OpenTelemetry StrandsTrace Build/Deploy

Datadog LLM Observability でモデルを評価！！

マネージド評価：(カスタム不可) Datadog が提供する、品質や安全性に問題がある出力の検出カスタム評価： Datadog がテンプレートを提供する、品質や安全性に懸念がある出力・行動の検出とスコアリング Datadog LLM
Observability: 評価(Evaluations) カスタム評価マネージド評価セキュリティ品質機密データスキャンハルシネーション言語の不一致セキュリティ品質回答の失敗トピックの関連性感情プロンプトインジェクション毒性・攻撃性ツールの選択・引数テンプレート任意の評価

マネージド評価：(カスタム不可) Datadog が提供する、品質や安全性に問題がある出力の検出カスタム評価： Datadog がテンプレートを提供する、品質や安全性に懸念がある出力・行動の検出とスコアリング Datadog LLM
Observability: 評価(Evaluations) カスタム評価マネージド評価セキュリティ品質機密データスキャンハルシネーション言語の不一致セキュリティ品質回答の失敗トピックの関連性感情プロンプトインジェクション毒性・攻撃性ツールの選択・引数テンプレート任意の評価 ※ Datadog SDK での実装が必要 ※ Datadog SDK での実装が必要

LLM の「信頼性」を考える

システムの信頼性システムが求められる機能を、定められた条件の下で、定められた期間に渡り、障害を起こすことなく実行する確率 “ “

システムの信頼性システムが求められる機能を、定められた条件の下で、定められた期間に渡り、障害を起こすことなく実行する確率 “ “ • 応答速度(Latency) • 可用性(Availability) •
エラー率(Error rate) • データ鮮度(Data freshness) • スループット(Throughput)

システムの信頼性システムが求められる機能を、定められた条件の下で、定められた期間に渡り、障害を起こすことなく実行する確率 “ “ • 応答速度(Latency) • 可用性(Availability) •
エラー率(Error rate) • データ鮮度(Data freshness) • スループット(Throughput) AI エージェントの信頼性はシステムの信頼性と同じものか？

非決定的なワークロードの信頼性を考える SRE Magazine 008号 SLI設計：プロンプト管理と LLM-as-a-Judge SLO設計：過剰な厳密さを避ける

非決定的なワークロードの信頼性を考える SRE Magazine 008号 SLI設計：プロンプト管理と LLM-as-a-Judge SLO設計：過剰な厳密さを避ける AI エージェントに最適な SLI/SLO
は設定できるのか？

非決定的なワークロードの信頼性を考える SRE Magazine 008号 SLI設計：プロンプト管理とLLM-as-a-Judge 通常のシステムよりも早い応答が求められない代わりに、出力の一貫性と精度を定量化する評価専用LLM(LLM-as-a-Judge)で「閾値を超えた良い出力の割合」を定量化する SLO設計：過剰な厳密さを避ける出力も評価も
LLM の非決定的な性質に左右されるため、厳密な閾値を定めるのではなく、品質の傾向を把握するための指標として SLO を比較的低い値に設定する

Datadog Bedrock AgentCore CopilotKit SDK AgentCore Runtime (SDK) Strands Agents SDK DATADOG ORGANIZATION LLM Observability AgentCore Identity AgentCore Gateway AgentCore Memory LLM Models Amazon Nova Claude Models OpenAI GPT OSS Client Browser AG-UI Evaluations OpenTelemetry StrandsTrace Build/Deploy

Datadog Bedrock AgentCore CopilotKit SDK AgentCore Runtime (SDK) Strands Agents SDK DATADOG ORGANIZATION LLM Observability AgentCore Identity AgentCore Gateway AgentCore Memory LLM Models Amazon Nova Claude Models OpenAI GPT OSS Client Browser AG-UI SLOs Evaluations OpenTelemetry StrandsTrace Build/Deploy メトリクスのみ

まとめ

まとめ • 2026年はもう AI エージェントを作る時代 • Strands Agents + Bedrock
AgentCore の組み合わせは AWS 上に簡単・効率的に AI エージェントを構築できる組み合わせ • Datadog は OpenTelemetry ベースの LLM トレースを直接転送できるオブザーバビリティプラットフォーム • AI エージェントを作るだけではなく、特有の信頼性を高めるために専用の評価指標に基づいて定量化することが重要！ • Datadog LLM Observability は LLM/AI エージェントの可視化だけでなく、マネージド/カスタム LLM-as-a-Judge の仕組みで品質と安全性を評価できる

是非 Datadog のブースにも足をお運びください🐶🐶

Thank you! 6 7

作りっぱなしで終わらせない！ 価値を出し続ける AI エージェントのための「信頼性」設計 /...

作りっぱなしで終わらせない！ 価値を出し続ける AI エージェントのための「信頼性」設計 / Designing Reliability for AI Agents that Deliver Continuous Value

Video

Resources

JAWS DAYS 2026

[D6]作りっぱなしで終わらせない！価値を出し続ける AI エージェントのための「信頼性」設計

非決定的なワークロードの信頼性を考える

MCP is dead. Long live the CLI

More Decks by Kento Kimura

Other Decks in Technology

Featured

Transcript

作りっぱなしで終わらせない！価値を出し続ける AI エージェントのための「信頼性」設計 /...

作りっぱなしで終わらせない！価値を出し続ける AI エージェントのための「信頼性」設計 / Designing Reliability for AI Agents that Deliver Continuous Value