Upgrade to Pro — share decks privately, control downloads, hide ads and more …

作りっぱなしで終わらせない! 価値を出し続ける AI エージェントのための「信頼性」設計 /...

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

作りっぱなしで終わらせない! 価値を出し続ける AI エージェントのための「信頼性」設計 / Designing Reliability for AI Agents that Deliver Continuous Value

Avatar for Kento Kimura

Kento Kimura PRO

March 06, 2026
Tweet

Resources

[D6]作りっぱなしで終わらせない!価値を出し続ける AI エージェントのための「信頼性」設計

https://fortee.jp/jawsdays-2026/proposal/81fb6f2f-904d-4d00-9569-3180c54f79f6

非決定的なワークロードの信頼性を考える

https://sre-magazine.net/articles/8/aoto/

More Decks by Kento Kimura

Other Decks in Technology

Transcript

  1. > who am i? self_intro: name: “Kento Kimura” alias: ”AoTo”

    age: 28 company: “Datadog” role: sales_engineer communities: - name: “Jagu‘e’r” description: “Japan Google Cloud Usergroup for Enterprise” - name: “JDDUG” description: “Japan Datadog User Group” - name: “JAWS-UG” description: “Japan AWS User Group” conferences: - name: “GCTS” description: “Google Cloud Community Tech Surge” - name: “o11yconjp” description: “Observability Conference Tokyo”
  2. 話すひと • 担当: パブリッククラウドのアーキテクト知識を活かした   Datadog のプリセールス技術支援 • 出没するコミュニティ: Google

    Cloud のユーザーコミュニティ「Jagu'e'r」 Datadog のユーザーコミュニティ「JDDUG」 AWS のユーザーコミュニティ「JAWS」 クラウドネイティブカンファレンス「CloudNative Days」 • JAWS DAYS: 2024, 2025 にも参加してました! • 肩書き: AWS Community Builder(Cloud Operations, 2024~) 2023 Japan AWS Jr. Champion 2022-25 APN All AWS Certifications Engineer • 好きな AWS サービス: CloudWatch Application Signals 木村 健人 (Kento Kimura) Datadog Japan GK
  3. 話すこと 01 AI エージェントを構築しよう 04 LLM の「信頼性」を考える 03 LLM を評価する

    LLM: LLM-as-a-Judge 02 AI エージェントの思考プロセス XX Strands Agents 以外の AI エージェント 話さないこと XX XX Ragas, NeMo などの外部評価 Datadog の基本的な機能 XX Datadog の具体的な設定方法
  4. AI エージェント開発に求めること 1. シンプルな設計 変化の早い AI エージェント開発で変更容易性を高める 2. マルチエージェント前提 役割を限定して特化させることで、コンテキストの最適化

    3. 外部接続 API の直接利用 < MCP で安全な接続 4. オブザーバビリティの組み込み 非決定論的な動作をする AI エージェントの挙動を、 テレメトリーから確認・説明
  5. AI エージェント開発に求めること 1. シンプルな設計 変化の早い AI エージェント開発で変更容易性を高める 2. マルチエージェント前提 役割を限定して特化させることで、コンテキストの最適化

    3. 外部接続 API の直接利用 < MCP で安全な接続 < CLI で効率的な接続 4. オブザーバビリティの組み込み 非決定論的な動作をする AI エージェントの挙動を、 テレメトリーから確認・説明
  6. AI エージェント開発の選択肢 Strands Agents AWS のシンプルな AI エージェント SDK •

    AWS サービスとの ネイティブな統合 • Python, TypeScript に対応 • Agent-as-Tool や Swarm, Graph などの概念 Google ADK Google の Gemini 中心の AI エージェント SDK • Google Cloud サービスとの ネイティブな統合 • Python, TypeScript, Go, Java に対応 • テスト・評価・デプロイ を含む開発基盤 LangChain 広範な 用途で利用できる LLM フレームワーク • AI エージェントだけ ではないフレームワーク • Python, TypeScript, Go, Java に対応 • Chains, Agents, Tools, Memory などの抽象化
  7. AI エージェント開発の選択肢 Strands Agents AWS のシンプルな AI エージェント SDK •

    AWS サービスとの ネイティブな統合 • Python, TypeScript に対応 • Agent-as-Tool や Swarm, Graph などの概念 Google ADK Google の Gemini 中心の AI エージェント SDK • Google Cloud サービスとの ネイティブな統合 • Python, TypeScript, Go, Java に対応 • テスト・評価・デプロイ を含む開発基盤 LangChain 広範な 用途で利用できる LLM フレームワーク • AI エージェントだけ ではないフレームワーク • Python, TypeScript, Go, Java に対応 • Chains, Agents, Tools, Memory などの抽象化
  8. AI エージェント開発に求めること 1. シンプルな設計 変化の早い AI エージェント開発で変更容易性を高める 2. マルチエージェント前提 役割を限定して特化させることで、コンテキストの最適化

    3. 外部接続 API の直接利用 < MCP で安全な接続 < CLI で効率的な接続 4. オブザーバビリティの組み込み 非決定論的な動作をする AI エージェントの挙動を、 テレメトリーから確認・説明
  9. AI エージェント開発に求めること 1. シンプルな設計 変化の早い AI エージェント開発で変更容易性を高める 2. マルチエージェント前提 役割を限定して特化させることで、コンテキストの最適化

    3. 外部接続 API の直接利用 < MCP で安全な接続 < CLI で効率的な接続 4. オブザーバビリティの組み込み 非決定論的な動作をする AI エージェントの挙動を、 テレメトリーから確認・説明 Agent Loop
  10. AI エージェント開発に求めること 1. シンプルな設計 変化の早い AI エージェント開発で変更容易性を高める 2. マルチエージェント前提 役割を限定して特化させることで、コンテキストの最適化

    3. 外部接続 API の直接利用 < MCP で安全な接続 < CLI で効率的な接続 4. オブザーバビリティの組み込み 非決定論的な動作をする AI エージェントの挙動を、 テレメトリーから確認・説明 Agent Loop Swarm Agent-as-tools
  11. AI エージェント開発に求めること 1. シンプルな設計 変化の早い AI エージェント開発で変更容易性を高める 2. マルチエージェント前提 役割を限定して特化させることで、コンテキストの最適化

    3. 外部接続 API の直接利用 < MCP で安全な接続 < CLI で効率的な接続 4. オブザーバビリティの組み込み 非決定論的な動作をする AI エージェントの挙動を、 テレメトリーから確認・説明 Agent Loop Swarm Agent-as-tools Tools
  12. AI エージェント開発に求めること 1. シンプルな設計 変化の早い AI エージェント開発で変更容易性を高める 2. マルチエージェント前提 役割を限定して特化させることで、コンテキストの最適化

    3. 外部接続 API の直接利用 < MCP で安全な接続 < CLI で効率的な接続 4. オブザーバビリティの組み込み 非決定論的な動作をする AI エージェントの挙動を、 テレメトリーから確認・説明 Agent Loop Swarm Agent-as-tools Tools StrandsTelemetry
  13. AI エージェント開発に求めること 1. シンプルな設計 変化の早い AI エージェント開発で変更容易性を高める 2. マルチエージェント前提 役割を限定して特化させることで、コンテキストの最適化

    3. 外部接続 API の直接利用 < MCP で安全な接続 < CLI で効率的な接続 4. オブザーバビリティの組み込み 非決定論的な動作をする AI エージェントの挙動を、 テレメトリーから確認・説明 Strands Agents ができること Agent Loop Swarm Agent-as-tools Tools StrandsTelemetry
  14. Strands Agents on Bedrock AgentCore Runtime Strands Agents SDK の呼び出しを

    AgentCore Runtime SDK でラップ bedrock-agentcore-starter-toolkit で、 agentcore configure → launch するだけ! from strands import Agent from bedrock_agentcore import BedrockAgentCoreApp app = BedrockAgentCoreApp() agent = Agent() @app.entrypoint async def agent_invocation(payload): user_message = payload.get( "prompt", "No prompt found in input" ) stream = agent.stream_async(user_message) async for event in stream: print(event) yield (event) if __name__ == "__main__": app.run()
  15. Strands Agents の Agent Loop モデル ⇄ ツールの繰返し処理 モデルが判断し、必要ならツール実行して、 結果を文脈へ反映して再び推論を実施

    →目的達成まで上記の処理を継続する! モデルの各呼び出しは以下の判断で停止 ターン終了・ツール使用・最大トークン数・ 停止シーケンス・コンテンツフィルタリング・ ガードレールの介入など…
  16. Strands Agents の Agent Loop モデル ⇄ ツールの繰返し処理 モデルが判断し、必要ならツール実行して、 結果を文脈へ反映して再び推論を実施

    →目的達成まで上記の処理を継続する! モデルの各呼び出しは以下の判断で停止 ターン終了・ツール使用・最大トークン数・ 停止シーケンス・コンテンツフィルタリング・ ガードレールの介入など… 中身を見ないと ツールの利用や停止理由がわからない!!
  17. オブザーバビリティ APM, 分散トレース プロファイリング サーバレス監視, ログ・メトリクス クラウド インテグレーション 利用される技術スタック Python,

    TypeScript, Go, Java... AgentCore Runtime, Lambda, ECS Amazon Bedrock, Cognito, IAM オブザーバビリティのアプローチ Managed Infrastructure Application
  18. オブザーバビリティ 新たなアプローチ が必要 APM, 分散トレース プロファイリング サーバレス監視, ログ・メトリクス クラウド インテグレーション

    利用される技術スタック Strands Agents, LangChain… Python, TypeScript, Go, Java... AgentCore Runtime, Lambda, ECS Amazon Bedrock, Cognito, IAM オブザーバビリティのアプローチ Managed Infrastructure Application AI Agents
  19. LLM-as-a-Judge: 複雑な評価を定量化 LLM を評価者(Judge)として使い、 LLM や AI エージェントの出力や行動を自動評価する仕組み “ “

    • 正確性(Correctness) • 一貫性(Consistency) • 網羅性(Completeness) • 推論の妥当性(Reasoning quality) • 安全性(Safety) • フォーマット遵守
  20. AI のための Datadog AIスタック全体のエンドツーエンドな オブザーバビリティとセキュリティ • LLM Observability • Data

    Observability • GPU Monitoring (preview) • AI Guard (preview) • AI Agents Console (preview) Datadog のための AI DatadogプラットフォームのAI活用機能 • Bits AI SRE Agent • Bits AI Dev Agent (preview) • Bits AI Security Analyst (preview) • MCP Server (preview) • Bits AI Assistant (preview) Datadog × AI の機能群
  21. AI のための Datadog AIスタック全体のエンドツーエンドな オブザーバビリティとセキュリティ • LLM Observability • Data

    Observability • GPU Monitoring (preview) • AI Guard (preview) • AI Agents Console (preview) Datadog のための AI DatadogプラットフォームのAI活用機能 • Bits AI SRE Agent • Bits AI Dev Agent (preview) • Bits AI Security Analyst (preview) • MCP Server (preview) • Bits AI Assistant (preview) Datadog × AI の機能群
  22. StrandsTelemetry の Datadog 転送設定 環境変数設定 と StrandsTelemetry の初期化で Datadog へ

    LLM トレースを直接転送できる! # 環境変数の設定 OTEL_EXPORTER_OTLP_TRACES_PROTOCOL=http/protobuf OTEL_EXPORTER_OTLP_TRACES_ENDPOINT=https://otlp.datadoghq.com/v1/traces OTEL_EXPORTER_OTLP_TRACES_HEADERS=dd-api-key=<YOUR_API_KEY>,dd-otlp-source=llmobs OTEL_SEMCONV_STABILITY_OPT_IN=gen_ai_latest_experimental Strands Agents SDK # StrandsTelemetry と OTLP exporter の初期化 telemetry = StrandsTelemetry() telemetry.setup_otlp_exporter()
  23. StrandsTrace の Datadog 転送設定 環境変数設定 と StrandsTelemetry の初期化で Datadog へ

    LLM トレースを直接転送できる! # 環境変数の設定 OTEL_EXPORTER_OTLP_TRACES_PROTOCOL=http/protobuf OTEL_EXPORTER_OTLP_TRACES_ENDPOINT=https://otlp.datadoghq.com/v1/traces OTEL_EXPORTER_OTLP_TRACES_HEADERS=dd-api-key=<YOUR_API_KEY>,dd-otlp-source=llmobs OTEL_SEMCONV_STABILITY_OPT_IN=gen_ai_latest_experimental Strands Agents SDK # StrandsTelemetry と OTLP exporter の初期化 telemetry = StrandsTelemetry() telemetry.setup_otlp_exporter() LLM トレースの生成・転送
  24. AWS Vercel Amazon Bedrock Demo: Strands Agent on Bedrock +

    Datadog Bedrock AgentCore CopilotKit SDK AgentCore Runtime (SDK) Strands Agents SDK AgentCore Identity AgentCore Gateway AgentCore Memory LLM Models Amazon Nova Claude Models OpenAI GPT OSS Client Browser AG-UI Build/Deploy
  25. AWS Vercel Amazon Bedrock Demo: Strands Agent on Bedrock +

    Datadog Bedrock AgentCore CopilotKit SDK AgentCore Runtime (SDK) Strands Agents SDK DATADOG ORGANIZATION AgentCore Identity AgentCore Gateway AgentCore Memory LLM Models Amazon Nova Claude Models OpenAI GPT OSS Client Browser AG-UI Build/Deploy
  26. AWS Vercel Amazon Bedrock Demo: Strands Agent on Bedrock +

    Datadog Bedrock AgentCore CopilotKit SDK AgentCore Runtime (SDK) Strands Agents SDK DATADOG ORGANIZATION LLM Observability AgentCore Identity AgentCore Gateway AgentCore Memory LLM Models Amazon Nova Claude Models OpenAI GPT OSS Client Browser AG-UI OpenTelemetry StrandsTrace Build/Deploy
  27. AWS Vercel Amazon Bedrock Demo: Strands Agent on Bedrock +

    Datadog Bedrock AgentCore CopilotKit SDK AgentCore Runtime (SDK) Strands Agents SDK DATADOG ORGANIZATION LLM Observability AgentCore Identity AgentCore Gateway AgentCore Memory LLM Models Amazon Nova Claude Models OpenAI GPT OSS Client Browser AG-UI Evaluations OpenTelemetry StrandsTrace Build/Deploy
  28. マネージド評価:(カスタム不可) Datadog が提供する、 品質や安全性に問題がある出力の検出 カスタム評価: Datadog がテンプレートを提供する、 品質や安全性に懸念がある出力・行動の検出とスコアリング Datadog LLM

    Observability: 評価(Evaluations) カスタム評価 マネージド評価 セキュリティ 品質 機密データ スキャン ハルシネーション 言語の不一致 セキュリティ 品質 回答の失敗 トピックの関連性 感情 プロンプト インジェクション 毒性・攻撃性 ツールの 選択・引数 テンプレート 任意の評価
  29. マネージド評価:(カスタム不可) Datadog が提供する、 品質や安全性に問題がある出力の検出 カスタム評価: Datadog がテンプレートを提供する、 品質や安全性に懸念がある出力・行動の検出とスコアリング Datadog LLM

    Observability: 評価(Evaluations) カスタム評価 マネージド評価 セキュリティ 品質 機密データ スキャン ハルシネーション 言語の不一致 セキュリティ 品質 回答の失敗 トピックの関連性 感情 プロンプト インジェクション 毒性・攻撃性 ツールの 選択・引数 テンプレート 任意の評価 ※ Datadog SDK での実装が必要 ※ Datadog SDK での実装が必要
  30. システムの信頼性 システムが求められる機能を、定められた条件の下で、 定められた期間に渡り、障害を起こすことなく実行する確率 “ “ • 応答速度(Latency) • 可用性(Availability) •

    エラー率(Error rate) • データ鮮度(Data freshness) • スループット(Throughput) AI エージェントの信頼性は システムの信頼性と同じものか?
  31. AWS Vercel Amazon Bedrock Demo: Strands Agent on Bedrock +

    Datadog Bedrock AgentCore CopilotKit SDK AgentCore Runtime (SDK) Strands Agents SDK DATADOG ORGANIZATION LLM Observability AgentCore Identity AgentCore Gateway AgentCore Memory LLM Models Amazon Nova Claude Models OpenAI GPT OSS Client Browser AG-UI Evaluations OpenTelemetry StrandsTrace Build/Deploy
  32. AWS Vercel Amazon Bedrock Demo: Strands Agent on Bedrock +

    Datadog Bedrock AgentCore CopilotKit SDK AgentCore Runtime (SDK) Strands Agents SDK DATADOG ORGANIZATION LLM Observability AgentCore Identity AgentCore Gateway AgentCore Memory LLM Models Amazon Nova Claude Models OpenAI GPT OSS Client Browser AG-UI SLOs Evaluations OpenTelemetry StrandsTrace Build/Deploy メトリクスのみ
  33. まとめ • 2026年はもう AI エージェントを作る時代 • Strands Agents + Bedrock

    AgentCore の組み合わせは AWS 上に簡単・効率的に AI エージェントを構築できる組み合わせ • Datadog は OpenTelemetry ベースの LLM トレースを直接転送できる オブザーバビリティプラットフォーム • AI エージェントを作るだけではなく、特有の信頼性を高めるために 専用の評価指標に基づいて定量化することが重要! • Datadog LLM Observability は LLM/AI エージェントの可視化だけでなく、 マネージド/カスタム LLM-as-a-Judge の仕組みで品質と安全性を評価できる