Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AWS re:Invent 2025 re:Cap CloudOps モニタリング・オブザーバ...

Avatar for hara hara
January 18, 2026
72

AWS re:Invent 2025 re:Cap CloudOps モニタリング・オブザーバビリティ編

Avatar for hara

hara

January 18, 2026
Tweet

Transcript

  1. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. T O K Y O J A P A N AWS re:Invent 2025 re:Cap CloudOps ~ モニタリング・オブザーバビリティ編 ~ Aya Hara 2 0 2 6 / 0 1 / 1 6 Solutions Architect (Game) Amazon Web Services Japan G.K. 1
  2. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 2 オブザーバビリティ関連のアップデート一覧 Amazon CloudWatch エージェントが NVMe ローカルボリュームパフォーマンス統計のサポートを追加 11/3/2025 Amazon CloudWatch アプリケーションシグナルが AI を活用した Synthetics デバッグ機能を追加 11/5/2025 Amazon CloudWatch Database Insightsがオンデマンド分析における異常検出を拡張 11/5/2025 Amazon CloudWatch エージェントが共有メモリメトリクスを追加 11/10/2025 Amazon S3 テーブルが Amazon CloudWatch メトリクスをサポートするようになりました 11/12/2025 Amazon CloudWatch Logs が Network Load Balancer アクセスログのサポートを開始 11/12/2025 Amazon CloudWatch 複合アラームがしきい値ベースのアラートを追加 11/12/2025 Amazon CloudWatch が Logs Insights でスケジュールされたクエリをサポートするようになりました 11/19/2025 Amazon CloudWatch リアルユーザーモニタリング (RUM) が iOS および Android アプリケーションのサポートを追加 11/19/2025 Amazon EKS が強化されたコンテナネットワークの観測性を導入 11/19/2025 Amazon CloudWatch アプリケーションマップが、インストルメント化されていないサービスの検出をサポートするようになりました 11/20/2025 Amazon CloudWatch Container Insights が Amazon EKS 上の Neuron UltraServer のサポートを開始 11/21/2025 Amazon CloudWatch アプリケーションシグナルに GitHub Action と MCP サーバーの改善が追加 11/21/2025 AWS セキュリティインシデントレスポンスが無料利用枠付きの従量制料金を提供開始 11/21/2025 Amazon CloudWatch が EC2 のコンソール内エージェント管理を導入 11/21/2025 Amazon CloudWatch Container Insights が Amazon EKS に 1 分未満の GPU メトリクスを追加 11/21/2025 CloudWatch Database Insights がクロスアカウント・クロスリージョンモニタリングを追加 11/21/2025 Amazon CloudWatch がログの削除保護をサポートするようになりました 11/27/2025 Amazon CloudWatch インシデントレポートが 5 Whys 分析をサポートするようになりました 11/30/2025 運用効率向上のための最先端のエージェント、AWS DevOps Agent (プレビュー) のご紹介 12/2/2025 Amazon CloudWatch がオペレーション、セキュリティ、コンプライアンスデータの統合管理と分析を開始 12/2/2025 Amazon CloudWatch GenAI オブザーバビリティが Amazon AgentCore Evaluations 評価をサポートするようになりました 12/2/2025 AWS が Amazon CloudWatch で AWS CloudTrail イベントの簡素化された有効化を開始 12/5/2025
  3. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 3 Innovation Talk : AI 時代のクラウド運用 (Ops in the AI Age) ~Ops in the AI age: Innovating together for faster, more efficient operations~ より • 各分野の責任者や VP クラスが登壇して、その領域の方向性 や最新のイノベーションを語るセッション • Nandini Ramani (VP of Search, Observability, and Cloud Ops at AWS) ✓ AI 時代の運用課題: AI エージェントの実運用化に伴う「動作の不透明性(なぜその 判断をしたか)」や「複雑性」の増大について言及。 • David Provan (VP of Digital Architecture at PGA Tour) ✓ ゴルフのショット解説を生成する「AI Shot Commentary System」における、 CloudWatch を活用したダッシュボードで、AI の推論エラーやシステム遅延をリア ルタイムに検知・対応し、PGA ツアーのウェブサイト利用者体験の信頼性を確保 した運用体制を解説 • Jeff Barr (VP & Chief Evangelist at AWS) ✓ 新機能を用いたトラブルシューティングの実演。 https://www.youtube.com/watch?v=gy59STBBsX0
  4. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 4 Innovation Talk でのメッセージと発表されたサービス 生成 AI は実験から本番運用へ。エージェントは自律的に判断・行動するため、 「結果」だけでなく「判断プロセス(Why)」の可視化が不可欠。 AI エージェントを信頼する AI を利用した効率的な運用 業務の簡素化 GenAI オブザーバビリティ (CloudWatch) コード変更なしで計装 (OpenTelemetry) トレース、トークン、レイテンシ可視化 アプリケーションマップ エージェント間の依存関係をマップ化 意思決定フローを視覚的に追跡 自動調査とレポート Investigations: 根本原因分析を自動化 Incident Reports: 障害報告書(COE)自動生成 開発ワークフロー統合 MCP Servers: IDE から自然言語で AWS 操作 GitHub Actions: PR 作成時に修正コード提案 自然言語クエリ OpenSearch Serviceでのログ分析 モバイル対応 CloudWatch RUM が iOS/Android 対応 セキュリティ CloudTrail イベントの自動集約・異常検知
  5. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 5 Innovation Talk でのメッセージと発表されたサービス 生成 AI は実験から本番運用へ。エージェントは自律的に判断・行動するため、 「結果」だけでなく「判断プロセス(Why)」の可視化が不可欠。 AI エージェントを信頼する AI を利用した効率的な運用 業務の簡素化 GenAI オブザーバビリティ (CloudWatch) コード変更なしで計装 (OpenTelemetry) トレース、トークン、レイテンシ可視化 アプリケーションマップ エージェント間の依存関係をマップ化 意思決定フローを視覚的に追跡 自動調査とレポート Investigations: 根本原因分析を自動化 Incident Reports: 障害報告書(COE)自動生成 開発ワークフロー統合 MCP Servers: IDE から自然言語で AWS 操作 GitHub Actions: PR 作成時に修正コード提案 自然言語クエリ OpenSearch Serviceでのログ分析 モバイル対応 CloudWatch RUM が iOS/Android 対応 セキュリティ CloudTrail イベントの自動集約・異常検知
  6. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon CloudWatch アプリケーションマップが一般提供開始 • 以前のサービスマップに代わるもの • アプリケーション名とタグ、Resource Explorer を活用することで、計装すること なく自動的にサービスを検出可能。 ※従来通り計装しても表示可能 • 自動で分類されたグループをクリックして、 アプリケーショントポロジーも表示できる • Application Signals がリリースされてい る、東京・大阪含めたすべての AWS 商用 リージョンで、追加料金なしで利用可能。 6
  7. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 7 アプリケーションマップでマルチアカウントモニタリングが容易に • モニタリングアカウントの重要性 分散アプリケーションでは、マルチアカウントで サービスが運用されているため、一元的なビューを必要と している。 例)とある E-Commerce サイト • フロントエンド用アカウント • 商品管理用アカウント • 配送管理用アカウント などの SLI 違反の有無を確認したい → サービスが停止したときに、どこで異常が発生している か、CCoE や SRE チームが理解できるようにしておきたい 中央のモニタリン グアカウントで テナントの状況を 確認したい
  8. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 8 アプリケーションマップでマルチアカウントモニタリングが容易に • アプリケーションマップでは、計装しなくても、モニタリングアカウントからソースアカウントのサービス の正常性が確認できる。 ↑ 未計装でも ALB のリクエスト数やクライアントエラー・サーバーエラー発生率など確認可能 ← SLO を設定していれば、SLI 違反している サービスも一目瞭然
  9. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 9 Innovation Talk でのメッセージと発表されたサービス 生成 AI は実験から本番運用へ。エージェントは自律的に判断・行動するため、 「結果」だけでなく「判断プロセス(Why)」の可視化が不可欠。 AI エージェントを信頼する AI を利用した効率的な運用 業務の簡素化 GenAI オブザーバビリティ (CloudWatch) コード変更なしで計装 (OpenTelemetry) トレース、トークン、レイテンシ可視化 アプリケーションマップ エージェント間の依存関係をマップ化 意思決定フローを視覚的に追跡 自動調査とレポート Investigations: 根本原因分析を自動化 Incident Reports: 障害報告書(COE)自動生成 開発ワークフロー統合 MCP Servers: IDE から自然言語で AWS 操作 GitHub Actions: PR 作成時に修正コード提案 自然言語クエリ OpenSearch Serviceでのログ分析 モバイル対応 CloudWatch RUM が iOS/Android 対応 セキュリティ CloudTrail イベントの自動集約・異常検知
  10. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon CloudWatch Investigations 生成 AI エージェント駆動の運用調査・根本原因分析機能 主要機能: • テレメトリデータの自動スキャンと異常検出 • メトリクス、ログ、デプロイメントイベント、 根本原因仮説の提示 • 自動生成された診断結果と修復ステップの共有 迅速な問題解決を実現: • 複数コンソールの切り替え不要 • 関連テレメトリの自動抽出 • 根本原因仮説の自動生成 https://docs.aws.amazon.com/ja_jp/AmazonCloudWatch/latest/monitoring/Investigations.html
  11. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. • AI を活用した根本原因分析ワークフローを提供 ✓ Amazon Q を活用した対話型のガイド付きワークフローで 「5つのなぜ」分析を実施 ✓ インシデントの根本原因を特定し、再発防止策を推奨 • Amazon の COE(Correction of Errors) プロセスをモデル化 ✓ 人間の入力と AI 分析を組み合わせて再発防止策を提案 11 Amazon CloudWatch インシデントレポートが 5 Whys 分析をサポート
  12. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. • AI を活用した根本原因分析ワークフローを提供 ✓ Amazon Q を活用した対話型のガイド付きワークフローで 「5つのなぜ」分析を実施 ✓ インシデントの根本原因を特定し、再発防止策を推奨 • Amazon の COE(Correction of Errors) プロセスをモデル化 ✓ 人間の入力と AI 分析を組み合わせて再発防止策を提案 12 Amazon CloudWatch インシデントレポートが 5 Whys 分析をサポート CloudWatch の調査(Investigation)を作成後、「Incident report」をクリックし、 「5 Whys」セクションで「Guide Me」を選択することで利用可能
  13. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. • AI を活用した根本原因分析ワークフローを提供 ✓ Amazon Q を活用した対話型のガイド付きワークフローで 「5つのなぜ」分析を実施 ✓ インシデントの根本原因を特定し、再発防止策を推奨 • Amazon の COE(Correction of Errors) プロセスをモデル化 ✓ 人間の入力と AI 分析を組み合わせて再発防止策を提案 13 Amazon CloudWatch インシデントレポートが 5 Whys 分析をサポート • なぜ Lambda 関数はフルテーブルスキャンの後に 個別クエリを発行してしまったのか? • 2026-01-08 23:06 ~ 23:13 の時間帯に何をデプロ イしようとした? • デプロイする前に、N+1 問題のアンチパターンを検 出するためにコードレビューやテストは行った?
  14. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 14 Innovation Talk でのメッセージと発表されたサービス 生成 AI は実験から本番運用へ。エージェントは自律的に判断・行動するため、 「結果」だけでなく「判断プロセス(Why)」の可視化が不可欠。 AI エージェントを信頼する AI を利用した効率的な運用 業務の簡素化 GenAI オブザーバビリティ (CloudWatch) コード変更なしで計装 (OpenTelemetry) トレース、トークン、レイテンシ可視化 アプリケーションマップ エージェント間の依存関係をマップ化 意思決定フローを視覚的に追跡 自動調査とレポート Investigations: 根本原因分析を自動化 Incident Reports: 障害報告書(COE)自動生成 開発ワークフロー統合 MCP Servers: IDE から自然言語で AWS 操作 GitHub Actions: PR 作成時に修正コード提案 自然言語クエリ OpenSearch Serviceでのログ分析 モバイル対応 CloudWatch RUM が iOS/Android 対応 セキュリティ CloudTrail イベントの自動集約・異常検知
  15. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 15 CloudWatch RUM for mobile • Web に加えてモバイルアプリケーション向 けも追加された包括的なダッシュボード • 実際のユーザーの視点からモバイルユーザ のパフォーマンスを分析するため、ウェブ サイトやアプリケーションとの全ユーザー インタラクションを記録可能 • 使い慣れた CloudWatch インターフェース で提供される単一の統合監視ソリューショ ンで導入負担を軽減 実際のユーザーの視点で iOS/Android のパフォーマンスをリアルタイムに把握
  16. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. © 2026, Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS DevOps Agent (プレビュー) 16
  17. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 17 障害対応における課題 • 障害対応はマニュアル作業が多く、時間を要する 監視ツールのツールホッピングに加え、変更履歴等障害対応に必要なコンテキストを集めるのに まず時間がかかる • 障害対応によって改善活動が妨げられる 障害対応で疲弊することによって、改善活動に着手する工数が確保できない • コンテキストの属人化 過去の障害の経験、システムのアーキテクチャ等ベテランのエンジニアの頭に中にしか無いもの が多数存在する • システム品質改善活動は優先度が低くなりがち 機能開発と比べると品質改善活動は優先度が下げられる傾向が強く、結果長期的に放置されてし まう
  18. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 18 AWS DevOps Agent が解決する課題 • 障害の早期復旧 アラート発報→即調査開始により、障害継続時間(Time To Resolve; TTR)の短縮 • 運用のプロアクティブ化 TTR の短縮により継続的運用改善に工数を充てられるようになる • 再発防止 過去の障害パターンからシステム全体の脆弱な箇所を特定し、その改善策を提案 • 既存ツールの有効活用 これまで運用で利用していたチケットシステムやオブザーバビリティツールなどの活用
  19. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 19 AWS DevOps Agent の主要機能 • 自律的な障害調査 • 原因分析 • 復旧案の提案 • AWS サポート連携 • 再発防止策の提案 • AWS リソーストポロジの可視化
  20. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 20 AWS DevOps Agent Web App 管理と運用を分離するデュアルコンソール設計 • 運用チーム向け:DevOps Agent Web App • 日常的なインシデント対応に特化 • 管理者向け: AWS マネジメントコンソール • DevOps Agent の作成・管理 • サービス連携とアクセス権限設定
  21. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 21 調査させてみた 構成 • APIGW – Lambda - DynamoDB 構成 • DynamoDB は GSI を使わないことで N+1 問題を発生させる • DynamoDB の Read Capacity を 2 にして スロットリングさせる Soak Test 実施 → Latency 超過エラー発生
  22. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 22 原因分析&復旧案 1. Root Cause として DynamoDB へアクセ ス実装が不適切であることを正しく分析 2. 1を裏付けるデータ - レイテンシの悪化 - タイムアウトの増加 - etc. 3. 復旧案の提示 - (作成したけど利用していない)GSI を利用することを提案してくれている - 今回の場合 KIRO で利用可能な spec と して提案 1 2 3
  23. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 23 AWS サポート連携 • 調査中に DevOps Agent Space から直接サポートケースを起票することが可能 • チャットウィンドウも Agent Space 内に作成される • 調査タイムライン等 AWS DevOps Agent の調査状況も AWS サポートに共有さ れる ※ Basic サポート契約の場合、AWS サポート連携機能はご利用いただけません https://docs.aws.amazon.com/devopsagent/latest/userguide/devops-agent-incident-response-ask-for-human-support.html
  24. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 24 DevOps Agent が提案した再発防止策のサマリー 具体的な推奨事項のリスト 再発防止策のカテゴリと 提案頻度 再発防止策の提案
  25. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 25 再発防止策の提案 提案された推奨事項を承認・却下する フラグをつけることが可能 • Overview(概要) • 問題の要約と提案する解決策の概要 • Background(背景) • 問題発生の経緯と根本原因の詳細分析 • Next Steps(次のステップ) • 実装すべき具体的な修正手順と検証方法 • Considerations(考慮事項) • 解決策実装時の注意点と新たに生じうる 課題
  26. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 26 AWS リソーストポロジの可視化 • CloudFormation stacks (CDK 含む) と それに含まれるリソースを自動検出 • CloudFormation 以外(Terraform 等)でデプロイされたリソースは、 Resource Explorer 経由で検出 • ターゲット AWS アカウントで Resource Explorer の有効化が必要
  27. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 27 DevOps Agent CloudWatch Investigations 料金体系 Preview 期間は無料 無料 リージョン Preview 期間は us-east-1 のみ (対象リソースは他リージョンも可) 複数リージョン対応 UI DevOps Agent Web App マネジメントコンソール クロスアカウント対応 可 要 CloudWatch Cross-Account o11y 3rd Party tool サポー ト Datadog, Dynatrace, New Relic, Splunk, ServiceNow, Slack, PagerDuty 等にデフォルト対応 MCP サーバーにより拡張可能 不可 リポジトリ& CI/CD パイプライン連携 GitHub, Gitlab 不可 修復アクション 提案のみ SSM Automation Runbook (実行にはユーザー承認が必要) Runbook 可 不可 サポート連携 可(Basic/Developer は制限有り) 不可 CloudWatch Investigations との比較
  28. © 2026, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. 28 まとめ 進化し続けるオブザーバビリティ - AI時代のクラウド運用を支える新機能 • 可視化の進化 CloudWatch Application Map がマルチアカウント環境でサービス依存関係を自動検出、 計装不要でトポロジーを即座に把握 • 分析の効率化 Amazon CloudWatch Investigations が、根本原因の特定から修復提案まで自律的に実行、 5 Whys 分析で COE プロセスを効率化 • 対応範囲の拡大 AWS DevOps Agent が自律的に障害調査と復旧提案を実行