AWS DevOps Agentで見えた運用の未来 / The Future of Operations with AWS DevOps Agent

弥生株式会社 NEXT BUクラウドプロダクト開発部米川桂弥生株式会社 NEXT BUクラウドプロダクト開発部米川桂

弥生株式会社 / 米川桂（よねかわけい）法人向け/個人事業主向けの会計ソフトの開発 C#/.NET/Azure/AWS re:Invent 2025に初現地参加休日の過ごし方：テニス、子供と遊ぶ

アラーム疲れ: アラームのたびに一時的に開発を止めて調査にあたるため、集中が削がれる調査のボトルネック: アプリか？インフラか？あらゆるログを横断して調査「AIが代わりに調べてくれたら⋯」対応の遅れ: ユーザーへの問い合わせ対応、システムの復旧までに遅れが生じる

自律的な原因分析と改善提案経験豊富なDevOps エンジニアのように、リソースの関係性、オブザーバビリティツール、GitHubリポジトリ、CI/CD パイプラインから、テレメトリデータとコードを相互に関連付けて、インシデントの根本原因分析や改善提案を自律的に行う。

「Agent Space」と呼ばれるワークスペースを作成管理者向け運用チーム向けマネジメントコンソールで「Agent Space」の作成、権限付与、GitHub・NewRelic・Datadog等のサードパーティ連携を設定を行う。 Agent Spaceを作成したら、専用のWebアプリが払い出
される。運用チームはこちらで日々のインシデントの調査・対応を行う Agent Spaceとは：「誰が（利用者）」「どの範囲（AWSアカウント・リソース）」を操作・調査できるかを定義する、安全な隔離環境管理機能と日常の運用業務を分離するデュアルコンソールアーキテクチャを採用

プロンプト例： “Investigate the latest triggered CloudWatch alarm in ap-northeast- 1
for AWS account XXX. Analyze the underlying metrics and logs to identify the root cause.” AWSアカウント XXX の東京リージョンで発生した最新の CloudWatch アラームを調査し、関連するメトリクスとログを分析して根本原因を特定せよ

アプリケーション: Lambda (コンテナイメージ) + DynamoDB CI/CDデプロイ: GitHub Actions で自動デプロイ監視・アラーム通知:
CloudWatch Alarm + SNS + Q Developer (Chatbot) Slack連携

シナリオ: 仕様変更が入ったと仮定し、KeyError が発生するLambdaコードをデプロイ。リクエストパラメータを変更せずに実行エラーを発生させ、アラーム状態に。

以前の正常なコンテナイメージのバージョンへのロールバックを具体的に提案「直前のデプロイがトリガーだと特定」・デプロイ履歴とエラー発生時間を照合・「直前の変更」が原因であることを突き止めた・調査時間は10分ほど

シナリオ: LambdaからDynamoDB への権限を剥奪「AccessDenied を即座に検知・分析」・DynamoDBへの書き込み権限がないことを正確に指摘・不足しているアクション（ dynamodb:PutItem）を特定・修正用のIAMポリシー案まで提示
・調査時間は5分ほど

シナリオ: Lambdaのタイムアウトエラーシナリオ: DynamoDBスロットリングエラー「設定値と実行実態の乖離を指摘」・マネコンからのタイムアウト設定変更を検知・「現在のコードは完了までに3秒以上必要」と分析・タイムアウト値を3秒以上に延⾧す
べき」と具体的な設定値を提案・調査時間は5分ほど「キャパシティ不足をピンポイントに特定」・ログからスロットリングエラーの発生を検知・書き込み容量（WCU）が「1」で大幅に不足していると断定・調査時間は5分ほど

CloudWatchのアラームとDevOps Agentの調査結果をセットで通知することで、アラーム通知から原因究明までシームレスな運用ができるのではと実感

リージョン制限: 現在はバージニア北部のみ。ターゲットのリソースは他リージョンでもOK 言語は英語のみ: プロンプトや出力は今のところすべて英語。ただし、翻訳ツールで十分実用レベル。利用上限（月間クォータ）: 調査20時間 / 予防分析10時間 / チャット1,000メッセージ
自動化は作り込みが必要: アラーム発報からの自動調査は標準機能としてはまだなく、CloudWatchアラームから Lambdaを経由してWebhookを叩く仕組みの構築が必要。 AgentSpace作成: 最大10個同時実行数: インシデント解決調査タスク3つまで。インシデント予防評価タスクの数は1つまで価格: プレビュー期間中は無料。※調査過程で実行されるAPI呼び出しやクエリには料金が発生

AIによる自律的な調査の実現ログ解析やリソース確認をAIが自律的に実行し、人間が「何が起きたか」を探す時間はなくなるのでは MTTR（平均復旧時間）の大幅な短縮原因特定だけでなく、具体的な修正案まで提示してくれるので、MTTR（平均復旧時間）の大幅な短縮に繋がると実感人間の役割の変化監視から修復までがシームレスに繋がることで、人間は調査結果を確認し、影響範囲の把握や「意思決定」に専念できる

AWS DevOps Agentで見えた運用の未来 / The Future of Oper...

AWS DevOps Agentで見えた運用の未来 / The Future of Operations with AWS DevOps Agent

yayoi_dd

More Decks by yayoi_dd

Other Decks in Technology

Featured

Transcript

弥生株式会社 NEXT BUクラウドプロダクト開発部米川桂弥生株式会社 NEXT BUクラウドプロダクト開発部米川桂

弥生株式会社 / 米川桂（よねかわけい）法人向け/個人事業主向けの会計ソフトの開発 C#/.NET/Azure/AWS re:Invent 2025に初現地参加休日の過ごし方：テニス、子供と遊ぶ

プロンプト例： “Investigate the latest triggered CloudWatch alarm in ap-northeast- 1

アプリケーション: Lambda (コンテナイメージ) + DynamoDB CI/CDデプロイ: GitHub Actions で自動デプロイ監視・アラーム通知:

シナリオ: 仕様変更が入ったと仮定し、KeyError が発生するLambdaコードをデプロイ。リクエストパラメータを変更せずに実行エラーを発生させ、アラーム状態に。

シナリオ: LambdaからDynamoDB への権限を剥奪「AccessDenied を即座に検知・分析」・DynamoDBへの書き込み権限がないことを正確に指摘・不足しているアクション（ dynamodb:PutItem）を特定・修正用のIAMポリシー案まで提示

CloudWatchのアラームとDevOps Agentの調査結果をセットで通知することで、アラーム通知から原因究明までシームレスな運用ができるのではと実感