opsmethod第1回_アラート調査の自動化にむけて

アラート調査の⾃動化にむけて ~ システム異常の調査を⾃動化した知⾒を共有したい ~ クラスメソッドオペレーションズ株式会社クラウド運⽤チーム奥井⼤和

Name → 奥井大和 ( Okui Yamato ) 所属：クラスメソッド
オペレーションズ株式会社クラウド運用チーム主な業務：お客様のAWS環境の運用・保守日々のアラート対応と障害調査最近買って良かったもの：パネルヒーター足元を温めてQOLの向上自己紹介

本日のアジェンダ 1 定義：アラート調査の自動化とは 2 プロセス：どこから自動化するか？ 3 アプローチ：やってみた結果

「アラート調査の自動化」とは？システム異常の通知を受け、その根本原因を特定する作業調査・判断をAIに任せる「調査の初動と情報収集」を爆速に効率化したい：アラート調査：自動化の目標調査の図

スコープ：原因特定の効率化 STEP 1 監視ツールが異常検知 STEP 2 アラート通知 (メールやSlack等) STEP
3 調査 (ここを自動化したい) STEP 4 改善対応 (修復や予防などのアクション) 本件で目指すところアラート起点の調査の STEP

"毎回似たプロセスで調査していないか？対象環境やリソースが違うだけで、やることは同じなのでは？" 仮説：調査のアクションをロジックは共通「何をしたいか」さえ明確に指示すれば、 AIに任せられる。なぜ自動化しようと思ったか、経緯

調査のプロセスを分解してみる調査対象は違っても、やることは定型的結果の記録・次のアクション 1 最初の状況確認と判断 (サービス停止？影響範囲？) 2 対象の特定 (ID確認、構成把握) 3
情報収集 (メトリクス、ログ、CloudTrail) 4 分析・原因の切り分け (しきい値判定、相関分析) 5 関連する影響の確認 (同システムの他サービスへの波及) 6 STEP 3 今日はトリアージと呼ばせて

通知から全自動通知 ➡ [AIが調査・分析・報告 ] ➡ 完了トリアージの後から自動通知
➡ [人間が判断 ] ➡ [AIが調査開始] ➡ 完了部分的にAI利用 [人間] ➡ [AIでログ要約 ] ➡ [人間] ➡ ... 自動化の起点はどこにする？ A B C 主要な3パターン

👉 全自動が正解とは限らない。目的に合わせて選択する。項目 A：全自動 B：トリアージ後 C：部分的速度
最速数分のロス遅い精度誤検知リスク人間が要否判断都度判断導入コスト高い (構築など) 中程度低い環境影響システム変更あり最小限なし各パターンの比較

私は「B：トリアージ後から自動」を選択理由：最適なバランス「サービスが止まっているか」「ユーザー影響はあるか」の重大な判断は人間が担いたい対象さえ特定できれば、その後の情報収集や分析はロジックで回せる既存のAWS環境にAIエージェント等の追加コンポーネントを導入せず、今ある権限内で完結でき、環境に依存しない

✅ ：既存環境に変更ゼロ / ReadOnlyで安全実装構成 1. 人間：アラート情報をプロンプトに貼る 2. Claude
Code：自動調査を開始 (アカウントのIAMには読み取り権限を許可) 3. フォールバック：権限不足時は「追加調査手順書」を生成 • リソース特定・メトリクス取得 • ログ分析・相関関係チェック • レポート生成

実際の調査フローテキストファイル & 対話ベースの指示 1. プロンプトやファイルの準備アラート通知内容をファイルにペースト 2. Claude Code
実行ターミナルで調査開始コマンドを実行 AIが `aws cloudwatch ...` 等をCLIを自律的に実行し情報を収集 3. 成果物の生成調査結果をまとめたレポートが出力される AWSのMCPの活用により、エビデンスも自動で取得

導入成果以前の調査時間導入後の調査時間 1日所要時間 1時間調査範囲属人的網羅的で高パフォーマンス

向き合い方新たな課題と向き合い方 AI は「優秀な相方」として扱う権限のトレードオフ精度の限界設定コスト IAMは読み取り権限に絞っているため AI
だけで完結しない。セキュリティとのバランスとして割り切る。仮説が的外れなこともある。手放しにせず、人間がコンソールで裏取り確認を行う。プロンプトや機能の定義に工数がかかる。しかしプロセス言語化の投資対効果は高い。課題

まとめ：調査の自動化を実現するポイントプロセスの分解調査は定型的。プロセスを言語化する！起点を選ぶ全自動にこだわらず目的に合わせて、どこから AIに任せるか決める小さく始める目星がつくだけで
調査は速くなり効率化できる！

ご清聴ありがとうございました https://dev.classmethod.jp/author/okui-yamato/

opsmethod第1回_アラート調査の自動化にむけて

opsmethod第1回_アラート調査の自動化にむけて

OKU/YAMATO

More Decks by OKU/YAMATO

Other Decks in Technology

Featured

Transcript

アラート調査の⾃動化にむけて ~ システム異常の調査を⾃動化した知⾒を共有したい ~ クラスメソッドオペレーションズ株式会社クラウド運⽤チーム奥井⼤和

Name → 奥井大和 ( Okui Yamato ) 所属：クラスメソッド

本日のアジェンダ 1 定義：アラート調査の自動化とは 2 プロセス：どこから自動化するか？ 3 アプローチ：やってみた結果

「アラート調査の自動化」とは？システム異常の通知を受け、その根本原因を特定する作業調査・判断をAIに任せる「調査の初動と情報収集」を爆速に効率化したい：アラート調査：自動化の目標調査の図

スコープ：原因特定の効率化 STEP 1 監視ツールが異常検知 STEP 2 アラート通知 (メールやSlack等) STEP

調査のプロセスを分解してみる調査対象は違っても、やることは定型的結果の記録・次のアクション 1 最初の状況確認と判断 (サービス停止？影響範囲？) 2 対象の特定 (ID確認、構成把握) 3

通知から全自動通知 ➡ [AIが調査・分析・報告 ] ➡ 完了トリアージの後から自動通知

👉 全自動が正解とは限らない。目的に合わせて選択する。項目 A：全自動 B：トリアージ後 C：部分的速度

✅ ：既存環境に変更ゼロ / ReadOnlyで安全実装構成 1. 人間：アラート情報をプロンプトに貼る 2. Claude

実際の調査フローテキストファイル & 対話ベースの指示 1. プロンプトやファイルの準備アラート通知内容をファイルにペースト 2. Claude Code

導入成果以前の調査時間導入後の調査時間 1日所要時間 1時間調査範囲属人的網羅的で高パフォーマンス

向き合い方新たな課題と向き合い方 AI は「優秀な相方」として扱う権限のトレードオフ精度の限界設定コスト IAMは読み取り権限に絞っているため AI

まとめ：調査の自動化を実現するポイントプロセスの分解調査は定型的。プロセスを言語化する！起点を選ぶ全自動にこだわらず目的に合わせて、どこから AIに任せるか決める小さく始める目星がつくだけで

ご清聴ありがとうございました https://dev.classmethod.jp/author/okui-yamato/