Upgrade to Pro — share decks privately, control downloads, hide ads and more …

opsmethod第1回_アラート調査の自動化にむけて

Sponsored · SiteGround - Reliable hosting with speed, security, and support you can count on.
Avatar for OKU/YAMATO OKU/YAMATO
February 23, 2026

 opsmethod第1回_アラート調査の自動化にむけて

2026年2月13日(金)に開催されたopsmethodの登壇資料

Avatar for OKU/YAMATO

OKU/YAMATO

February 23, 2026
Tweet

More Decks by OKU/YAMATO

Other Decks in Technology

Transcript

  1. Name → 奥井 大和 ( Okui Yamato ) 所属: クラスメソッド

    オペレーションズ株式会社 クラウド運用チーム 主な業務: お客様のAWS環境の運用・保守 日々のアラート対応と障害調査 最近買って良かったもの: パネルヒーター 足元を温めてQOLの向上 自己紹介
  2. スコープ: 原因特定の効率化 STEP 1 監視ツールが異常検知 STEP 2 アラート通知 (メールやSlack等) STEP

    3 調査 (ここを自動化したい) STEP 4 改善対応 (修復や予防などのアクション) 本件で目指すところ アラート起点の調査の STEP
  3. 調査のプロセスを分解してみる 調査対象は違っても、やることは定型的 結果の記録・次のアクション 1 最初の状況確認と判断 (サービス停止?影響範囲?) 2 対象の特定 (ID確認、構成把握) 3

    情報収集 (メトリクス、ログ、CloudTrail) 4 分析・原因の切り分け (しきい値判定、相関分析) 5 関連する影響の確認 (同システムの他サービスへの波及) 6 STEP 3 今日は トリアージ と呼ばせて
  4. 通知から全自動 通知 ➡ [AIが調査・分析・報告 ] ➡ 完了 トリアージの 後から自動 通知

    ➡ [人間が判断 ] ➡ [AIが調査 開始] ➡ 完了 部分的にAI利用 [人間] ➡ [AIでログ要約 ] ➡ [人間] ➡ ... 自動化の起点はどこにする? A B C 主要な3パターン
  5. 👉 全自動が正解とは限らない。目的に合わせて選択する。 項目 A: 全自動 B: トリアージ後 C: 部分的 速度

    最速 数分のロス 遅い 精度 誤検知リスク 人間が要否判断 都度判断 導入コスト 高い (構築など) 中程度 低い 環境影響 システム変更あり 最小限 なし 各パターンの比較
  6. ✅ :既存環境に変更ゼロ / ReadOnlyで安全 実装構成 1. 人間: アラート情報をプロンプトに貼る 2. Claude

    Code: 自動調査を開始 (アカウントのIAMには読み取り権限を 許可) 3. フォールバック: 権限不足時は 「追加調査手順書」 を生成 • リソース特定・メトリクス取得 • ログ分析・相関関係チェック • レポート生成
  7. 実際の調査フロー テキストファイル & 対話ベースの指示 1. プロンプトやファイルの準備 アラート通知内容をファイルにペースト 2. Claude Code

    実行 ターミナルで調査開始コマンドを実行 AIが `aws cloudwatch ...` 等をCLIを自律的に実行し情報を収集 3. 成果物の生成 調査結果をまとめたレポートが出力される AWSのMCPの活用により、エビデンスも自動で取得
  8. 向き合い方 新たな課題と向き合い方 AI は「優秀な相方」として扱う 権限のトレードオフ 精度の限界 設定コスト IAMは読み取り権限に 絞っているため AI

    だけで 完結しない。 セキュリティとのバランスとして 割り切る。 仮説が的外れなこともある。 手放しにせず、 人間がコンソールで 裏取り確認を行う。 プロンプトや機能の 定義に工数がかかる。 しかしプロセス言語化の 投資対効果は高い。 課題