Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
opsmethod第1回_アラート調査の自動化にむけて
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
OKU/YAMATO
February 23, 2026
Technology
1
360
opsmethod第1回_アラート調査の自動化にむけて
2026年2月13日(金)に開催されたopsmethodの登壇資料
OKU/YAMATO
February 23, 2026
Tweet
Share
More Decks by OKU/YAMATO
See All by OKU/YAMATO
DevelopersIO2025Osaka_システムの運用監視の効率をAIを使って上げる
yamatook
2
600
Other Decks in Technology
See All in Technology
製造業ドメインにおける LLMプロダクト構築: 複雑な文脈へのアプローチ
caddi_eng
1
560
元エンジニアPdM、IDEが恋しすぎてCursorに全業務を集約したら、スライド作成まで爆速になった話
doiko123
1
610
IBM Bobを使って、PostgreSQLのToDoアプリをDb2へ変換してみよう/202603_Dojo_Bob
mayumihirano
1
330
Claude Code のコード品質がばらつくので AI に品質保証させる仕組みを作った話 / A story about building a mechanism to have AI ensure quality, because the code quality from Claude Code was inconsistent
nrslib
13
7.2k
AWSの資格って役に立つの?
tk3fftk
1
300
決済サービスを支えるElastic Cloud - Elastic Cloudの導入と推進、決済サービスのObservability
suzukij
2
620
Keycloak を使った SSO で CockroachDB にログインする / CockroachDB SSO with Keycloak
kota2and3kan
0
100
Oracle Database@Azure:サービス概要のご紹介
oracle4engineer
PRO
4
1.2k
SRE NEXT 2026 CfP レビュアーが語る聞きたくなるプロポーザルとは?
yutakawasaki0911
1
270
AI時代のSaaSとETL
shoe116
1
130
新職業『オーケストレーター』誕生 — エージェント10体を同時に回すAgentOps
gunta
4
1.8k
8万デプロイ
iwamot
PRO
2
230
Featured
See All Featured
AI Search: Where Are We & What Can We Do About It?
aleyda
0
7.1k
Navigating the Design Leadership Dip - Product Design Week Design Leaders+ Conference 2024
apolaine
0
220
Building AI with AI
inesmontani
PRO
1
790
Bridging the Design Gap: How Collaborative Modelling removes blockers to flow between stakeholders and teams @FastFlow conf
baasie
0
480
Technical Leadership for Architectural Decision Making
baasie
3
290
Testing 201, or: Great Expectations
jmmastey
46
8.1k
Paper Plane (Part 1)
katiecoart
PRO
0
5.5k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
16k
Faster Mobile Websites
deanohume
310
31k
A brief & incomplete history of UX Design for the World Wide Web: 1989–2019
jct
1
320
Building Flexible Design Systems
yeseniaperezcruz
330
40k
Getting science done with accelerated Python computing platforms
jacobtomlinson
2
140
Transcript
アラート調査の⾃動化にむけて ~ システム異常の調査を⾃動化した知⾒を共有したい ~ クラスメソッドオペレーションズ株式会社 クラウド運⽤チーム 奥井 ⼤和
Name → 奥井 大和 ( Okui Yamato ) 所属: クラスメソッド
オペレーションズ株式会社 クラウド運用チーム 主な業務: お客様のAWS環境の運用・保守 日々のアラート対応と障害調査 最近買って良かったもの: パネルヒーター 足元を温めてQOLの向上 自己紹介
本日のアジェンダ 1 定義:アラート調査の自動化とは 2 プロセス: どこから自動化するか? 3 アプローチ: やってみた結果
「アラート調査の自動化」とは? システム異常の通知を受け、その根本原因を特 定する作業 調査・判断をAIに任せる 「調査の初動と情報収集」を 爆速に効率化したい :アラート調査 :自動化の目標 調査の図
スコープ: 原因特定の効率化 STEP 1 監視ツールが異常検知 STEP 2 アラート通知 (メールやSlack等) STEP
3 調査 (ここを自動化したい) STEP 4 改善対応 (修復や予防などのアクション) 本件で目指すところ アラート起点の調査の STEP
"毎回似たプロセスで調査していないか? 対象環境やリソースが違うだけで、 やることは同じなのでは?" 仮説:調査のアクションをロジックは共通 「何をしたいか」さえ明確に指示すれば、 AIに任せられる。 なぜ自動化しようと思ったか、経緯
調査のプロセスを分解してみる 調査対象は違っても、やることは定型的 結果の記録・次のアクション 1 最初の状況確認と判断 (サービス停止?影響範囲?) 2 対象の特定 (ID確認、構成把握) 3
情報収集 (メトリクス、ログ、CloudTrail) 4 分析・原因の切り分け (しきい値判定、相関分析) 5 関連する影響の確認 (同システムの他サービスへの波及) 6 STEP 3 今日は トリアージ と呼ばせて
通知から全自動 通知 ➡ [AIが調査・分析・報告 ] ➡ 完了 トリアージの 後から自動 通知
➡ [人間が判断 ] ➡ [AIが調査 開始] ➡ 完了 部分的にAI利用 [人間] ➡ [AIでログ要約 ] ➡ [人間] ➡ ... 自動化の起点はどこにする? A B C 主要な3パターン
👉 全自動が正解とは限らない。目的に合わせて選択する。 項目 A: 全自動 B: トリアージ後 C: 部分的 速度
最速 数分のロス 遅い 精度 誤検知リスク 人間が要否判断 都度判断 導入コスト 高い (構築など) 中程度 低い 環境影響 システム変更あり 最小限 なし 各パターンの比較
私は「B: トリアージ後から自動」を選択 理由:最適なバランス 「サービスが止まっているか」「ユーザー影響はあるか」の重大な判断は人間が担いたい 対象さえ特定できれば、その後の情報収集や分析はロジックで回せる 既存のAWS環境にAIエージェント等の追加コンポーネントを導入せず、 今ある権限内で完結でき、環境に依存しない
✅ :既存環境に変更ゼロ / ReadOnlyで安全 実装構成 1. 人間: アラート情報をプロンプトに貼る 2. Claude
Code: 自動調査を開始 (アカウントのIAMには読み取り権限を 許可) 3. フォールバック: 権限不足時は 「追加調査手順書」 を生成 • リソース特定・メトリクス取得 • ログ分析・相関関係チェック • レポート生成
実際の調査フロー テキストファイル & 対話ベースの指示 1. プロンプトやファイルの準備 アラート通知内容をファイルにペースト 2. Claude Code
実行 ターミナルで調査開始コマンドを実行 AIが `aws cloudwatch ...` 等をCLIを自律的に実行し情報を収集 3. 成果物の生成 調査結果をまとめたレポートが出力される AWSのMCPの活用により、エビデンスも自動で取得
導入成果 以前の調査時間 導入後の調査時間 1日 所要時間 1時間 調査範囲 属人的 網羅的で高パフォーマンス
向き合い方 新たな課題と向き合い方 AI は「優秀な相方」として扱う 権限のトレードオフ 精度の限界 設定コスト IAMは読み取り権限に 絞っているため AI
だけで 完結しない。 セキュリティとのバランスとして 割り切る。 仮説が的外れなこともある。 手放しにせず、 人間がコンソールで 裏取り確認を行う。 プロンプトや機能の 定義に工数がかかる。 しかしプロセス言語化の 投資対効果は高い。 課題
まとめ:調査の自動化を実現するポイント プロセスの分解 調査は定型的。 プロセスを言語化する! 起点を選ぶ 全自動にこだわらず 目的に合わせて、どこから AIに任せるか決める 小さく始める 目星がつくだけで
調査は速くなり 効率化できる!
ご清聴ありがとうございました https://dev.classmethod.jp/author/okui-yamato/