Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
アラートと運用知見から始める、自律的なインシデント調査への第一歩
Search
heleeen
September 25, 2025
0
8
アラートと運用知見から始める、自律的なインシデント調査への第一歩
突撃!となりのSRE - 現場で試したAI活用事例
https://findy.connpass.com/event/368449/
heleeen
September 25, 2025
Tweet
Share
More Decks by heleeen
See All by heleeen
障害対応をちょっとずつよくしていくための 演習の作りかた
heleeen
1
3.1k
SRE のはじめ方 / DevOps と SLI/SLO #mackerelio
heleeen
0
2.5k
クリティカルユーザージャーニーを利用した SLI/SLO の改善 / #mackerelio
heleeen
11
10k
CloudNative 移行で実現した Mackerel における SaaS 開発 / Saas on AWS 2023
heleeen
0
140
Mackerel におけるTerraform 運用 / Our (Best?) Practice
heleeen
0
460
Featured
See All Featured
Thoughts on Productivity
jonyablonski
70
4.8k
Music & Morning Musume
bryan
46
6.8k
Imperfection Machines: The Place of Print at Facebook
scottboms
269
13k
Faster Mobile Websites
deanohume
310
31k
Build The Right Thing And Hit Your Dates
maggiecrowley
37
2.9k
A Tale of Four Properties
chriscoyier
160
23k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
15k
What's in a price? How to price your products and services
michaelherold
246
12k
Principles of Awesome APIs and How to Build Them.
keavy
127
17k
Designing for Performance
lara
610
69k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
8
940
Building a Scalable Design System with Sketch
lauravandoore
462
33k
Transcript
ja.mackerel.io 2025.09.25 アラートと運用知見から始める、 自律的なインシデント調査への第一歩 1 Mackerel チーム SRE テックリード 井口景子
井口 景子 (id:heleeen / @he1eeen) • 2019年9月に はてな に SRE
として入社 • 現在は Mackerel の SRE テックリード • SRE, Serverless が好き • とてもめんどくさがり 自己紹介 2
3 アラート調査って大変ですよね
4 アラート調査の大変なところ • 時を選んではくれない • アラートの原因の調べ方を知らないと, まず何を確認するのかから調 べることになる • 監視設定の背景を把握していないと,
何のために設定された監視かの 調査が始まる • その割には慣れてしまえばいつも同じ調査をしている...
5 監視設定で改善できることもあるが... • 原因の調査や監視設定の意図は監視設定の改善でも対処できる • Mackerel は監視ルールのメモで伝えられる
6 アラート調査の初動は、実はだいたい同じ • まずはとりあえず状況を把握する ◦ メトリックをより詳細に確認 ◦ ログやトレースを確認 ◦ Runbook
に類似の現象についての情報がないか確認 ◦ 他に様子の変わったメトリックがないか確認 ◦ ... • その後に障害に対処する
7 インシデント調査の自律化の最初の取り組み • この状況把握で AI に頼ることができないか? • アラートや障害調査で AI を使ってみた
◦ Mackerel の機能提供目的としてではなく, まず自分たちが AI を使っている状態にしたい
8 障害調査 with AI • AI を利用できる環境の用意 ◦ プロンプトを投げられる状態になっている •
ログ, Runbook を利用した調査結果がほしい ◦ アラートが上がったときだいたいログを見ることが多い ◦ Runbook も知見として利用したい • 結果の精度は最初は低くてもよい ◦ まずは動いている状態を作りたい • アラートを指定して指示するのはめんどうなので, アラートは 勝手に調べておいてほしい
Mastra を利用 • TypeScript で作られた AI agent framework ◦ TypeScript
で AI agent を利用する workflow が書ける 9
10 Mastra のコンソールでのプロンプト実行 プロンプト入力 Workflow の実行状況
11 Mastra Workflow の出力
12 こうなっていたい アラートの自動連携 プロンプトによる指示 AI agent で CloudWatch Logs と
Runbook を置いた S3 を利用して調査 Slack 調査結果を投稿
構成図 13 アラートを AI に連携 プロンプトで指示 AI agent で CloudWatch
Logs と Runbook を置いた S3 を利用して調査
プロンプトの実行 14 Slack bot でプロンプトを投げる / 実行結果は Slack へ投稿される Mastra
で AI agent 実行 タイムアウト対策として SQS でキュー管理
Mastra Workflow • Slack bot へ入力された質問を調査する 15
Slack bot 経由での Mastra Workflow 実行 • Mastra が返した結果は Slack
へ投稿される 16
アラートの連携 17 EventBridge でアラート連携 実行結果は Slack へ投稿される Mastra で AI
agent 実行 SQS に入れれば AI に投げれる拡張性
アラートの調査結果は自動で Slack へ投稿される • Mackerel のアラートが自動で連携されて結果も自動で投稿される 18
19 工夫 • ぱっと把握できるように, 3行のサマリーを投稿し, スレッドには 詳細を投稿
20 工夫 • ぱっと把握できるように, 3行のサマリーを投稿し スレッドには詳細を投稿
21 工夫 • Workflow の動作状況も スレッドに投稿している • 調査が進んでいそうな安心感
22 工夫 • 必要なツールのみ実行させる ◦ もともとは常にログも Runbook も調査していた ◦ Agent
はツールの調査結果を正しいと重要と判断しがちなので, 必要と思われる調査のツールのみ実行するように ◦ 関係ない結果を返しにくくなった
23 工夫 • わからないことはわからないと言わせる ◦ 妥当性が低すぎると見られなくなってしまう.... • プロンプトの実例抜粋 ↓ >
調査結果をまとめています。ユーザー入力にある、解決すべき問題に ついて分析してください > **分析における厳格なルール:** > ...... > 解決対象の問題を特定できなかった場合は、「提供された情報だけで は、解決すべき問題の特定ができません。」という旨と特定できなかっ た理由を回答し、終了する。
24 AI に障害調査を任せると... AI のやること 人間のやること • アラート発生時に即座にログと Runbook で初動調査を実行
• 調査結果の要点のサマリーと詳細を 返却 • わからないときは不明と返す 初動を高速化 定型調査を肩代わり • 何かを中断してアラート調査 • AI が返した結果を確認 • 必要に応じて追加調査と実際の対応 を実施 • Runbook の補強などで, 今後の精度 を高める 最終判断と責任は人間が担う 判断と改善に集中
25 日々のアラート調査の負荷が減った • アラート発生時に自分で調べなくても, 調査結果が得られている ◦ AI がなければ, アラートが来るたびに何かを中断して調査していたが, 調査結果をとりあえず待つ暮らしに変わった
◦ 調査結果とアラートを見て人間の初動を決められるようになった • めんどうなところを AI が肩代わりしてくれている ◦ ログを調査した結果が自動で出ていて便利 ◦ 関連する Runbook があるか自分で見なくてよい • 自分が詳しくないコンポーネントでも調査のヒントが得られる • 依存したコンポーネントも調査できるようにしたい
26 副次的効果 • 日々の意識にも影響する ◦ ログをきれいにしたい気持ちにかられる ◦ Runbook ももっと残して(生成して)いこうという気持ちになる •
Mastra の実行環境を用意する = システムと連携した AI の利用基盤が整う ◦ どんどん AI に任せていくことができる
27 最後に • 幸い本物の障害対応ではまだ活用していない.... • これは自律的インシデント調査の第一歩 ◦ インシデント調査の精度もまだ改善の余地がある ◦ もっと
AI に定型作業を任せていきたい ▪ アラートの集計とか