Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
インシデント対応に必要となるAIの利用パターンとPagerDutyの関係
Search
Kazuto Kusama
June 13, 2025
Technology
420
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
インシデント対応に必要となるAIの利用パターンとPagerDutyの関係
ゆるSRE勉強会 #11 で発表した資料です
Kazuto Kusama
June 13, 2025
More Decks by Kazuto Kusama
See All by Kazuto Kusama
プラットフォームエンジニアリングはAI時代の開発者をどう救うのか
jacopen
9
5.3k
OpenClawで回す組織運営
jacopen
3
1.1k
SREの仕事を自動化する際にやっておきたい5つのポイント
jacopen
6
1.6k
AI時代のインシデント対応 〜時代を切り抜ける、組織アーキテクチャ〜
jacopen
4
390
AI時代の開発とPlatform Engineeringについて考える
jacopen
0
230
AI によってシステム障害が増える!? ~AI エージェント時代だからこそ必要な、インシデントとの向き合い方~
jacopen
4
410
今日からはじめるプラットフォームエンジニアリング
jacopen
8
5.1k
Platform Engineeringで クラウドの「楽しくない」を解消しよう
jacopen
8
2k
トラシューアニマルになろう ~開発者だからこそできる、安定したサービス作りの秘訣~
jacopen
4
6.6k
Other Decks in Technology
See All in Technology
Rancherの紹介&Update情報(RancherJP Online Meetup #09)
yoshiyuki_kono
0
120
マーケットプレイス版Oracle WebCenter Content For OCI
oracle4engineer
PRO
5
1.8k
React、まだ楽しくて草
uhyo
7
4.1k
Terraformモジュールは、なぜ「魔境」化するのか
hayama17
1
210
DevOps Agentで始めるAWS運用 〜フロンティアエージェントが変える運用の現場〜
nyankotaro
1
270
「コーディング」しない人のための Claude Code 入門 ChatGPT の次の一歩 — 業務に組み込む 育成・共有・自動化
rfdnxbro
2
1.2k
AI駆動開発が変える、大規模開発の前提 ーHuman in the Loop から Human on the Loop へ / AIE2026
visional_engineering_and_design
24
13k
Claude Codeを組織で使いこなす— サーバサイドAIエージェント運用の実践知
techtekt
PRO
0
210
LLMと共に進化するプロセスを目指して
ymatsuwitter
12
3.4k
Databricks における 生成AIガバナンスの実践
taka_aki
1
330
新規事業を牽引する技術選定 〜フルスタックTypeScript開発の実践事例〜
nullnull
3
360
速さだけじゃない! VoidZero ツールが移行先に選ばれる理由
mizdra
PRO
6
760
Featured
See All Featured
How Fast Is Fast Enough? [PerfNow 2025]
tammyeverts
3
600
From π to Pie charts
rasagy
0
200
AI: The stuff that nobody shows you
jnunemaker
PRO
8
690
How to build a perfect <img>
jonoalderson
1
5.6k
Ethics towards AI in product and experience design
skipperchong
2
300
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.5k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
360
30k
Beyond borders and beyond the search box: How to win the global "messy middle" with AI-driven SEO
davidcarrasco
3
150
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.4k
How to Think Like a Performance Engineer
csswizardry
28
2.6k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
38
2.9k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
Transcript
インシデント対応に必要となる AIの 利用パターンと PagerDutyの関係 PagerDuty Product Evangelist Kazuto Kusama @jacopen
Kazuto Kusama @jacopen Product Evangelist @PagerDuty Japan Organizer @Platform Engineering
Meetup Founder @Cloud Native Innovators Association
1. 検知 2. トリアージ 3. 動員 4. 協⼒/解決 5. 学習/予防
0. 備え インシデント対応フロー ここにどうAIを適用できるか
⽣成AI / AIエージェント AIOps 「AI」を区別して抑える 2017年にGartnerが提唱。 “AI for IT Operations”
の略 監視データをMLで処理し運用タスクを 自動化するのが原点 構造化テレメトリ(メトリクス、ログ、トレー ス、イベント)を入力し、アラートノイズ削 減、イベント相関・根本原因の解析を行う 2022年以降のLLMブームで登場。自然 言語を理解・生成できるLLMを中心にし た仕組み ドキュメント、Slack スレッド、インシデント タイムライン、Runbook、ソースコードな ど 非構造テキストや画像を入力として扱 える
⽣成AI / AIエージェント AIOps 「AI」を区別して抑える 大量イベントをインプット → 相関・判断 → 自動アクション
というストリーム処理パイプライン 大量のデータを素早く分析して結果を出 す、検知やトリアージのフェーズに向いて いる プロンプト →推論 →外部ツール呼び出し → 追加質問 という 対話ループ 非構造化データからインサイトを導き出 したり、言語生成によりコミュニケーショ ンに活用できる
1. 検知 2. トリアージ 3. 動員 4. 協⼒/解決 5. 学習/予防
0. 備え 障害の「検知」をAIで高度化する 各オブザーバビリティベンダーが積極的に機能を開発中 • 異常検知 • 因果分析 • インサイト • 早期アラート 主にAIOps
1. 検知 2. トリアージ 3. 動員 4. 協⼒/解決 5. 学習/予防
0. 備え 上がってきたアラートからノイズの除去を行い、対応すべ きアラートのみを抽出する。 抽出したアラートを過去の情報をもとに優先順位付けを 行う 主にAIOps
1. 検知 2. トリアージ 3. 動員 4. 協⼒/解決 5. 学習/予防
0. 備え トリアージされたアラートを元に 適切なエスカレーションを行う。 基本はルールベース ただし、これまで人間の感覚に頼ってきた「いつ誰 にエスカレーションすべきか」をAIエージェントに判 断させる。 • 所属チーム • 有給休暇 • 稼働率
原因特定 復旧 4. 協⼒/解決 コミュニケーション AIOps + LLM 大量のアラート、メトリクス、ログからの分析 (AIOps)
上記のインサイトを受けてAIエージェントが自律的に判断。次の一手を打つ その結果を受けて再度判断して・・・を繰り返し、最終的に考えられる原因を提示する
原因特定 復旧 4. 協⼒/解決 コミュニケーション LLM + Runbook 原因が判明したら、復旧に向けての取り組みを行う。 原因が既知のものであり、対処のための
Runbookが存在するのであればAIエージェン トが自動的に実行。 原因がある程度分かっているが全てではない場合、 AIエージェントが主体となって切り 分けを実行。 未知の障害の場合は人間が主体になって作業に当たる
インシデントの類型 ⼗分理解 している チームはこのシナリオを 経験済みで、何をすべきか を熟知している 100% AIと⾃動化 AIと⾃動化 +
対応者によるアシスト 対応者主導+ AIと⾃動化 部分的に 理解している チームはこのような事態を経 験済みで、潜在的な修復⼿段 を知っている。 未知で新しい 新規、または専⾨家の 注意が必要なインシデント
原因特定 復旧 4. 協⼒/解決 コミュニケーション LLM インシデント対応の半分はコミュニケーション ステークホルダー (経営陣、CS、関連チーム etc..)に
適切な粒度で適切なタイミングでコミュニケーションを取ることが重要 • ZoomやTeamsの会話を自動的に文字起こししてサマライズ • 会話やSlackログ、チケットなどの情報をまとめて対応状況の把握 • 上記の情報を元に、自動的にステークホルダーに情報を共有 LLMの強みが全力で生かせる領域
1. 検知 2. トリアージ 3. 動員 4. 協⼒/解決 5. 学習/予防
0. 備え LLM ポストモーテム・ポストインシデントレビューでも LLM は大いに活用出来る インシデントのサマリー、タイムラインの生成、根本 原因のサマリー、ネクストアクションの抽出
1. 検知 2. トリアージ 3. 動員 4. 協⼒/解決 5. 学習/予防
0. 備え Runbookの整備 原因特定や復旧をスムーズに行えるようにするための Runbookを整備しておく。過去のインシ デントや構成情報を元に手順書や FAQを整備。さらに自動化スクリプトを生成 シミュレーション/演習シナリオ作成 障害ストーリーの生成やロールプレイを生成。チャットで対話的にインシデント対応の演習を行 うことも。 このあたりもLLMの強みを発揮できる分野
PagerDuty AI Agent 通知 担当者アサイン 様々な⼿段で 応答 復旧作業案の 提⽰と実⾏ 事後報告と
改善策⽴案 診断、復旧 ジョブ⾃動実⾏ 情報収集 状況の把握 データ分析 問題の可視化 絶え間ないコミュニケーション、アクション、学習の実施を AI Agent が⽀援 インシデント 起票判断 開発者 & パートナー エコシステム PagerDuty AI Agent を活⽤した システム運⽤のライフサイクル セキュリティ コンプライアンス対応 AI 運⽤基盤 システム利⽤者への コミュニケーション 検知 トリアージ 動員 診断‧復旧 解決 サードパーティ製 Agent ⼈と AI Agent が協調してインシデント対応 アラート発⽣ AI Agent が過去データを元に初動対応 AI Agent が対応履歴を元に改善案を提⽰ 改善策の適⽤ & パートナー様の AI Agent と連携し、様々なツールと繋がる
AI Powered Incident Management Platform AI Agent を活⽤した次世代の運⽤基盤 全体像 システム
構成情報 インシデント 情報 監視データ インシデント 対応⼿順 主要な インシデント 情報 システム 変更情報 Cloud Infrastructure Monitoring - On-prem DC Monitoring - Public Cloud Security JP1 Senju Systemwalker Code/Config Management ITSM/Ticket 管理 Amazon Q Business on Amazon Bedrock PagerDuty Operations Cloud PagerDuty AI Agent Bedrock Guardrails セキュリティ保護と コンプライアンスの遵守 インシデントコマンダー∕運⽤担当者 Plug-in (標準提供) その他の 3rd party AI Agent 今後 対応予定 Web 会議や チャットの会話 データソース(DB/Document/SNS/etc.)
AIがスケジュールのバッティングや急 な欠勤などに対応し、オンコール担 当の調整が必要になったときは代わ りの人を手配 人手をかけずに、各サービスで途切 れることのない当番体制を自動的に 維持 Shift Agent
SRE Agent AIエージェントがインシデントを自動 で見つけて種類分けし、関連する過 去の障害情報などの大切な背景情 報を提示して、次にどう対応すべき かをアドバイス 対応スピードが上がり、運用費用が 下がり、対応する人の頭の負担も軽 くなる
Scribe Agent ZoomとMS Teamsの会話をリアルタ イムで取り込み 包括的で一貫した記録管理を確保 し、ナレッジ共有を向上 手動での情報収集作業が不要に インシデント後のレビューを充実さ せ、継続的な改善をサポート
Insights Agent 複雑なツール群から賢くデータを集 約して、パターンを見つけ出し、戦略 的・運用的な意思決定に役立てるイ ンサイトを提供 PagerDuty内での運用を最適化・効 率化するための推奨事項を提供
AI Agent の利⽤イメージ PagerDuty Advance の Bot が⼈と AI Agent
を繋ぐ⼀元的な窓⼝となる
None
None