Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
インシデント対応に必要となるAIの利用パターンとPagerDutyの関係
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Kazuto Kusama
June 13, 2025
Technology
420
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
インシデント対応に必要となるAIの利用パターンとPagerDutyの関係
ゆるSRE勉強会 #11 で発表した資料です
Kazuto Kusama
June 13, 2025
More Decks by Kazuto Kusama
See All by Kazuto Kusama
プラットフォームエンジニアリングはAI時代の開発者をどう救うのか
jacopen
9
5.3k
OpenClawで回す組織運営
jacopen
3
1.1k
SREの仕事を自動化する際にやっておきたい5つのポイント
jacopen
6
1.6k
AI時代のインシデント対応 〜時代を切り抜ける、組織アーキテクチャ〜
jacopen
4
390
AI時代の開発とPlatform Engineeringについて考える
jacopen
0
230
AI によってシステム障害が増える!? ~AI エージェント時代だからこそ必要な、インシデントとの向き合い方~
jacopen
4
410
今日からはじめるプラットフォームエンジニアリング
jacopen
8
5.1k
Platform Engineeringで クラウドの「楽しくない」を解消しよう
jacopen
8
2k
トラシューアニマルになろう ~開発者だからこそできる、安定したサービス作りの秘訣~
jacopen
4
6.6k
Other Decks in Technology
See All in Technology
Agentic Web
dynamis
1
160
Sony_KMP_Journey_KotlinConf2026
sony
2
210
AIプラットフォームを運用し続けるための可観測性
tanimuyk
4
1.1k
もりもり新機能を一挙紹介! AgentCoreに入門して、AWS上にAIエージェントを構築しよう
minorun365
PRO
6
840
ポケモンの型をTypeScriptの型システムで表現してみた
subroh0508
0
340
サプライチェーンセキュリティの空白地帯 - 信頼できる”依存性”の未来を考える
rung
PRO
2
740
LLMを「主役」にしないための 3つの原則
techtekt
PRO
0
120
個人の発見を、組織の知恵に 〜生成AI活用を"探索"から"組織の仕組み"へ〜
kintotechdev
2
1k
運用を見据えたAIエージェント設計実践
amacbee
1
3.1k
AI Engineering Summit Tokyo 2026 AIの前に、やることがある 〜医療データ企業の4フェーズ〜
dtaniwaki
0
2k
探して_入れて_作って_使う_Agent_Skills___LT.pdf
peintangos
2
160
EventBridge Connection
_kensh
4
590
Featured
See All Featured
Paper Plane
katiecoart
PRO
1
51k
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
Imperfection Machines: The Place of Print at Facebook
scottboms
270
14k
Impact Scores and Hybrid Strategies: The future of link building
tamaranovitovic
0
300
Site-Speed That Sticks
csswizardry
13
1.2k
Agile Actions for Facilitating Distributed Teams - ADO2019
mkilby
0
200
Navigating Team Friction
lara
192
16k
Context Engineering - Making Every Token Count
addyosmani
9
940
Design of three-dimensional binary manipulators for pick-and-place task avoiding obstacles (IECON2024)
konakalab
0
440
Visualization
eitanlees
152
17k
The untapped power of vector embeddings
frankvandijk
2
1.7k
How to build a perfect <img>
jonoalderson
1
5.6k
Transcript
インシデント対応に必要となる AIの 利用パターンと PagerDutyの関係 PagerDuty Product Evangelist Kazuto Kusama @jacopen
Kazuto Kusama @jacopen Product Evangelist @PagerDuty Japan Organizer @Platform Engineering
Meetup Founder @Cloud Native Innovators Association
1. 検知 2. トリアージ 3. 動員 4. 協⼒/解決 5. 学習/予防
0. 備え インシデント対応フロー ここにどうAIを適用できるか
⽣成AI / AIエージェント AIOps 「AI」を区別して抑える 2017年にGartnerが提唱。 “AI for IT Operations”
の略 監視データをMLで処理し運用タスクを 自動化するのが原点 構造化テレメトリ(メトリクス、ログ、トレー ス、イベント)を入力し、アラートノイズ削 減、イベント相関・根本原因の解析を行う 2022年以降のLLMブームで登場。自然 言語を理解・生成できるLLMを中心にし た仕組み ドキュメント、Slack スレッド、インシデント タイムライン、Runbook、ソースコードな ど 非構造テキストや画像を入力として扱 える
⽣成AI / AIエージェント AIOps 「AI」を区別して抑える 大量イベントをインプット → 相関・判断 → 自動アクション
というストリーム処理パイプライン 大量のデータを素早く分析して結果を出 す、検知やトリアージのフェーズに向いて いる プロンプト →推論 →外部ツール呼び出し → 追加質問 という 対話ループ 非構造化データからインサイトを導き出 したり、言語生成によりコミュニケーショ ンに活用できる
1. 検知 2. トリアージ 3. 動員 4. 協⼒/解決 5. 学習/予防
0. 備え 障害の「検知」をAIで高度化する 各オブザーバビリティベンダーが積極的に機能を開発中 • 異常検知 • 因果分析 • インサイト • 早期アラート 主にAIOps
1. 検知 2. トリアージ 3. 動員 4. 協⼒/解決 5. 学習/予防
0. 備え 上がってきたアラートからノイズの除去を行い、対応すべ きアラートのみを抽出する。 抽出したアラートを過去の情報をもとに優先順位付けを 行う 主にAIOps
1. 検知 2. トリアージ 3. 動員 4. 協⼒/解決 5. 学習/予防
0. 備え トリアージされたアラートを元に 適切なエスカレーションを行う。 基本はルールベース ただし、これまで人間の感覚に頼ってきた「いつ誰 にエスカレーションすべきか」をAIエージェントに判 断させる。 • 所属チーム • 有給休暇 • 稼働率
原因特定 復旧 4. 協⼒/解決 コミュニケーション AIOps + LLM 大量のアラート、メトリクス、ログからの分析 (AIOps)
上記のインサイトを受けてAIエージェントが自律的に判断。次の一手を打つ その結果を受けて再度判断して・・・を繰り返し、最終的に考えられる原因を提示する
原因特定 復旧 4. 協⼒/解決 コミュニケーション LLM + Runbook 原因が判明したら、復旧に向けての取り組みを行う。 原因が既知のものであり、対処のための
Runbookが存在するのであればAIエージェン トが自動的に実行。 原因がある程度分かっているが全てではない場合、 AIエージェントが主体となって切り 分けを実行。 未知の障害の場合は人間が主体になって作業に当たる
インシデントの類型 ⼗分理解 している チームはこのシナリオを 経験済みで、何をすべきか を熟知している 100% AIと⾃動化 AIと⾃動化 +
対応者によるアシスト 対応者主導+ AIと⾃動化 部分的に 理解している チームはこのような事態を経 験済みで、潜在的な修復⼿段 を知っている。 未知で新しい 新規、または専⾨家の 注意が必要なインシデント
原因特定 復旧 4. 協⼒/解決 コミュニケーション LLM インシデント対応の半分はコミュニケーション ステークホルダー (経営陣、CS、関連チーム etc..)に
適切な粒度で適切なタイミングでコミュニケーションを取ることが重要 • ZoomやTeamsの会話を自動的に文字起こししてサマライズ • 会話やSlackログ、チケットなどの情報をまとめて対応状況の把握 • 上記の情報を元に、自動的にステークホルダーに情報を共有 LLMの強みが全力で生かせる領域
1. 検知 2. トリアージ 3. 動員 4. 協⼒/解決 5. 学習/予防
0. 備え LLM ポストモーテム・ポストインシデントレビューでも LLM は大いに活用出来る インシデントのサマリー、タイムラインの生成、根本 原因のサマリー、ネクストアクションの抽出
1. 検知 2. トリアージ 3. 動員 4. 協⼒/解決 5. 学習/予防
0. 備え Runbookの整備 原因特定や復旧をスムーズに行えるようにするための Runbookを整備しておく。過去のインシ デントや構成情報を元に手順書や FAQを整備。さらに自動化スクリプトを生成 シミュレーション/演習シナリオ作成 障害ストーリーの生成やロールプレイを生成。チャットで対話的にインシデント対応の演習を行 うことも。 このあたりもLLMの強みを発揮できる分野
PagerDuty AI Agent 通知 担当者アサイン 様々な⼿段で 応答 復旧作業案の 提⽰と実⾏ 事後報告と
改善策⽴案 診断、復旧 ジョブ⾃動実⾏ 情報収集 状況の把握 データ分析 問題の可視化 絶え間ないコミュニケーション、アクション、学習の実施を AI Agent が⽀援 インシデント 起票判断 開発者 & パートナー エコシステム PagerDuty AI Agent を活⽤した システム運⽤のライフサイクル セキュリティ コンプライアンス対応 AI 運⽤基盤 システム利⽤者への コミュニケーション 検知 トリアージ 動員 診断‧復旧 解決 サードパーティ製 Agent ⼈と AI Agent が協調してインシデント対応 アラート発⽣ AI Agent が過去データを元に初動対応 AI Agent が対応履歴を元に改善案を提⽰ 改善策の適⽤ & パートナー様の AI Agent と連携し、様々なツールと繋がる
AI Powered Incident Management Platform AI Agent を活⽤した次世代の運⽤基盤 全体像 システム
構成情報 インシデント 情報 監視データ インシデント 対応⼿順 主要な インシデント 情報 システム 変更情報 Cloud Infrastructure Monitoring - On-prem DC Monitoring - Public Cloud Security JP1 Senju Systemwalker Code/Config Management ITSM/Ticket 管理 Amazon Q Business on Amazon Bedrock PagerDuty Operations Cloud PagerDuty AI Agent Bedrock Guardrails セキュリティ保護と コンプライアンスの遵守 インシデントコマンダー∕運⽤担当者 Plug-in (標準提供) その他の 3rd party AI Agent 今後 対応予定 Web 会議や チャットの会話 データソース(DB/Document/SNS/etc.)
AIがスケジュールのバッティングや急 な欠勤などに対応し、オンコール担 当の調整が必要になったときは代わ りの人を手配 人手をかけずに、各サービスで途切 れることのない当番体制を自動的に 維持 Shift Agent
SRE Agent AIエージェントがインシデントを自動 で見つけて種類分けし、関連する過 去の障害情報などの大切な背景情 報を提示して、次にどう対応すべき かをアドバイス 対応スピードが上がり、運用費用が 下がり、対応する人の頭の負担も軽 くなる
Scribe Agent ZoomとMS Teamsの会話をリアルタ イムで取り込み 包括的で一貫した記録管理を確保 し、ナレッジ共有を向上 手動での情報収集作業が不要に インシデント後のレビューを充実さ せ、継続的な改善をサポート
Insights Agent 複雑なツール群から賢くデータを集 約して、パターンを見つけ出し、戦略 的・運用的な意思決定に役立てるイ ンサイトを提供 PagerDuty内での運用を最適化・効 率化するための推奨事項を提供
AI Agent の利⽤イメージ PagerDuty Advance の Bot が⼈と AI Agent
を繋ぐ⼀元的な窓⼝となる
None
None