Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
インシデント対応に必要となるAIの利用パターンとPagerDutyの関係
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Kazuto Kusama
June 13, 2025
Technology
420
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
インシデント対応に必要となるAIの利用パターンとPagerDutyの関係
ゆるSRE勉強会 #11 で発表した資料です
Kazuto Kusama
June 13, 2025
More Decks by Kazuto Kusama
See All by Kazuto Kusama
プラットフォームエンジニアリングはAI時代の開発者をどう救うのか
jacopen
9
5.3k
OpenClawで回す組織運営
jacopen
3
1.1k
SREの仕事を自動化する際にやっておきたい5つのポイント
jacopen
6
1.6k
AI時代のインシデント対応 〜時代を切り抜ける、組織アーキテクチャ〜
jacopen
4
390
AI時代の開発とPlatform Engineeringについて考える
jacopen
0
230
AI によってシステム障害が増える!? ~AI エージェント時代だからこそ必要な、インシデントとの向き合い方~
jacopen
4
410
今日からはじめるプラットフォームエンジニアリング
jacopen
8
5.1k
Platform Engineeringで クラウドの「楽しくない」を解消しよう
jacopen
8
2k
トラシューアニマルになろう ~開発者だからこそできる、安定したサービス作りの秘訣~
jacopen
4
6.6k
Other Decks in Technology
See All in Technology
新規ゲーム開発におけるAI駆動開発のリアル
202409e2
0
2.7k
「嘘をつくテスト」の失敗例から学ぶ 良いテストコード #frontend_phpcon_do
asumikam
0
520
AI活用を推進するために ファインディが下した、一つの小さな決断
starfish719
0
260
ABEMA の Datadog × OTel 基盤、 中から見るか? 外から見るか?
tetsuya28
0
110
タクシーアプリ『GO』の実践的データ活用
mot_techtalk
3
160
Platform Engineering as a Product: Criteria for Improvement and Multi-Tenant Design
kumorn5s
0
510
EventBridge Connection
_kensh
4
600
Building applications in the Gemini API family.
line_developers_tw
PRO
0
2k
新アーキテクチャ「TiDB X」解説とDedicated比較 TiDB Cloud Premiumのゲーム運用活用を検証
staffrecruiter
0
120
探して_入れて_作って_使う_Agent_Skills___LT.pdf
peintangos
2
170
Rubyで音を視る
ydah
1
100
Diagnosing performance problems without the guesswork
elenatanasoiu
0
170
Featured
See All Featured
Everyday Curiosity
cassininazir
0
220
How to Talk to Developers About Accessibility
jct
2
220
The agentic SEO stack - context over prompts
schlessera
0
800
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
55k
ラッコキーワード サービス紹介資料
rakko
1
3.6M
Being A Developer After 40
akosma
91
590k
Testing 201, or: Great Expectations
jmmastey
46
8.2k
The Pragmatic Product Professional
lauravandoore
37
7.3k
How To Speak Unicorn (iThemes Webinar)
marktimemedia
1
480
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
140
For a Future-Friendly Web
brad_frost
183
10k
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
1
320
Transcript
インシデント対応に必要となる AIの 利用パターンと PagerDutyの関係 PagerDuty Product Evangelist Kazuto Kusama @jacopen
Kazuto Kusama @jacopen Product Evangelist @PagerDuty Japan Organizer @Platform Engineering
Meetup Founder @Cloud Native Innovators Association
1. 検知 2. トリアージ 3. 動員 4. 協⼒/解決 5. 学習/予防
0. 備え インシデント対応フロー ここにどうAIを適用できるか
⽣成AI / AIエージェント AIOps 「AI」を区別して抑える 2017年にGartnerが提唱。 “AI for IT Operations”
の略 監視データをMLで処理し運用タスクを 自動化するのが原点 構造化テレメトリ(メトリクス、ログ、トレー ス、イベント)を入力し、アラートノイズ削 減、イベント相関・根本原因の解析を行う 2022年以降のLLMブームで登場。自然 言語を理解・生成できるLLMを中心にし た仕組み ドキュメント、Slack スレッド、インシデント タイムライン、Runbook、ソースコードな ど 非構造テキストや画像を入力として扱 える
⽣成AI / AIエージェント AIOps 「AI」を区別して抑える 大量イベントをインプット → 相関・判断 → 自動アクション
というストリーム処理パイプライン 大量のデータを素早く分析して結果を出 す、検知やトリアージのフェーズに向いて いる プロンプト →推論 →外部ツール呼び出し → 追加質問 という 対話ループ 非構造化データからインサイトを導き出 したり、言語生成によりコミュニケーショ ンに活用できる
1. 検知 2. トリアージ 3. 動員 4. 協⼒/解決 5. 学習/予防
0. 備え 障害の「検知」をAIで高度化する 各オブザーバビリティベンダーが積極的に機能を開発中 • 異常検知 • 因果分析 • インサイト • 早期アラート 主にAIOps
1. 検知 2. トリアージ 3. 動員 4. 協⼒/解決 5. 学習/予防
0. 備え 上がってきたアラートからノイズの除去を行い、対応すべ きアラートのみを抽出する。 抽出したアラートを過去の情報をもとに優先順位付けを 行う 主にAIOps
1. 検知 2. トリアージ 3. 動員 4. 協⼒/解決 5. 学習/予防
0. 備え トリアージされたアラートを元に 適切なエスカレーションを行う。 基本はルールベース ただし、これまで人間の感覚に頼ってきた「いつ誰 にエスカレーションすべきか」をAIエージェントに判 断させる。 • 所属チーム • 有給休暇 • 稼働率
原因特定 復旧 4. 協⼒/解決 コミュニケーション AIOps + LLM 大量のアラート、メトリクス、ログからの分析 (AIOps)
上記のインサイトを受けてAIエージェントが自律的に判断。次の一手を打つ その結果を受けて再度判断して・・・を繰り返し、最終的に考えられる原因を提示する
原因特定 復旧 4. 協⼒/解決 コミュニケーション LLM + Runbook 原因が判明したら、復旧に向けての取り組みを行う。 原因が既知のものであり、対処のための
Runbookが存在するのであればAIエージェン トが自動的に実行。 原因がある程度分かっているが全てではない場合、 AIエージェントが主体となって切り 分けを実行。 未知の障害の場合は人間が主体になって作業に当たる
インシデントの類型 ⼗分理解 している チームはこのシナリオを 経験済みで、何をすべきか を熟知している 100% AIと⾃動化 AIと⾃動化 +
対応者によるアシスト 対応者主導+ AIと⾃動化 部分的に 理解している チームはこのような事態を経 験済みで、潜在的な修復⼿段 を知っている。 未知で新しい 新規、または専⾨家の 注意が必要なインシデント
原因特定 復旧 4. 協⼒/解決 コミュニケーション LLM インシデント対応の半分はコミュニケーション ステークホルダー (経営陣、CS、関連チーム etc..)に
適切な粒度で適切なタイミングでコミュニケーションを取ることが重要 • ZoomやTeamsの会話を自動的に文字起こししてサマライズ • 会話やSlackログ、チケットなどの情報をまとめて対応状況の把握 • 上記の情報を元に、自動的にステークホルダーに情報を共有 LLMの強みが全力で生かせる領域
1. 検知 2. トリアージ 3. 動員 4. 協⼒/解決 5. 学習/予防
0. 備え LLM ポストモーテム・ポストインシデントレビューでも LLM は大いに活用出来る インシデントのサマリー、タイムラインの生成、根本 原因のサマリー、ネクストアクションの抽出
1. 検知 2. トリアージ 3. 動員 4. 協⼒/解決 5. 学習/予防
0. 備え Runbookの整備 原因特定や復旧をスムーズに行えるようにするための Runbookを整備しておく。過去のインシ デントや構成情報を元に手順書や FAQを整備。さらに自動化スクリプトを生成 シミュレーション/演習シナリオ作成 障害ストーリーの生成やロールプレイを生成。チャットで対話的にインシデント対応の演習を行 うことも。 このあたりもLLMの強みを発揮できる分野
PagerDuty AI Agent 通知 担当者アサイン 様々な⼿段で 応答 復旧作業案の 提⽰と実⾏ 事後報告と
改善策⽴案 診断、復旧 ジョブ⾃動実⾏ 情報収集 状況の把握 データ分析 問題の可視化 絶え間ないコミュニケーション、アクション、学習の実施を AI Agent が⽀援 インシデント 起票判断 開発者 & パートナー エコシステム PagerDuty AI Agent を活⽤した システム運⽤のライフサイクル セキュリティ コンプライアンス対応 AI 運⽤基盤 システム利⽤者への コミュニケーション 検知 トリアージ 動員 診断‧復旧 解決 サードパーティ製 Agent ⼈と AI Agent が協調してインシデント対応 アラート発⽣ AI Agent が過去データを元に初動対応 AI Agent が対応履歴を元に改善案を提⽰ 改善策の適⽤ & パートナー様の AI Agent と連携し、様々なツールと繋がる
AI Powered Incident Management Platform AI Agent を活⽤した次世代の運⽤基盤 全体像 システム
構成情報 インシデント 情報 監視データ インシデント 対応⼿順 主要な インシデント 情報 システム 変更情報 Cloud Infrastructure Monitoring - On-prem DC Monitoring - Public Cloud Security JP1 Senju Systemwalker Code/Config Management ITSM/Ticket 管理 Amazon Q Business on Amazon Bedrock PagerDuty Operations Cloud PagerDuty AI Agent Bedrock Guardrails セキュリティ保護と コンプライアンスの遵守 インシデントコマンダー∕運⽤担当者 Plug-in (標準提供) その他の 3rd party AI Agent 今後 対応予定 Web 会議や チャットの会話 データソース(DB/Document/SNS/etc.)
AIがスケジュールのバッティングや急 な欠勤などに対応し、オンコール担 当の調整が必要になったときは代わ りの人を手配 人手をかけずに、各サービスで途切 れることのない当番体制を自動的に 維持 Shift Agent
SRE Agent AIエージェントがインシデントを自動 で見つけて種類分けし、関連する過 去の障害情報などの大切な背景情 報を提示して、次にどう対応すべき かをアドバイス 対応スピードが上がり、運用費用が 下がり、対応する人の頭の負担も軽 くなる
Scribe Agent ZoomとMS Teamsの会話をリアルタ イムで取り込み 包括的で一貫した記録管理を確保 し、ナレッジ共有を向上 手動での情報収集作業が不要に インシデント後のレビューを充実さ せ、継続的な改善をサポート
Insights Agent 複雑なツール群から賢くデータを集 約して、パターンを見つけ出し、戦略 的・運用的な意思決定に役立てるイ ンサイトを提供 PagerDuty内での運用を最適化・効 率化するための推奨事項を提供
AI Agent の利⽤イメージ PagerDuty Advance の Bot が⼈と AI Agent
を繋ぐ⼀元的な窓⼝となる
None
None