SREの仕事を自動化する際にやっておきたい5つのポイント

SREの仕事を自動化する際にやっておきたい 5つのポイント PagerDuty Product Evangelist Kazuto Kusama @jacopen

Kazuto Kusama @jacopen Product Evangelist @PagerDuty Japan Organizer @Platform Engineering
Meetup Founder @Cloud Native Innovators Association 先週末は延べ20時間くらいClawdbot触ってましたおかげでこの資料が完成したのは 30分前です

2025年 AIエージェント元年

2026年システム運用でも AIエージェントが普及

AI Agent for system operations - PagerDuty SRE Agent -
Azure SRE Agent - AWS DevOps Agent 運用現場の「AIチームメイト」として機能する時代へ

PagerDuty AI エージェント - インサイトからアクションまで - エージェントがより良く、早く、スマートに業務を⽀援 PagerDuty AI エージェントに含まれるエージェント⼀覧
SRE エージェント運⽤上の問題を特定して分類し、関連する過去のインシデントなどの重要なコンテキストを浮き彫りにし、対応者に解決を早めるための推奨事項を提⽰することにより、業務の中断によって引き起こされるビジネスリスクを軽減し、顧客体験を向上 Insight エージェント組織内で使われているツール全体のデータを分析し、戦略的な運⽤判断に必要な情報を特定し、運⽤⼿順とビジネスの効率を継続的に改善 Shift エージェントオンコールシフトを動的に調整して、スケジュールや空き時間の競合を未然に防ぎ、インシデント担当者のカバレッジを確保することで、迅速なインシデント解決を促進し、運⽤コストの削減と顧客影響の最⼩化を図る Scribe エージェント Web 会議での会話内容をリアルタイムに整理、分析し、必要なアクションを特定し、内容をサマリーして提供することにより、インシデント解決の迅速化と関係者への情報共有を促進インシデント対応プロセスの改善 On-call 対応スケジュールの調整インシデント対応中の右腕役インシデント対応の筆記担当者⽇本語対応済み⽇本語対応予定⽇本語対応予定⽇本語対応済み

AIエージェントができることインシデント対応の高度化 - 過去の類似インシデント・変更履歴の自動提示 - 原因候補の分析・復旧策の提案アラートの自動トリアージ - ノイズ低減・重要シグナルの抽出 -
関連アラートの自動グルーピング復旧作業の自動化 - スケールアップ、再起動、ロールバック - 承認ベースの自動スクリプト実行

AIを入れれば全て解決？

そんな魔法はない

インシデントも AIで対処すればいいなんて考えは甘えアーキテクチャ Conference資料より

「システム障害で混乱がおきるので、AIで何とかしよう」 (インシデントの元となる ) システム障害が起きると社内に混乱が起きるから、それを防ぐ為に AIを活用したい。＝技術的な問題だから、技術で対応しようとしている
CIO 一体どうなってるんだ! 現状を教えてください！今何が起きてるの！スココンスココンアラート動かない！ユーザー担当別チームユーザーシステム障害で社内に混乱が起きている様子

混乱が続くとどうなるか

「システム障害で混乱がおきるので、AIで何とかしよう」 (インシデントの元となる ) システム障害が起きると社内に混乱が起きるから、それを防ぐ為に AIを活用したい＝技術的な問題だから、技術で対応しようとしている
CIO 一体どうなってるんだ! 現状を教えてください！今何が起きてるの！スココンスココンアラート動かない！ユーザー担当別チームユーザーシステム障害で社内に混乱が起きている様子混乱を起こしているのは誰？

障害は技術的に、混乱は構造的に生まれる • 技術的な障害（Failure）はシステムの設計不備や未知の条件から発生する。 • しかし“混乱”（Chaos）は、情報の流れ・意思決定の経路・責任の所在が曖昧な組織構造から生じる。
• つまり障害そのものよりも対応中の構造が組織全体を危機に陥れる。 CIO 一体どうなってるんだ! 現状を教えてください！今何が起きてるの！スココンスココンアラート動かない！ユーザー担当別チームユーザー障害 = 技術の問題混乱 = 組織アーキテクチャの問題

SREの仕事を自動化する際にやっておきたい 5つのポイント

① 「見えていること」を前提とするオブザーバビリティは AI以前の必須条件オブザーバビリティができていないと、 AIは "何も見えていない" - Traces -
Metrics - Logs 観測可能にするには計装（ instrumentation）が必要で、コードが traces/metrics/logs を出す必要がある

例: PagerDuty SRE Agent が参照するデータ - 700以上のインテグレーションからのイベント /アラート - Grafana,
New Relic, CloudWatch などからのログ・メトリクス - Conﬂuence, GitHub からのドキュメント - 過去のインシデント履歴オブザーバビリティがない場合 AIエージェントにとっての判断材料がない → 何もできない

② アラートを減らしてから自動化 LLMは「ノイズを消す魔法」ではないアラート設計が悪いと、 AIは賢く混乱する

② アラートを減らしてから自動化 ❌ 誤解「アラートが多すぎて困っている」 ↓ 「AIを入れればノイズを消してくれる」 ⭕ 現実 AIは「パターン認識」と「相関分析」が得意
↓ そもそもの設計が悪いと、 AIは "賢く" 間違った判断をする ↓ 誤ったアラートを誤って関連付ける

例: PagerDuty AIOps Intelligent Alert Grouping - MLで関連アラートを単一のインシデントに集約 -
チームの対応パターンから継続的に学習 AIは魔法ではなく、人間の行動から学ぶ

障害は技術的に、混乱は構造的に生まれる • 技術的な障害（Failure）はシステムの設計不備や未知の条件から発生する。 • しかし“混乱”（Chaos）は、情報の流れ・意思決定の経路・責任の所在が曖昧な組織構造から生じる。
• つまり障害そのものよりも対応中の構造が組織全体を危機に陥れる。 CIO 一体どうなってるんだ! 現状を教えてください！今何が起きてるの！スココンスココンアラート動かない！ユーザー担当別チームユーザー障害 = 技術の問題混乱 = 組織アーキテクチャの問題

③インシデント対応フローの確立 (ICS) 責任の所在と意思決定の経路を明確にし情報の流れをコントロールするインシデントコマンダー (IC)を
中心とした命令指揮系統を構築 ICはインシデント対応の指揮者。重大インシデントを解決に導くことを目的とし、意思決定を行う。このフローがない場合アラート検知 → ？？？ AIは「次に何をすべきか」を提案できず、各人がバラバラに動くインシデントコマンダー作業担当 CIO ユーザー担当別チームユーザー

平時(peacetime)と戦時(wartime)を分離インシデントコマンダー作業担当 CIO ユーザー担当別チームユーザー平時は「ビジネスを回すこと」が最重要。戦時は「インシデントの解決」が最重要。目的が異なるので、区別して組織構造を作る必要がある
平時: 社長が一番偉い戦時: ICが最も位が高い (インシデント解決の文脈において )

④ インシデント中にコミュニケーションできる文化インシデント対応 = 技術対応だけではないインシデント対応とは • システム復旧 • ステークホルダーとの適切なコミュニケーション
• 組織の混乱を防ぐこと "Technical incidents can create chaos when stakeholder notiﬁcations are not eﬀectively managed" — PagerDuty Stakeholder Communications Guide

👔 経営層(エグゼクティブ ) 必要なのは「ビジネスインパクト」 • いくらの損失が出るのか • 法的リスクはあるのか • メディア発表は必要か
情報がなければ、適切な判断を下せません 📣 広報・マーケティング SNSでの炎上は秒単位で拡散します。沈黙は「隠蔽」と受け取られかねません。適切なタイミングでの発信が、ブランドイメージを守る鍵となります。 🎧 カスタマーサポート顧客との最前線にいる人たちです。システムが止まると、怒った顧客からの電話やチャットが殺到します。彼らにとって凄まじいストレスであり、離職の原因にもなり得ます。技術面だけでなく、各ステークホルダーの不安を解消しなくてはいけない   💼 セールス・営業商談中の顧客から「御社のサービス信頼して大丈夫ですか？」と言われたらどうでしょう。たった一度の障害が、数ヶ月かけて築いた信頼関係を崩壊させ、契約を白紙に戻す可能性があります。

リエゾンリエゾン / Communication Leadの重要性 Customer Liaison Internal Liaison PagerDuty
OpsGuides Communications Lead Google SRE Incident Management Guide ステークホルダーへの定期アップデート＆連絡窓口として明確に役割定義されている人間とのコミュニケーションは、インシデント対応の必須要素 AIはこの役割を「支援」できるが、「代替」はできない

AIはコミュニケーションを「支援」する Scribe Agentの例 - 会議のリアルタイム文字起こし - ディスカッションポイント・アクションアイテムの自動抽出 - ステークホルダーへの報告書作成を支援しかし、
AIにはできないこと - 顧客への謝罪の言葉選び - 経営層への影響度説明の「ニュアンス」 - 営業との商談影響の「調整」「判断」と「合意形成」は人間にしかできない

インシデントコマンダー ICを中心とした、意思決定と指揮を行う密な連携レスポンダー書記リエゾンステークホルダーとのコミュニケーションパス CIO Dev Support
Sales 内部では密に、外部とはブロードキャスト型で連携

⑤ その場しのぎではなく、次を楽にする視点 ✅ 直すだけで終わらない ✅ 次回どうするかを考える ✅ 手順や判断を残す Blameless Postmortem
❌ 「誰が悪かったか」を追求 → 問題が隠蔽される → 同じ失敗が繰り返される ⭕ 「何が起きて、どうすれば防げるか」を追求 → 問題がオープンに共有される → 組織の学習につながる

SRE Agentのメモリを活かすトリアージの精度向上 — 過去のパターンを認識診断の加速 — 変更イベントと症状を関連付けランブックの更新 —
成功した対処を次回に活かす

まとめ ① 「見えていること」を前提とする ② アラートを減らしてから自動化 ③インシデント対応フローの確立 ④ インシデント中にコミュニケーションできる文化 ⑤ その場しのぎではなく、次を楽にする視点をもつ
AIエージェントは「チームメイト」チームメイトが活躍できる環境を整えるのは人間の仕事

AIの導入と一緒に体制作りもやっていきましょう

AI運用勉強会やってます 2/4 AI運用勉強会 #2 開催 AI運用勉強会は、AIをシステム運用に活かすための知見を共有・学習する場です。開発でのAI活用が当たり前になった今、運用でも AIの重要性が高まっています。しかし、運用では
AIの誤動作が即座にユーザー体験へ影響するため、開発とは異なるアプローチが必要です。本勉強会は、そうした AI運用の知見を蓄積していくことを目的としています。

SREの仕事を自動化する際にやっておきたい5つのポイント

SREの仕事を自動化する際にやっておきたい5つのポイント

Kazuto Kusama

More Decks by Kazuto Kusama

Other Decks in Technology

Featured

Transcript