Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
PagerDutyで始めるか対応の自動化
Search
さいちゃん
January 13, 2023
Business
0
1.5k
PagerDutyで始めるか対応の自動化
さいちゃん
January 13, 2023
Tweet
Share
More Decks by さいちゃん
See All by さいちゃん
ここがすごいよ! AWS Systems Manager!
saichan11
0
2.4k
デベロッパーセキュリティ強化! ~シフトレフトで安全な開発を~
saichan11
0
1.2k
Dome9_IAMSaftyで考えるIAMベストプラクティス.pdf
saichan11
0
830
Other Decks in Business
See All in Business
フルカイテン株式会社 採用資料
fullkaiten
0
79k
NicoScan - 領収書・請求書をAI-OCRでExcel自動変換
raimiura
1
290
組織としてのプロダクトマネジメント力を高める〜Sansanの実践と課題〜
sansantech
PRO
2
110
Corporate Story (GA technologies Co., Ltd.)
gatechnologies
0
480
令和6年度会社パンフレット
wf714201
0
190
Bakuraku Product Manager Team Deck
layerx
PRO
4
2.4k
ミツモアAI推進G AI活用Tips50
mmota
0
330
2026.1_中途採用資料.pdf
superstudio
PRO
3
93k
『業務設計の教科書』の概要
shunsuke_takeuchi
PRO
4
8.7k
akippa株式会社|Company Deck
akippa
0
410
jinjer recruiting pitch
jinjer_official
0
120k
夜を制する者が “AI Agent 大民主化時代” を制する
icoxfog417
PRO
10
7.9k
Featured
See All Featured
The Director’s Chair: Orchestrating AI for Truly Effective Learning
tmiket
1
69
Amusing Abliteration
ianozsvald
0
79
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
132
19k
Making Projects Easy
brettharned
120
6.5k
Stewardship and Sustainability of Urban and Community Forests
pwiseman
0
81
The AI Search Optimization Roadmap by Aleyda Solis
aleyda
1
5k
Noah Learner - AI + Me: how we built a GSC Bulk Export data pipeline
techseoconnect
PRO
0
76
Claude Code どこまでも/ Claude Code Everywhere
nwiizo
61
51k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
32
2.8k
The Limits of Empathy - UXLibs8
cassininazir
1
200
Tell your own story through comics
letsgokoyo
0
770
How to Think Like a Performance Engineer
csswizardry
28
2.4k
Transcript
PagerDutyで始める インシデント対応の自動化 1 クラスメソッド株式会社 アライアンス統括部 サイード ラティファ栄美里
自己紹介 サイード ラティファ栄美里(さいちゃん) • 所属 ◦ アライアンス統括部 ◦ テックG ◦
セキュリティ系のSaaS製品を担当 • ブログ
3 アジェンダ 1. インシデント対応の重要性 ◦ 初めに考えておくこととゴール 2. PagerDutyの概要 ◦ PagerDutyとは
◦ 特徴と主な機能 3. PagerDutyでインシデント対応自動化を行う ◦ イベントの作成 ◦ エスカレーションポリシーの作成 ◦ スケジュールの作成
4 インシデント対応の責任者を任されたら まず何をしますか?
5 インシデント対応の際に考えておくべきこと 「インシデントに誰が対応するのか」 「インシデントの優先度はどの程度なのか」 「復旧までにかかる時間はどの程度を想定するのか」 「対応者以外には誰に通知するべきか」 「担当者が不在/他の件の対応中の場合誰が対処するのか」 「チーム内でインシデント対応後の分析やレポートの共有 をしておきたい」 インシデント対応といっても
考えなければならない事はたくさん・・ (優先度によっても変化)
6 RTOについて RTO(目標復旧時間) ”RTO(Recovery Time Objective)とは、システム障害発生時、「どのくらいの時間で (いつまでに)」システムを復旧させるかの目標値です。 RTOは、システムの利用者(顧客)を視野に入れると、システム停止やサービス中断が 許される時間と言い換えることもできます。 よって、RTOの設定は、利益損失との兼ね合いによって定められます。”
[ RTOとは:富士通用語解説 ]
7 インシデント対応のゴール • インシデント対応フローの作成 • エスカレーション • 適切なトリアージの設定 • 修復の自動化の活用
• インシデントの分析と情報共有 インシデント発生時の初期対応が素早くなり システム復旧までを最小の時間で行うことができる
8 PagerDutyの概要
9 PagerDutyとは • インシデント対応やオンコール管理を楽にする • AWSサービスや監視ソフトウェア等360以上の様々な ツールと統合可能 • ツールが発する大量のアラートを分析し、対応する •
PagerDutyの特徴 ◦ オンコール・エスカレーション管理 ◦ 高度なイベント分析・分類 ◦ インシデントの可視化・分析 ◦ 専用スマートフォンアプリ インシデント 対応が楽に!!
10 PagerDutyの主な機能 データの回収・蓄積 データの分析・まとめ チームへの通知 応用
11 PagerDutyの主な機能 • オンコール管理 ◦ モニタリングツールとの統合 ◦ 自動エスカレーション通知(電話、SMS、メール等) ◦ スケジュール管理
• イベントインテリジェンス ◦ アラートグルーピング(重複したアラートの仕分け) ◦ Past Incidents(類似の問題が過去どれほどの頻度で発生したか) • モダンインシデントレスポンス ◦ オンライン会議ツールとの連携 ◦ 対応チームのテンプレート作成 • ビジビリティ ◦ ITインフラ環境をダッシュボードで一元化 ◦ リアルタイムに状況把握 • アナリティクス ◦ 各メンバー、各チームの勤務時間、パフォーマンスの記録
12 PagerDutyでインシデント対応 の自動化
13 何を自動化するべきか チームのアラートとオー ケストレーション トリアージと 状態の分析 情報の提供 修復の 自動化 インシデント発
生 インシデント発生時の対応プロセス インシデント発生時の対応プロセスを 大きく4つに分けそれぞれのフェーズを自動化 することでインシデント対応全体を自動化する
14 それぞれの自動化 • チームのアラートとオーケストレーション ◦ 適切な対応者にアラート通知を行う ◦ ここを自動化することで応答時間と動員時間を短縮する ◦ 対応者同士が通信する場所(
SMSや電話、ビデオ会議など)の確保 • トリアージと状態分析 ◦ 問題が発生しているサービスから情報を収集し分析する ◦ 収集した情報から優先度を決定する • ビジネスコミュニケーション ◦ 最新情報を提供するためのリマインダーやタイマーの設定 ◦ インシデントのステータスに応じて自動更新を送信する ◦ 更新を送信する機能をチャットのチャンネルに追加する • 修復の自動化 ◦ インシデント対応を進めるにつれて見えてきた傾向をもとに修復フェーズを自動化
15 簡単な手順 • サービスの作成 • エスカレーションポリシーの作成 • スケジュールの作成 必須
16 サービスの作成 • PagerDuty では、サービスを、価 値を提供し、チームが完全に所有 する個別の機能として考えている • 他のサービスやAWSとの統合の設 定
• そのサービスを所有しているチーム を明確化する • 通知間隔の設定やその他の グルーピングに関する 情報の設定 ブログ:アラート管理ができる PagerDutyとnOpsを統合させてみた
17 エスカレーションポリシーの作成 • インシデントが起きた際に誰にどん な順番で通知を送るのかを定めた ルール • 最初の対応者が不在/対応中の 場合誰に通知を送るのか(2次オン コール受付)
• 対応者から応答がない場合どのく らいの時間待機するのか • 何度ポリシーを繰り返すのか • スケジュールをポリシーとして選択 することも可能
18 スケジュールの作成 • インシデントが発生した場合に誰が対応するのかスケジュール管理可能(シフ ト表のようなイメージ) • エスカレーションポリシーの担当者の欄にスケジュールを選択することも可能
19 最後にまとめ • インシデント発生時の初期対応を素早くすることで最小の時 間でインシデントに対応できる • 対応の自動化にはプロセスを分解して考える必要がある • 自動化でよりインシデント対応そのものに集中できる
20