Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
PagerDutyで始めるか対応の自動化
Search
さいちゃん
January 13, 2023
Business
0
1.1k
PagerDutyで始めるか対応の自動化
さいちゃん
January 13, 2023
Tweet
Share
More Decks by さいちゃん
See All by さいちゃん
ここがすごいよ! AWS Systems Manager!
saichan11
0
1.8k
デベロッパーセキュリティ強化! ~シフトレフトで安全な開発を~
saichan11
0
900
Dome9_IAMSaftyで考えるIAMベストプラクティス.pdf
saichan11
0
670
Other Decks in Business
See All in Business
devsumi-2024-summer
onigra
2
510
20240712_CM_Odyssey
hideki_ojima
1
190
OpenStreet株式会社_採用ピッチ
openstreet
1
9.2k
PMにとってスキルより大事なもの
pakugoku
0
210
メドピアグループ紹介資料
medpeer_recruit
9
100k
enechain company deck
enechain
PRO
4
79k
kubell 会社概要・中期経営計画
kubell
0
39k
NAGANO STARTUP STUDIO_ventureclub_introduction
1romatsuhisa
0
1.1k
20240713_CLSMishima1
hideki_ojima
3
240
(6枚)社会人に最適な超効率的な練習のやり方「分解統合練習」徹底解説
nyattx
PRO
3
190
K.S.ロジャース会社紹介資料
ksr_hiring
1
1.9k
タケウチグループRecruit
takeuchigroup
0
170
Featured
See All Featured
ParisWeb 2013: Learning to Love: Crash Course in Emotional UX Design
dotmariusz
105
6.8k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
662
120k
How STYLIGHT went responsive
nonsquared
93
5k
Atom: Resistance is Futile
akmur
261
25k
Embracing the Ebb and Flow
colly
81
4.3k
The Brand Is Dead. Long Live the Brand.
mthomps
52
36k
Producing Creativity
orderedlist
PRO
340
39k
Learning to Love Humans: Emotional Interface Design
aarron
269
39k
Speed Design
sergeychernyshev
9
270
YesSQL, Process and Tooling at Scale
rocio
166
14k
Making the Leap to Tech Lead
cromwellryan
127
8.7k
Building Adaptive Systems
keathley
34
2k
Transcript
PagerDutyで始める インシデント対応の自動化 1 クラスメソッド株式会社 アライアンス統括部 サイード ラティファ栄美里
自己紹介 サイード ラティファ栄美里(さいちゃん) • 所属 ◦ アライアンス統括部 ◦ テックG ◦
セキュリティ系のSaaS製品を担当 • ブログ
3 アジェンダ 1. インシデント対応の重要性 ◦ 初めに考えておくこととゴール 2. PagerDutyの概要 ◦ PagerDutyとは
◦ 特徴と主な機能 3. PagerDutyでインシデント対応自動化を行う ◦ イベントの作成 ◦ エスカレーションポリシーの作成 ◦ スケジュールの作成
4 インシデント対応の責任者を任されたら まず何をしますか?
5 インシデント対応の際に考えておくべきこと 「インシデントに誰が対応するのか」 「インシデントの優先度はどの程度なのか」 「復旧までにかかる時間はどの程度を想定するのか」 「対応者以外には誰に通知するべきか」 「担当者が不在/他の件の対応中の場合誰が対処するのか」 「チーム内でインシデント対応後の分析やレポートの共有 をしておきたい」 インシデント対応といっても
考えなければならない事はたくさん・・ (優先度によっても変化)
6 RTOについて RTO(目標復旧時間) ”RTO(Recovery Time Objective)とは、システム障害発生時、「どのくらいの時間で (いつまでに)」システムを復旧させるかの目標値です。 RTOは、システムの利用者(顧客)を視野に入れると、システム停止やサービス中断が 許される時間と言い換えることもできます。 よって、RTOの設定は、利益損失との兼ね合いによって定められます。”
[ RTOとは:富士通用語解説 ]
7 インシデント対応のゴール • インシデント対応フローの作成 • エスカレーション • 適切なトリアージの設定 • 修復の自動化の活用
• インシデントの分析と情報共有 インシデント発生時の初期対応が素早くなり システム復旧までを最小の時間で行うことができる
8 PagerDutyの概要
9 PagerDutyとは • インシデント対応やオンコール管理を楽にする • AWSサービスや監視ソフトウェア等360以上の様々な ツールと統合可能 • ツールが発する大量のアラートを分析し、対応する •
PagerDutyの特徴 ◦ オンコール・エスカレーション管理 ◦ 高度なイベント分析・分類 ◦ インシデントの可視化・分析 ◦ 専用スマートフォンアプリ インシデント 対応が楽に!!
10 PagerDutyの主な機能 データの回収・蓄積 データの分析・まとめ チームへの通知 応用
11 PagerDutyの主な機能 • オンコール管理 ◦ モニタリングツールとの統合 ◦ 自動エスカレーション通知(電話、SMS、メール等) ◦ スケジュール管理
• イベントインテリジェンス ◦ アラートグルーピング(重複したアラートの仕分け) ◦ Past Incidents(類似の問題が過去どれほどの頻度で発生したか) • モダンインシデントレスポンス ◦ オンライン会議ツールとの連携 ◦ 対応チームのテンプレート作成 • ビジビリティ ◦ ITインフラ環境をダッシュボードで一元化 ◦ リアルタイムに状況把握 • アナリティクス ◦ 各メンバー、各チームの勤務時間、パフォーマンスの記録
12 PagerDutyでインシデント対応 の自動化
13 何を自動化するべきか チームのアラートとオー ケストレーション トリアージと 状態の分析 情報の提供 修復の 自動化 インシデント発
生 インシデント発生時の対応プロセス インシデント発生時の対応プロセスを 大きく4つに分けそれぞれのフェーズを自動化 することでインシデント対応全体を自動化する
14 それぞれの自動化 • チームのアラートとオーケストレーション ◦ 適切な対応者にアラート通知を行う ◦ ここを自動化することで応答時間と動員時間を短縮する ◦ 対応者同士が通信する場所(
SMSや電話、ビデオ会議など)の確保 • トリアージと状態分析 ◦ 問題が発生しているサービスから情報を収集し分析する ◦ 収集した情報から優先度を決定する • ビジネスコミュニケーション ◦ 最新情報を提供するためのリマインダーやタイマーの設定 ◦ インシデントのステータスに応じて自動更新を送信する ◦ 更新を送信する機能をチャットのチャンネルに追加する • 修復の自動化 ◦ インシデント対応を進めるにつれて見えてきた傾向をもとに修復フェーズを自動化
15 簡単な手順 • サービスの作成 • エスカレーションポリシーの作成 • スケジュールの作成 必須
16 サービスの作成 • PagerDuty では、サービスを、価 値を提供し、チームが完全に所有 する個別の機能として考えている • 他のサービスやAWSとの統合の設 定
• そのサービスを所有しているチーム を明確化する • 通知間隔の設定やその他の グルーピングに関する 情報の設定 ブログ:アラート管理ができる PagerDutyとnOpsを統合させてみた
17 エスカレーションポリシーの作成 • インシデントが起きた際に誰にどん な順番で通知を送るのかを定めた ルール • 最初の対応者が不在/対応中の 場合誰に通知を送るのか(2次オン コール受付)
• 対応者から応答がない場合どのく らいの時間待機するのか • 何度ポリシーを繰り返すのか • スケジュールをポリシーとして選択 することも可能
18 スケジュールの作成 • インシデントが発生した場合に誰が対応するのかスケジュール管理可能(シフ ト表のようなイメージ) • エスカレーションポリシーの担当者の欄にスケジュールを選択することも可能
19 最後にまとめ • インシデント発生時の初期対応を素早くすることで最小の時 間でインシデントに対応できる • 対応の自動化にはプロセスを分解して考える必要がある • 自動化でよりインシデント対応そのものに集中できる
20