PagerDutyで始めるインシデント対応の自動化1クラスメソッド株式会社アライアンス統括部サイード ラティファ栄美里
View Slide
自己紹介 サイード ラティファ栄美里(さいちゃん)● 所属○ アライアンス統括部○ テックG ○ セキュリティ系のSaaS製品を担当● ブログ
3アジェンダ1. インシデント対応の重要性○ 初めに考えておくこととゴール2. PagerDutyの概要○ PagerDutyとは○ 特徴と主な機能3. PagerDutyでインシデント対応自動化を行う○ イベントの作成○ エスカレーションポリシーの作成○ スケジュールの作成
4 インシデント対応の責任者を任されたらまず何をしますか?
5インシデント対応の際に考えておくべきこと「インシデントに誰が対応するのか」「インシデントの優先度はどの程度なのか」「復旧までにかかる時間はどの程度を想定するのか」「対応者以外には誰に通知するべきか」「担当者が不在/他の件の対応中の場合誰が対処するのか」「チーム内でインシデント対応後の分析やレポートの共有 をしておきたい」インシデント対応といっても考えなければならない事はたくさん・・(優先度によっても変化)
6RTOについてRTO(目標復旧時間)”RTO(Recovery Time Objective)とは、システム障害発生時、「どのくらいの時間で(いつまでに)」システムを復旧させるかの目標値です。RTOは、システムの利用者(顧客)を視野に入れると、システム停止やサービス中断が許される時間と言い換えることもできます。よって、RTOの設定は、利益損失との兼ね合いによって定められます。”[ RTOとは:富士通用語解説 ]
7インシデント対応のゴール● インシデント対応フローの作成● エスカレーション● 適切なトリアージの設定● 修復の自動化の活用● インシデントの分析と情報共有インシデント発生時の初期対応が素早くなりシステム復旧までを最小の時間で行うことができる
8PagerDutyの概要
9PagerDutyとは● インシデント対応やオンコール管理を楽にする● AWSサービスや監視ソフトウェア等360以上の様々なツールと統合可能● ツールが発する大量のアラートを分析し、対応する● PagerDutyの特徴○ オンコール・エスカレーション管理○ 高度なイベント分析・分類○ インシデントの可視化・分析○ 専用スマートフォンアプリインシデント対応が楽に!!
10PagerDutyの主な機能データの回収・蓄積 データの分析・まとめ チームへの通知 応用
11PagerDutyの主な機能● オンコール管理○ モニタリングツールとの統合○ 自動エスカレーション通知(電話、SMS、メール等)○ スケジュール管理● イベントインテリジェンス○ アラートグルーピング(重複したアラートの仕分け)○ Past Incidents(類似の問題が過去どれほどの頻度で発生したか)● モダンインシデントレスポンス○ オンライン会議ツールとの連携○ 対応チームのテンプレート作成● ビジビリティ○ ITインフラ環境をダッシュボードで一元化○ リアルタイムに状況把握● アナリティクス○ 各メンバー、各チームの勤務時間、パフォーマンスの記録
12PagerDutyでインシデント対応の自動化
13何を自動化するべきかチームのアラートとオーケストレーショントリアージと状態の分析情報の提供修復の自動化インシデント発生インシデント発生時の対応プロセスインシデント発生時の対応プロセスを大きく4つに分けそれぞれのフェーズを自動化することでインシデント対応全体を自動化する
14それぞれの自動化● チームのアラートとオーケストレーション○ 適切な対応者にアラート通知を行う○ ここを自動化することで応答時間と動員時間を短縮する○ 対応者同士が通信する場所( SMSや電話、ビデオ会議など)の確保● トリアージと状態分析○ 問題が発生しているサービスから情報を収集し分析する○ 収集した情報から優先度を決定する● ビジネスコミュニケーション○ 最新情報を提供するためのリマインダーやタイマーの設定○ インシデントのステータスに応じて自動更新を送信する○ 更新を送信する機能をチャットのチャンネルに追加する● 修復の自動化○ インシデント対応を進めるにつれて見えてきた傾向をもとに修復フェーズを自動化
15簡単な手順● サービスの作成● エスカレーションポリシーの作成● スケジュールの作成必須
16サービスの作成● PagerDuty では、サービスを、価値を提供し、チームが完全に所有する個別の機能として考えている● 他のサービスやAWSとの統合の設定● そのサービスを所有しているチームを明確化する● 通知間隔の設定やその他のグルーピングに関する情報の設定ブログ:アラート管理ができる PagerDutyとnOpsを統合させてみた
17エスカレーションポリシーの作成● インシデントが起きた際に誰にどんな順番で通知を送るのかを定めたルール● 最初の対応者が不在/対応中の場合誰に通知を送るのか(2次オンコール受付)● 対応者から応答がない場合どのくらいの時間待機するのか● 何度ポリシーを繰り返すのか● スケジュールをポリシーとして選択することも可能
18スケジュールの作成● インシデントが発生した場合に誰が対応するのかスケジュール管理可能(シフト表のようなイメージ)● エスカレーションポリシーの担当者の欄にスケジュールを選択することも可能
19最後にまとめ● インシデント発生時の初期対応を素早くすることで最小の時間でインシデントに対応できる● 対応の自動化にはプロセスを分解して考える必要がある● 自動化でよりインシデント対応そのものに集中できる
20