Slide 1

Slide 1 text

PagerDutyで始める インシデント対応の自動化 1 クラスメソッド株式会社 アライアンス統括部 サイード ラティファ栄美里

Slide 2

Slide 2 text

自己紹介  サイード ラティファ栄美里(さいちゃん) ● 所属 ○ アライアンス統括部 ○ テックG  ○ セキュリティ系のSaaS製品を担当 ● ブログ  

Slide 3

Slide 3 text

3 アジェンダ 1. インシデント対応の重要性 ○ 初めに考えておくこととゴール 2. PagerDutyの概要 ○ PagerDutyとは ○ 特徴と主な機能 3. PagerDutyでインシデント対応自動化を行う ○ イベントの作成 ○ エスカレーションポリシーの作成 ○ スケジュールの作成

Slide 4

Slide 4 text

4  インシデント対応の責任者を任されたら まず何をしますか?

Slide 5

Slide 5 text

5 インシデント対応の際に考えておくべきこと 「インシデントに誰が対応するのか」 「インシデントの優先度はどの程度なのか」 「復旧までにかかる時間はどの程度を想定するのか」 「対応者以外には誰に通知するべきか」 「担当者が不在/他の件の対応中の場合誰が対処するのか」 「チーム内でインシデント対応後の分析やレポートの共有  をしておきたい」 インシデント対応といっても 考えなければならない事はたくさん・・ (優先度によっても変化)

Slide 6

Slide 6 text

6 RTOについて RTO(目標復旧時間) ”RTO(Recovery Time Objective)とは、システム障害発生時、「どのくらいの時間で (いつまでに)」システムを復旧させるかの目標値です。 RTOは、システムの利用者(顧客)を視野に入れると、システム停止やサービス中断が 許される時間と言い換えることもできます。 よって、RTOの設定は、利益損失との兼ね合いによって定められます。” [ RTOとは:富士通用語解説 ]

Slide 7

Slide 7 text

7 インシデント対応のゴール ● インシデント対応フローの作成 ● エスカレーション ● 適切なトリアージの設定 ● 修復の自動化の活用 ● インシデントの分析と情報共有 インシデント発生時の初期対応が素早くなり システム復旧までを最小の時間で行うことができる

Slide 8

Slide 8 text

8 PagerDutyの概要

Slide 9

Slide 9 text

9 PagerDutyとは ● インシデント対応やオンコール管理を楽にする ● AWSサービスや監視ソフトウェア等360以上の様々な ツールと統合可能 ● ツールが発する大量のアラートを分析し、対応する ● PagerDutyの特徴 ○ オンコール・エスカレーション管理 ○ 高度なイベント分析・分類 ○ インシデントの可視化・分析 ○ 専用スマートフォンアプリ インシデント 対応が楽に!!

Slide 10

Slide 10 text

10 PagerDutyの主な機能 データの回収・蓄積 データの分析・まとめ チームへの通知 応用

Slide 11

Slide 11 text

11 PagerDutyの主な機能 ● オンコール管理 ○ モニタリングツールとの統合 ○ 自動エスカレーション通知(電話、SMS、メール等) ○ スケジュール管理 ● イベントインテリジェンス ○ アラートグルーピング(重複したアラートの仕分け) ○ Past Incidents(類似の問題が過去どれほどの頻度で発生したか) ● モダンインシデントレスポンス ○ オンライン会議ツールとの連携 ○ 対応チームのテンプレート作成 ● ビジビリティ ○ ITインフラ環境をダッシュボードで一元化 ○ リアルタイムに状況把握 ● アナリティクス ○ 各メンバー、各チームの勤務時間、パフォーマンスの記録

Slide 12

Slide 12 text

12 PagerDutyでインシデント対応 の自動化

Slide 13

Slide 13 text

13 何を自動化するべきか チームのアラートとオー ケストレーション トリアージと 状態の分析 情報の提供 修復の 自動化 インシデント発 生 インシデント発生時の対応プロセス インシデント発生時の対応プロセスを 大きく4つに分けそれぞれのフェーズを自動化 することでインシデント対応全体を自動化する

Slide 14

Slide 14 text

14 それぞれの自動化 ● チームのアラートとオーケストレーション ○ 適切な対応者にアラート通知を行う ○ ここを自動化することで応答時間と動員時間を短縮する ○ 対応者同士が通信する場所( SMSや電話、ビデオ会議など)の確保 ● トリアージと状態分析 ○ 問題が発生しているサービスから情報を収集し分析する ○ 収集した情報から優先度を決定する ● ビジネスコミュニケーション ○ 最新情報を提供するためのリマインダーやタイマーの設定 ○ インシデントのステータスに応じて自動更新を送信する ○ 更新を送信する機能をチャットのチャンネルに追加する ● 修復の自動化 ○ インシデント対応を進めるにつれて見えてきた傾向をもとに修復フェーズを自動化

Slide 15

Slide 15 text

15 簡単な手順 ● サービスの作成 ● エスカレーションポリシーの作成 ● スケジュールの作成 必須

Slide 16

Slide 16 text

16 サービスの作成 ● PagerDuty では、サービスを、価 値を提供し、チームが完全に所有 する個別の機能として考えている ● 他のサービスやAWSとの統合の設 定 ● そのサービスを所有しているチーム を明確化する ● 通知間隔の設定やその他の グルーピングに関する 情報の設定 ブログ:アラート管理ができる PagerDutyとnOpsを統合させてみた

Slide 17

Slide 17 text

17 エスカレーションポリシーの作成 ● インシデントが起きた際に誰にどん な順番で通知を送るのかを定めた ルール ● 最初の対応者が不在/対応中の 場合誰に通知を送るのか(2次オン コール受付) ● 対応者から応答がない場合どのく らいの時間待機するのか ● 何度ポリシーを繰り返すのか ● スケジュールをポリシーとして選択 することも可能

Slide 18

Slide 18 text

18 スケジュールの作成 ● インシデントが発生した場合に誰が対応するのかスケジュール管理可能(シフ ト表のようなイメージ) ● エスカレーションポリシーの担当者の欄にスケジュールを選択することも可能

Slide 19

Slide 19 text

19 最後にまとめ ● インシデント発生時の初期対応を素早くすることで最小の時 間でインシデントに対応できる ● 対応の自動化にはプロセスを分解して考える必要がある ● 自動化でよりインシデント対応そのものに集中できる

Slide 20

Slide 20 text

20