Upgrade to Pro — share decks privately, control downloads, hide ads and more …

PagerDutyで始めるか対応の自動化

 PagerDutyで始めるか対応の自動化

さいちゃん

January 13, 2023
Tweet

More Decks by さいちゃん

Other Decks in Business

Transcript

  1. PagerDutyで始める
    インシデント対応の自動化
    1
    クラスメソッド株式会社
    アライアンス統括部
    サイード ラティファ栄美里

    View Slide

  2. 自己紹介
     サイード ラティファ栄美里(さいちゃん)
    ● 所属
    ○ アライアンス統括部
    ○ テックG 
    ○ セキュリティ系のSaaS製品を担当
    ● ブログ
     

    View Slide

  3. 3
    アジェンダ
    1. インシデント対応の重要性
    ○ 初めに考えておくこととゴール
    2. PagerDutyの概要
    ○ PagerDutyとは
    ○ 特徴と主な機能
    3. PagerDutyでインシデント対応自動化を行う
    ○ イベントの作成
    ○ エスカレーションポリシーの作成
    ○ スケジュールの作成

    View Slide

  4. 4
     インシデント対応の責任者を任されたら
    まず何をしますか?

    View Slide

  5. 5
    インシデント対応の際に考えておくべきこと
    「インシデントに誰が対応するのか」
    「インシデントの優先度はどの程度なのか」
    「復旧までにかかる時間はどの程度を想定するのか」
    「対応者以外には誰に通知するべきか」
    「担当者が不在/他の件の対応中の場合誰が対処するのか」
    「チーム内でインシデント対応後の分析やレポートの共有
     をしておきたい」
    インシデント対応といっても
    考えなければならない事はたくさん・・
    (優先度によっても変化)

    View Slide

  6. 6
    RTOについて
    RTO(目標復旧時間)
    ”RTO(Recovery Time Objective)とは、システム障害発生時、「どのくらいの時間で
    (いつまでに)」システムを復旧させるかの目標値です。
    RTOは、システムの利用者(顧客)を視野に入れると、システム停止やサービス中断が
    許される時間と言い換えることもできます。
    よって、RTOの設定は、利益損失との兼ね合いによって定められます。”
    [ RTOとは:富士通用語解説 ]

    View Slide

  7. 7
    インシデント対応のゴール
    ● インシデント対応フローの作成
    ● エスカレーション
    ● 適切なトリアージの設定
    ● 修復の自動化の活用
    ● インシデントの分析と情報共有
    インシデント発生時の初期対応が素早くなり
    システム復旧までを最小の時間で行うことができる

    View Slide

  8. 8
    PagerDutyの概要

    View Slide

  9. 9
    PagerDutyとは
    ● インシデント対応やオンコール管理を楽にする
    ● AWSサービスや監視ソフトウェア等360以上の様々な
    ツールと統合可能
    ● ツールが発する大量のアラートを分析し、対応する
    ● PagerDutyの特徴
    ○ オンコール・エスカレーション管理
    ○ 高度なイベント分析・分類
    ○ インシデントの可視化・分析
    ○ 専用スマートフォンアプリ
    インシデント
    対応が楽に!!

    View Slide

  10. 10
    PagerDutyの主な機能
    データの回収・蓄積 データの分析・まとめ チームへの通知 応用

    View Slide

  11. 11
    PagerDutyの主な機能
    ● オンコール管理
    ○ モニタリングツールとの統合
    ○ 自動エスカレーション通知(電話、SMS、メール等)
    ○ スケジュール管理
    ● イベントインテリジェンス
    ○ アラートグルーピング(重複したアラートの仕分け)
    ○ Past Incidents(類似の問題が過去どれほどの頻度で発生したか)
    ● モダンインシデントレスポンス
    ○ オンライン会議ツールとの連携
    ○ 対応チームのテンプレート作成
    ● ビジビリティ
    ○ ITインフラ環境をダッシュボードで一元化
    ○ リアルタイムに状況把握
    ● アナリティクス
    ○ 各メンバー、各チームの勤務時間、パフォーマンスの記録

    View Slide

  12. 12
    PagerDutyでインシデント対応
    の自動化

    View Slide

  13. 13
    何を自動化するべきか
    チームのアラートとオー
    ケストレーション
    トリアージと
    状態の分析
    情報の提供
    修復の
    自動化
    インシデント発

    インシデント発生時の対応プロセス
    インシデント発生時の対応プロセスを
    大きく4つに分けそれぞれのフェーズを自動化
    することでインシデント対応全体を自動化する

    View Slide

  14. 14
    それぞれの自動化
    ● チームのアラートとオーケストレーション
    ○ 適切な対応者にアラート通知を行う
    ○ ここを自動化することで応答時間と動員時間を短縮する
    ○ 対応者同士が通信する場所( SMSや電話、ビデオ会議など)の確保
    ● トリアージと状態分析
    ○ 問題が発生しているサービスから情報を収集し分析する
    ○ 収集した情報から優先度を決定する
    ● ビジネスコミュニケーション
    ○ 最新情報を提供するためのリマインダーやタイマーの設定
    ○ インシデントのステータスに応じて自動更新を送信する
    ○ 更新を送信する機能をチャットのチャンネルに追加する
    ● 修復の自動化
    ○ インシデント対応を進めるにつれて見えてきた傾向をもとに修復フェーズを自動化

    View Slide

  15. 15
    簡単な手順
    ● サービスの作成
    ● エスカレーションポリシーの作成
    ● スケジュールの作成
    必須

    View Slide

  16. 16
    サービスの作成
    ● PagerDuty では、サービスを、価
    値を提供し、チームが完全に所有
    する個別の機能として考えている
    ● 他のサービスやAWSとの統合の設

    ● そのサービスを所有しているチーム
    を明確化する
    ● 通知間隔の設定やその他の
    グルーピングに関する
    情報の設定
    ブログ:アラート管理ができる PagerDutyとnOpsを統合させてみた

    View Slide

  17. 17
    エスカレーションポリシーの作成
    ● インシデントが起きた際に誰にどん
    な順番で通知を送るのかを定めた
    ルール
    ● 最初の対応者が不在/対応中の
    場合誰に通知を送るのか(2次オン
    コール受付)
    ● 対応者から応答がない場合どのく
    らいの時間待機するのか
    ● 何度ポリシーを繰り返すのか
    ● スケジュールをポリシーとして選択
    することも可能

    View Slide

  18. 18
    スケジュールの作成
    ● インシデントが発生した場合に誰が対応するのかスケジュール管理可能(シフ
    ト表のようなイメージ)
    ● エスカレーションポリシーの担当者の欄にスケジュールを選択することも可能

    View Slide

  19. 19
    最後にまとめ
    ● インシデント発生時の初期対応を素早くすることで最小の時
    間でインシデントに対応できる
    ● 対応の自動化にはプロセスを分解して考える必要がある
    ● 自動化でよりインシデント対応そのものに集中できる

    View Slide

  20. 20

    View Slide