Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Incident Response / infra study 3

tjun
June 16, 2020

Incident Response / infra study 3

Infra Study Meetup #3の発表資料です。
https://forkwell.connpass.com/event/176885/

tjun

June 16, 2020
Tweet

More Decks by tjun

Other Decks in Technology

Transcript

  1. Incident Response Infra Study Meetup #3 LT Merpay SRE @tjun

    Junichiro Takagi https://speakerdeck.com/tjun/infra-study-3
  2. 今日のテーマ Incident Response • できればやりたくない • でもSREをやるなら避けられない • どうすれば、より健全なIncident Responseができるか

    今日の話は https://response.pagerduty.com/ の超ざっくりしたまとめ なので、詳しくは読んでほしい
  3. Incident 前に やること • 心構え: Incidentは必ず起きる…! • Incident, Severity を定義する

    • Trigger を用意する • 役割を決める(Incident Commander等) • コミュニケーションの仕組みを 用意する
  4. Incident 中に やること • 心構え: 慌てない • 必要なメンバーを招集する • 役割ごとに必要な対応を行う

    ◦ Incident Commander 関係者に連絡しSlackで指示を出す ◦ エンジニア 問題を調査し解決方法を提案・実行する
  5. Incident 後に やること • 心構え: Blameless ( 人を責めない ) •

    Post-mortem(振り返り) を行う ◦ What Happened? ◦ Impact ◦ Resolution ◦ Timeline ◦ うまくできたこと、だめだったこと ◦ Action Items
  6. Incident Response をはじめよう 1. インシデントを定義する 2. コミュニケーションの仕組みを作る ◦ アラート設定、Slackで集まるChannel、などを用意 3.

    インシデント対応の役割を決める ◦ Incident Commanderを決める 4. Post-mortemのテンプレを作る ◦ https://landing.google.com/sre/sre-book/chapters/postmortem/ などが参考になる 5. 練習する 6. 実際のインシデントで実行する