Incident Response / infra study 3

5de063e47d0da381a3848e761a059a7a?s=47 tjun
June 16, 2020

Incident Response / infra study 3

Infra Study Meetup #3の発表資料です。
https://forkwell.connpass.com/event/176885/

5de063e47d0da381a3848e761a059a7a?s=128

tjun

June 16, 2020
Tweet

Transcript

  1. Incident Response Infra Study Meetup #3 LT Merpay SRE @tjun

    Junichiro Takagi https://speakerdeck.com/tjun/infra-study-3
  2. 「インシデント対応やってますか?」

  3. 今日のテーマ Incident Response • できればやりたくない • でもSREをやるなら避けられない • どうすれば、より健全なIncident Responseができるか

    今日の話は https://response.pagerduty.com/ の超ざっくりしたまとめ なので、詳しくは読んでほしい
  4. はじめに Incident とは 予期せず提供しているサービスが利用できない状態になったり、 期待している機能が提供できない状態

  5. はじめに Incident とは 予期せず提供しているサービスが利用できない状態になったり、 期待している機能が提供できない状態 Incident Response とは Incidentを解決・管理するための組織的なしくみ。 問題を解決するだけでなく、被害を減らしたり解決までの時間やコストを減らす

    取り組みも含まれる。 エンジニアだけじゃなく、Customer Support、PM、PRなども関わる。
  6. Incident 前に やること • 心構え: Incidentは必ず起きる…! • Incident, Severity を定義する

    • Trigger を用意する • 役割を決める(Incident Commander等) • コミュニケーションの仕組みを 用意する
  7. Incident 中に やること • 心構え: 慌てない • 必要なメンバーを招集する • 役割ごとに必要な対応を行う

    ◦ Incident Commander 関係者に連絡しSlackで指示を出す ◦ エンジニア 問題を調査し解決方法を提案・実行する
  8. Incident 後に やること • 心構え: Blameless ( 人を責めない ) •

    Post-mortem(振り返り) を行う ◦ What Happened? ◦ Impact ◦ Resolution ◦ Timeline ◦ うまくできたこと、だめだったこと ◦ Action Items
  9. Incident Response をはじめよう 1. インシデントを定義する 2. コミュニケーションの仕組みを作る ◦ アラート設定、Slackで集まるChannel、などを用意 3.

    インシデント対応の役割を決める ◦ Incident Commanderを決める 4. Post-mortemのテンプレを作る ◦ https://landing.google.com/sre/sre-book/chapters/postmortem/ などが参考になる 5. 練習する 6. 実際のインシデントで実行する
  10. まとめ • Incident Response はSREだけのものではない、組織的な 仕組みづくりが必要。できるところから始めよう • 適切な準備をして、健全な運用を作りましょう