Slide 1

Slide 1 text

Incident Response Infra Study Meetup #3 LT Merpay SRE @tjun Junichiro Takagi https://speakerdeck.com/tjun/infra-study-3

Slide 2

Slide 2 text

「インシデント対応やってますか?」

Slide 3

Slide 3 text

今日のテーマ Incident Response ● できればやりたくない ● でもSREをやるなら避けられない ● どうすれば、より健全なIncident Responseができるか 今日の話は https://response.pagerduty.com/ の超ざっくりしたまとめ なので、詳しくは読んでほしい

Slide 4

Slide 4 text

はじめに Incident とは 予期せず提供しているサービスが利用できない状態になったり、 期待している機能が提供できない状態

Slide 5

Slide 5 text

はじめに Incident とは 予期せず提供しているサービスが利用できない状態になったり、 期待している機能が提供できない状態 Incident Response とは Incidentを解決・管理するための組織的なしくみ。 問題を解決するだけでなく、被害を減らしたり解決までの時間やコストを減らす 取り組みも含まれる。 エンジニアだけじゃなく、Customer Support、PM、PRなども関わる。

Slide 6

Slide 6 text

Incident 前に やること ● 心構え: Incidentは必ず起きる…! ● Incident, Severity を定義する ● Trigger を用意する ● 役割を決める(Incident Commander等) ● コミュニケーションの仕組みを 用意する

Slide 7

Slide 7 text

Incident 中に やること ● 心構え: 慌てない ● 必要なメンバーを招集する ● 役割ごとに必要な対応を行う ○ Incident Commander 関係者に連絡しSlackで指示を出す ○ エンジニア 問題を調査し解決方法を提案・実行する

Slide 8

Slide 8 text

Incident 後に やること ● 心構え: Blameless ( 人を責めない ) ● Post-mortem(振り返り) を行う ○ What Happened? ○ Impact ○ Resolution ○ Timeline ○ うまくできたこと、だめだったこと ○ Action Items

Slide 9

Slide 9 text

Incident Response をはじめよう 1. インシデントを定義する 2. コミュニケーションの仕組みを作る ○ アラート設定、Slackで集まるChannel、などを用意 3. インシデント対応の役割を決める ○ Incident Commanderを決める 4. Post-mortemのテンプレを作る ○ https://landing.google.com/sre/sre-book/chapters/postmortem/ などが参考になる 5. 練習する 6. 実際のインシデントで実行する

Slide 10

Slide 10 text

まとめ ● Incident Response はSREだけのものではない、組織的な 仕組みづくりが必要。できるところから始めよう ● 適切な準備をして、健全な運用を作りましょう