Infra Study Meetup #3の発表資料です。 https://forkwell.connpass.com/event/176885/
Incident ResponseInfra Study Meetup #3 LTMerpay SRE@tjunJunichiro Takagi https://speakerdeck.com/tjun/infra-study-3
View Slide
「インシデント対応やってますか?」
今日のテーマIncident Response● できればやりたくない● でもSREをやるなら避けられない● どうすれば、より健全なIncident Responseができるか今日の話は https://response.pagerduty.com/ の超ざっくりしたまとめなので、詳しくは読んでほしい
はじめにIncident とは予期せず提供しているサービスが利用できない状態になったり、期待している機能が提供できない状態
はじめにIncident とは予期せず提供しているサービスが利用できない状態になったり、期待している機能が提供できない状態Incident Response とはIncidentを解決・管理するための組織的なしくみ。問題を解決するだけでなく、被害を減らしたり解決までの時間やコストを減らす取り組みも含まれる。エンジニアだけじゃなく、Customer Support、PM、PRなども関わる。
Incident 前にやること● 心構え: Incidentは必ず起きる…!● Incident, Severity を定義する● Trigger を用意する● 役割を決める(Incident Commander等)● コミュニケーションの仕組みを用意する
Incident 中にやること● 心構え: 慌てない● 必要なメンバーを招集する● 役割ごとに必要な対応を行う○ Incident Commander関係者に連絡しSlackで指示を出す○ エンジニア問題を調査し解決方法を提案・実行する
Incident 後にやること● 心構え: Blameless ( 人を責めない )● Post-mortem(振り返り) を行う○ What Happened?○ Impact○ Resolution○ Timeline○ うまくできたこと、だめだったこと○ Action Items
Incident Response をはじめよう1. インシデントを定義する2. コミュニケーションの仕組みを作る○ アラート設定、Slackで集まるChannel、などを用意3. インシデント対応の役割を決める○ Incident Commanderを決める4. Post-mortemのテンプレを作る○ https://landing.google.com/sre/sre-book/chapters/postmortem/ などが参考になる5. 練習する6. 実際のインシデントで実行する
まとめ● Incident Response はSREだけのものではない、組織的な仕組みづくりが必要。できるところから始めよう● 適切な準備をして、健全な運用を作りましょう