Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Speaker Deck
PRO
Sign in
Sign up for free
Incident Response / infra study 3
tjun
June 16, 2020
Technology
3
2.7k
Incident Response / infra study 3
Infra Study Meetup #3の発表資料です。
https://forkwell.connpass.com/event/176885/
tjun
June 16, 2020
Tweet
Share
More Decks by tjun
See All by tjun
メルペイにおけるマイクロサービス運用の苦労と改善 / CloudNative Days Tokyo2020
tjun
16
4k
絶え間なく変化するメルカリ・メルペイにおけるSREの組織と成長 / SRE Next 2020
tjun
6
15k
メルペイのマイクロサービスとCloud Native / CloudNative Days Kansai2019
tjun
22
21k
メルペイを支えるGKEとCloud Spanner / 2019 Google Cloud Architect Night 1
tjun
1
2.1k
メルペイのマイクロサービスの構築と運用 / CloudNative Days Tokyo2019
tjun
26
14k
Merpay Microservices On Microservice Platform 20190522
tjun
3
6.9k
Fastly Meetup #2 LT
tjun
0
5k
Ingress-GCE and its problem
tjun
0
660
20180920 DevOps on Merpay Microservices
tjun
3
3.4k
Other Decks in Technology
See All in Technology
AI Builderについて
miyakemito
1
980
Google Cloud Workflows: API automation, patterns and best practices
glaforge
0
110
Dockerに疲れた人のためのLXDではじめるシステムコンテナ入門
devops_vtj
0
130
オンプレk8sとEKSの並行運用の実際
ch1aki
0
320
「一通りできるようになった」その先の話
hitomi___kt
0
150
Stripe / Okta Customer Identity Cloud(旧Auth0) の採用に至った理由 〜モリサワの SaaS 戦略〜
tomuro
0
140
MarvelClient Upgrade 64bit クライアントへの自動アップグレード設定
mitsuru_katoh
0
210
OCI技術資料 : ロード・バランサー 詳細 / Load Balancer 200
ocise
2
7.2k
WebLogic Server for OCI 概要
oracle4engineer
PRO
3
900
もし本番ネットワークをまるごと仮想環境に”コピー”できたらうれしいですか? / janog51
corestate55
0
400
データ分析基盤の要件分析の話(202201_JEDAI)
yabooun
0
400
💰年度末予算消化祭💰 Large Memory Instance で 画像分類してみた
__allllllllez__
0
120
Featured
See All Featured
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
152
13k
Side Projects
sachag
451
37k
Faster Mobile Websites
deanohume
295
29k
Happy Clients
brianwarren
90
5.8k
From Idea to $5000 a Month in 5 Months
shpigford
374
44k
Making Projects Easy
brettharned
102
4.8k
Building a Scalable Design System with Sketch
lauravandoore
451
31k
Teambox: Starting and Learning
jrom
124
7.9k
What the flash - Photography Introduction
edds
64
10k
Build The Right Thing And Hit Your Dates
maggiecrowley
22
1.4k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
109
16k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
31
20k
Transcript
Incident Response Infra Study Meetup #3 LT Merpay SRE @tjun
Junichiro Takagi https://speakerdeck.com/tjun/infra-study-3
「インシデント対応やってますか?」
今日のテーマ Incident Response • できればやりたくない • でもSREをやるなら避けられない • どうすれば、より健全なIncident Responseができるか
今日の話は https://response.pagerduty.com/ の超ざっくりしたまとめ なので、詳しくは読んでほしい
はじめに Incident とは 予期せず提供しているサービスが利用できない状態になったり、 期待している機能が提供できない状態
はじめに Incident とは 予期せず提供しているサービスが利用できない状態になったり、 期待している機能が提供できない状態 Incident Response とは Incidentを解決・管理するための組織的なしくみ。 問題を解決するだけでなく、被害を減らしたり解決までの時間やコストを減らす
取り組みも含まれる。 エンジニアだけじゃなく、Customer Support、PM、PRなども関わる。
Incident 前に やること • 心構え: Incidentは必ず起きる…! • Incident, Severity を定義する
• Trigger を用意する • 役割を決める(Incident Commander等) • コミュニケーションの仕組みを 用意する
Incident 中に やること • 心構え: 慌てない • 必要なメンバーを招集する • 役割ごとに必要な対応を行う
◦ Incident Commander 関係者に連絡しSlackで指示を出す ◦ エンジニア 問題を調査し解決方法を提案・実行する
Incident 後に やること • 心構え: Blameless ( 人を責めない ) •
Post-mortem(振り返り) を行う ◦ What Happened? ◦ Impact ◦ Resolution ◦ Timeline ◦ うまくできたこと、だめだったこと ◦ Action Items
Incident Response をはじめよう 1. インシデントを定義する 2. コミュニケーションの仕組みを作る ◦ アラート設定、Slackで集まるChannel、などを用意 3.
インシデント対応の役割を決める ◦ Incident Commanderを決める 4. Post-mortemのテンプレを作る ◦ https://landing.google.com/sre/sre-book/chapters/postmortem/ などが参考になる 5. 練習する 6. 実際のインシデントで実行する
まとめ • Incident Response はSREだけのものではない、組織的な 仕組みづくりが必要。できるところから始めよう • 適切な準備をして、健全な運用を作りましょう