Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Incident Response / infra study 3
Search
tjun
June 16, 2020
Technology
3.7k
3
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Incident Response / infra study 3
Infra Study Meetup #3の発表資料です。
https://forkwell.connpass.com/event/176885/
tjun
June 16, 2020
More Decks by tjun
See All by tjun
SREとしてスタッフエンジニアを目指す / SRE Kaigi 2025
tjun
17
19k
CloudNative環境におけるトラブルシューティングガイド / CloudNative Days Tokyo 2023
tjun
6
2.5k
2023-12-07 SRE Talk クラウドと長く付き合う
tjun
0
260
インシデント対応を改善しよう/2024 TechFeed Experts Night 17
tjun
1
540
メルペイにおけるマイクロサービス運用の苦労と改善 / CloudNative Days Tokyo2020
tjun
16
4.7k
絶え間なく変化するメルカリ・メルペイにおけるSREの組織と成長 / SRE Next 2020
tjun
6
20k
メルペイのマイクロサービスとCloud Native / CloudNative Days Kansai2019
tjun
22
23k
メルペイを支えるGKEとCloud Spanner / 2019 Google Cloud Architect Night 1
tjun
1
2.5k
メルペイのマイクロサービスの構築と運用 / CloudNative Days Tokyo2019
tjun
26
15k
Other Decks in Technology
See All in Technology
不要なレビューをAIにまかせて AIコーディングの環境改善を加速した
shoota
1
270
本当の”仕事”を手放せる未来が見えた
mu7889yoon
0
130
元・セキュリティ学習経験0大学生による業務紹介 / An Introduction to the Job by a Former College Student with Zero Security Training Experience
nttcom
0
170
AWS Security Agent といっしょに脅威モデリングをやってみよう
amarelo_n24
1
210
AI 不只幫你寫 Code: 當專案從 300 暴增到 1500, 我們如何撐住 DevOps
appleboy
0
230
AI時代のコスト管理を考えよう〜明日から使える実践AWSノウハウ~
yoshimi0227
0
870
気軽に使える"情報のハブ"としてのNotion活用 〜フロー情報の集積点 と、 Claude Code × Notion AI〜
syucream
1
200
Comment regagner la souveraineté de vos données tout en étant payé grâce à Nostr !
rlifchitz
0
200
40代で“やっとエンジニアになれた”――閉じた学びを開き、空の青さを知る / 20260628 Naoki Takahashi
shift_evolve
PRO
4
870
感情と身体を置き去りにしない、エンジニアの生きのこり方 ──いまから、ここから「自分の状態」を扱うという選択
saorimurooka
0
340
秘密度ラベル初心者が第1歩でつまづかないための「設計・運用」ポイント
seafay
PRO
1
480
飲食店もAIで。レジ締めやハンディシステムをつくってる話 / Using AI for restaurant management
vtryo
0
180
Featured
See All Featured
Building a A Zero-Code AI SEO Workflow
portentint
PRO
0
610
Crafting Experiences
bethany
1
190
Impact Scores and Hybrid Strategies: The future of link building
tamaranovitovic
0
310
The Cost Of JavaScript in 2023
addyosmani
55
10k
Collaborative Software Design: How to facilitate domain modelling decisions
baasie
1
250
WENDY [Excerpt]
tessaabrams
11
38k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.8k
BBQ
matthewcrist
89
10k
Why You Should Never Use an ORM
jnunemaker
PRO
61
9.9k
The SEO identity crisis: Don't let AI make you average
varn
0
500
Music & Morning Musume
bryan
47
7.2k
Redefining SEO in the New Era of Traffic Generation
szymonslowik
1
340
Transcript
Incident Response Infra Study Meetup #3 LT Merpay SRE @tjun
Junichiro Takagi https://speakerdeck.com/tjun/infra-study-3
「インシデント対応やってますか?」
今日のテーマ Incident Response • できればやりたくない • でもSREをやるなら避けられない • どうすれば、より健全なIncident Responseができるか
今日の話は https://response.pagerduty.com/ の超ざっくりしたまとめ なので、詳しくは読んでほしい
はじめに Incident とは 予期せず提供しているサービスが利用できない状態になったり、 期待している機能が提供できない状態
はじめに Incident とは 予期せず提供しているサービスが利用できない状態になったり、 期待している機能が提供できない状態 Incident Response とは Incidentを解決・管理するための組織的なしくみ。 問題を解決するだけでなく、被害を減らしたり解決までの時間やコストを減らす
取り組みも含まれる。 エンジニアだけじゃなく、Customer Support、PM、PRなども関わる。
Incident 前に やること • 心構え: Incidentは必ず起きる…! • Incident, Severity を定義する
• Trigger を用意する • 役割を決める(Incident Commander等) • コミュニケーションの仕組みを 用意する
Incident 中に やること • 心構え: 慌てない • 必要なメンバーを招集する • 役割ごとに必要な対応を行う
◦ Incident Commander 関係者に連絡しSlackで指示を出す ◦ エンジニア 問題を調査し解決方法を提案・実行する
Incident 後に やること • 心構え: Blameless ( 人を責めない ) •
Post-mortem(振り返り) を行う ◦ What Happened? ◦ Impact ◦ Resolution ◦ Timeline ◦ うまくできたこと、だめだったこと ◦ Action Items
Incident Response をはじめよう 1. インシデントを定義する 2. コミュニケーションの仕組みを作る ◦ アラート設定、Slackで集まるChannel、などを用意 3.
インシデント対応の役割を決める ◦ Incident Commanderを決める 4. Post-mortemのテンプレを作る ◦ https://landing.google.com/sre/sre-book/chapters/postmortem/ などが参考になる 5. 練習する 6. 実際のインシデントで実行する
まとめ • Incident Response はSREだけのものではない、組織的な 仕組みづくりが必要。できるところから始めよう • 適切な準備をして、健全な運用を作りましょう