Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
OpsJAWS MEETUP25_みんなが幸せなインシデント管理
Search
Ryo Yoshii
September 05, 2023
Technology
0
850
OpsJAWS MEETUP25_みんなが幸せなインシデント管理
2023年9月4日開催 OpsJAWS Meetup#25 インシデント管理 で登壇した資料を公開します。
幸せになってほしい
Ryo Yoshii
September 05, 2023
Tweet
Share
More Decks by Ryo Yoshii
See All by Ryo Yoshii
EC2 の運用と監視の基本をおさらい 「監視、バックアップ、操作」
yoshiiryo1
0
110
re:Invent2023 現地レポ& Cloud Operation サービス Update
yoshiiryo1
0
100
Amazon CloudWatch Application Signals(Preview) 徹底解説
yoshiiryo1
0
440
増え続ける公開アプリケーションへの悪意あるアクセス_多層防御を取り入れるSRE活動_.pdf
yoshiiryo1
1
1.9k
AWS Systems Manager Incident Manager で実現するインシデント管理
yoshiiryo1
0
1k
インシデント対応の成熟度とベストプラクティス
yoshiiryo1
0
1.3k
OpsJAWS Meetup24 静的安定性を考える、依存しないアーキテクチャ
yoshiiryo1
0
790
DevelopersIO DayOne モノリスかマイクロサービスか、その選択に迷っている人へ届けたい話
yoshiiryo1
3
6.1k
新コンソールで再挑戦! Game Server RTA in JAWS-UG GameTech
yoshiiryo1
0
160
Other Decks in Technology
See All in Technology
地理空間データ可視化・解析・活用ソリューション Pacific Spatial Solutions (PSS)
pacificspatialsolutions
0
300
生成AIの変革の時代に、直近1年で直面した課題とその解決策
ktc_wada
0
370
ExaDB-D dbaascli で出来ること
oracle4engineer
PRO
0
2.1k
家族アルバム みてねにおけるGrafana活用術 / Grafana Meetup Japan Vol.1 LT
isaoshimizu
1
820
Postman v10リリース後を振り返る / Looking back at Postman v10 after release
yokawasa
1
160
いつか使うかも貯金してたらめちゃめちゃ機能が増えてた話
riyaamemiya
0
410
EMとして2023年度に頑張ったこと / What we did well in FY2023 as a EM
pauli
1
170
ChatGPT for IT Service Management (IT Pro)
dahatake
7
1.6k
ServiceNow Knowledge Learning Rise up
manarobot
0
210
JSON攻略法.pdf
miyakemito
8
5.1k
EM完全に理解した と思ったけど、 やっぱり何も分からなかった話 / EM Night Fukuoka #1
hirutas
0
100
【NW X Security JAWS#3】L3-4:AWS環境のIPv6移行に向けて知っておきたいこと
shotashiratori
0
430
Featured
See All Featured
A Tale of Four Properties
chriscoyier
151
22k
Side Projects
sachag
451
41k
Documentation Writing (for coders)
carmenintech
60
3.9k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
187
16k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
7
1k
A Modern Web Designer's Workflow
chriscoyier
689
190k
The Invisible Customer
myddelton
114
12k
Put a Button on it: Removing Barriers to Going Fast.
kastner
58
3.1k
Ruby is Unlike a Banana
tanoku
96
10k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
121
39k
Learning to Love Humans: Emotional Interface Design
aarron
267
39k
How to Ace a Technical Interview
jacobian
272
22k
Transcript
Ops JAWS Meetup#25 みんなが幸せなインシデント管理 2023年9月4日
2 自己紹介 経歴 HWエンジニア → 中小SIer → ERPコンサル → AWS
パートナー → つながる会社 Follow Me prairie.cards →→→→→→→→→→→→ Community OpsJAWS, (AWS Community Builder) 好きな言葉 No human labor is no human error. Ryo Yoshii 吉井 亮
インシデントとは サービス停止、または、品質低下によって ユーザーに影響を与える事象 3
インシデント管理とは 各所への影響を最小限に留め、 早期にサービスを復旧させるプロセス 4
インシデント管理プロセス 1. 検出 2. 分類 3. 解決策の立案 4. 解決策の実施 5.
回復、クローズ 5
どこに不幸が あるでしょうか? 6 1. 検出 2. 分類 3. 解決策の立案 4.
解決策の実施 5. 回復、クローズ
アラート疲れ • 重要度や緊急度で通知先を変える • アラート本文に”意味”を持たせる 7
SLO と見比べる 稼働率 99.5 → 年間 43.8時間、月間 3.65時間 99.9 →
年間 8.76時間、月間 43.8分 99.95 → 年間 4.36時間、月間 21.9分 ※ 数時間ならオンコールでもいけそう ※ 43分だとNOCが必要 8
無いぞ、無いぞ、手順書 • まずサービス回復 • 根本解決のための証拠保全 • エスカレーションも手順のうち 9
眠いけど引き継ぎはしよう • ライブインシデント状況ドキュメント • 対面、WebMtg 会話で引き継ぎ 10
俺たちはアベンジャーズだ • つよつよエンジニアに頼らない • 当人も悪い気がしていないようだ… 11
繰り返すこのインシデント、あのアラートはまるで恋だね また繰り返す このインシデント 繰り返さないように根本対策を! 12
私達は人間です • 精神的、肉体的負担が増えてきたら インシデント対応から離れてもいい • 持ち回り公平に 13
訓練 • 最初のアサインはシャドーから • 適切な研修 14
プロには報酬で報いる オンコール 応答・対応したら💴 対応しなくても当番になったら💴 15
THANK YOU 16