OpsJAWS MEETUP25_みんなが幸せなインシデント管理
by
Ryo Yoshii
×
Copy
Open
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Slide 1
Slide 1 text
Ops JAWS Meetup#25 みんなが幸せなインシデント管理 2023年9月4日
Slide 2
Slide 2 text
2 自己紹介 経歴 HWエンジニア → 中小SIer → ERPコンサル → AWS パートナー → つながる会社 Follow Me prairie.cards →→→→→→→→→→→→ Community OpsJAWS, (AWS Community Builder) 好きな言葉 No human labor is no human error. Ryo Yoshii 吉井 亮
Slide 3
Slide 3 text
インシデントとは サービス停止、または、品質低下によって ユーザーに影響を与える事象 3
Slide 4
Slide 4 text
インシデント管理とは 各所への影響を最小限に留め、 早期にサービスを復旧させるプロセス 4
Slide 5
Slide 5 text
インシデント管理プロセス 1. 検出 2. 分類 3. 解決策の立案 4. 解決策の実施 5. 回復、クローズ 5
Slide 6
Slide 6 text
どこに不幸が あるでしょうか? 6 1. 検出 2. 分類 3. 解決策の立案 4. 解決策の実施 5. 回復、クローズ
Slide 7
Slide 7 text
アラート疲れ ● 重要度や緊急度で通知先を変える ● アラート本文に”意味”を持たせる 7
Slide 8
Slide 8 text
SLO と見比べる 稼働率 99.5 → 年間 43.8時間、月間 3.65時間 99.9 → 年間 8.76時間、月間 43.8分 99.95 → 年間 4.36時間、月間 21.9分 ※ 数時間ならオンコールでもいけそう ※ 43分だとNOCが必要 8
Slide 9
Slide 9 text
無いぞ、無いぞ、手順書 ● まずサービス回復 ● 根本解決のための証拠保全 ● エスカレーションも手順のうち 9
Slide 10
Slide 10 text
眠いけど引き継ぎはしよう ● ライブインシデント状況ドキュメント ● 対面、WebMtg 会話で引き継ぎ 10
Slide 11
Slide 11 text
俺たちはアベンジャーズだ ● つよつよエンジニアに頼らない ● 当人も悪い気がしていないようだ… 11
Slide 12
Slide 12 text
繰り返すこのインシデント、あのアラートはまるで恋だね また繰り返す このインシデント 繰り返さないように根本対策を! 12
Slide 13
Slide 13 text
私達は人間です ● 精神的、肉体的負担が増えてきたら インシデント対応から離れてもいい ● 持ち回り公平に 13
Slide 14
Slide 14 text
訓練 ● 最初のアサインはシャドーから ● 適切な研修 14
Slide 15
Slide 15 text
プロには報酬で報いる オンコール 応答・対応したら💴 対応しなくても当番になったら💴 15
Slide 16
Slide 16 text
THANK YOU 16