OpsJAWS MEETUP25_みんなが幸せなインシデント管理
by
Ryo Yoshii
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
Ops JAWS Meetup#25 みんなが幸せなインシデント管理 2023年9月4日
Slide 2
Slide 2 text
2 自己紹介 経歴 HWエンジニア → 中小SIer → ERPコンサル → AWS パートナー → つながる会社 Follow Me prairie.cards →→→→→→→→→→→→ Community OpsJAWS, (AWS Community Builder) 好きな言葉 No human labor is no human error. Ryo Yoshii 吉井 亮
Slide 3
Slide 3 text
インシデントとは サービス停止、または、品質低下によって ユーザーに影響を与える事象 3
Slide 4
Slide 4 text
インシデント管理とは 各所への影響を最小限に留め、 早期にサービスを復旧させるプロセス 4
Slide 5
Slide 5 text
インシデント管理プロセス 1. 検出 2. 分類 3. 解決策の立案 4. 解決策の実施 5. 回復、クローズ 5
Slide 6
Slide 6 text
どこに不幸が あるでしょうか? 6 1. 検出 2. 分類 3. 解決策の立案 4. 解決策の実施 5. 回復、クローズ
Slide 7
Slide 7 text
アラート疲れ ● 重要度や緊急度で通知先を変える ● アラート本文に”意味”を持たせる 7
Slide 8
Slide 8 text
SLO と見比べる 稼働率 99.5 → 年間 43.8時間、月間 3.65時間 99.9 → 年間 8.76時間、月間 43.8分 99.95 → 年間 4.36時間、月間 21.9分 ※ 数時間ならオンコールでもいけそう ※ 43分だとNOCが必要 8
Slide 9
Slide 9 text
無いぞ、無いぞ、手順書 ● まずサービス回復 ● 根本解決のための証拠保全 ● エスカレーションも手順のうち 9
Slide 10
Slide 10 text
眠いけど引き継ぎはしよう ● ライブインシデント状況ドキュメント ● 対面、WebMtg 会話で引き継ぎ 10
Slide 11
Slide 11 text
俺たちはアベンジャーズだ ● つよつよエンジニアに頼らない ● 当人も悪い気がしていないようだ… 11
Slide 12
Slide 12 text
繰り返すこのインシデント、あのアラートはまるで恋だね また繰り返す このインシデント 繰り返さないように根本対策を! 12
Slide 13
Slide 13 text
私達は人間です ● 精神的、肉体的負担が増えてきたら インシデント対応から離れてもいい ● 持ち回り公平に 13
Slide 14
Slide 14 text
訓練 ● 最初のアサインはシャドーから ● 適切な研修 14
Slide 15
Slide 15 text
プロには報酬で報いる オンコール 応答・対応したら💴 対応しなくても当番になったら💴 15
Slide 16
Slide 16 text
THANK YOU 16