Slide 1

Slide 1 text

Ops JAWS Meetup#25 みんなが幸せなインシデント管理 2023年9月4日

Slide 2

Slide 2 text

2 自己紹介 経歴 HWエンジニア → 中小SIer → ERPコンサル → AWS パートナー → つながる会社 Follow Me prairie.cards →→→→→→→→→→→→ Community OpsJAWS, (AWS Community Builder) 好きな言葉 No human labor is no human error. Ryo Yoshii 吉井 亮

Slide 3

Slide 3 text

インシデントとは サービス停止、または、品質低下によって ユーザーに影響を与える事象 3

Slide 4

Slide 4 text

インシデント管理とは 各所への影響を最小限に留め、 早期にサービスを復旧させるプロセス 4

Slide 5

Slide 5 text

インシデント管理プロセス 1. 検出 2. 分類 3. 解決策の立案 4. 解決策の実施 5. 回復、クローズ 5

Slide 6

Slide 6 text

どこに不幸が あるでしょうか? 6 1. 検出 2. 分類 3. 解決策の立案 4. 解決策の実施 5. 回復、クローズ

Slide 7

Slide 7 text

アラート疲れ ● 重要度や緊急度で通知先を変える ● アラート本文に”意味”を持たせる 7

Slide 8

Slide 8 text

SLO と見比べる 稼働率 99.5 → 年間 43.8時間、月間 3.65時間 99.9 → 年間 8.76時間、月間 43.8分 99.95 → 年間 4.36時間、月間 21.9分 ※ 数時間ならオンコールでもいけそう ※ 43分だとNOCが必要 8

Slide 9

Slide 9 text

無いぞ、無いぞ、手順書 ● まずサービス回復 ● 根本解決のための証拠保全 ● エスカレーションも手順のうち 9

Slide 10

Slide 10 text

眠いけど引き継ぎはしよう ● ライブインシデント状況ドキュメント ● 対面、WebMtg 会話で引き継ぎ 10

Slide 11

Slide 11 text

俺たちはアベンジャーズだ ● つよつよエンジニアに頼らない ● 当人も悪い気がしていないようだ… 11

Slide 12

Slide 12 text

繰り返すこのインシデント、あのアラートはまるで恋だね また繰り返す このインシデント 繰り返さないように根本対策を! 12

Slide 13

Slide 13 text

私達は人間です ● 精神的、肉体的負担が増えてきたら インシデント対応から離れてもいい ● 持ち回り公平に 13

Slide 14

Slide 14 text

訓練 ● 最初のアサインはシャドーから ● 適切な研修 14

Slide 15

Slide 15 text

プロには報酬で報いる オンコール 応答・対応したら💴 対応しなくても当番になったら💴 15

Slide 16

Slide 16 text

THANK YOU 16