Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
OpsJAWS MEETUP25_みんなが幸せなインシデント管理
Search
Ryo Yoshii
September 05, 2023
Technology
0
1.4k
OpsJAWS MEETUP25_みんなが幸せなインシデント管理
2023年9月4日開催 OpsJAWS Meetup#25 インシデント管理 で登壇した資料を公開します。
幸せになってほしい
Ryo Yoshii
September 05, 2023
Tweet
Share
More Decks by Ryo Yoshii
See All by Ryo Yoshii
SRE は管理職に向いている
yoshiiryo1
6
5k
SRE with AI:実践から学ぶ、運用課題解決と未来への展望
yoshiiryo1
1
1.6k
2025-02-21 ゆるSRE勉強会 Enhancing SRE Using AI
yoshiiryo1
1
680
Enhancing SRE Using AI
yoshiiryo1
1
1.1k
Amazon Bedrock Agents と Chatbot で無敵のOpsになる
yoshiiryo1
1
250
組織横断型であるがゆえの楽しみと苦しみ
yoshiiryo1
4
1.3k
EC2 の運用と監視の基本をおさらい 「監視、バックアップ、操作」
yoshiiryo1
0
800
re:Invent2023 現地レポ& Cloud Operation サービス Update
yoshiiryo1
0
210
Amazon CloudWatch Application Signals(Preview) 徹底解説
yoshiiryo1
0
2k
Other Decks in Technology
See All in Technology
リアーキテクティングのその先へ 〜品質と開発生産性の壁を越えるプラットフォーム戦略〜 / architecture-con2025
visional_engineering_and_design
0
7k
AI開発の定着を推進するために揃えるべき前提
suguruooki
1
300
現地速報!Microsoft Ignite 2025 M365 Copilotアップデートレポート
kasada
2
1.7k
AIと自動化がもたらす業務効率化の実例: 反社チェック等の調査・業務プロセス自動化
enpipi
0
790
The Complete Android UI Testing Landscape: From Journey to Traditional Approaches
alexzhukovich
1
120
Building AI Applications with Java, LLMs, and Spring AI
thomasvitale
1
240
Service Monitoring Platformについて
lycorptech_jp
PRO
0
360
AI エージェント活用のベストプラクティスと今後の課題
asei
2
300
2025年 面白の現在地 / Where Omoshiro Stands Today: 2025
acidlemon
0
540
新しい風。SolidFlutterで実現するシンプルな状態管理
zozotech
PRO
0
140
AWS Media Services 最新サービスアップデート 2025
eijikominami
0
120
AI エージェントを評価するための温故知新と Spec Driven Evaluation
icoxfog417
PRO
2
720
Featured
See All Featured
Making the Leap to Tech Lead
cromwellryan
135
9.6k
A Tale of Four Properties
chriscoyier
162
23k
Music & Morning Musume
bryan
46
7k
Principles of Awesome APIs and How to Build Them.
keavy
127
17k
Building Adaptive Systems
keathley
44
2.8k
Faster Mobile Websites
deanohume
310
31k
The Invisible Side of Design
smashingmag
302
51k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
46
7.8k
Writing Fast Ruby
sferik
630
62k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.6k
Rebuilding a faster, lazier Slack
samanthasiow
84
9.3k
Code Reviewing Like a Champion
maltzj
527
40k
Transcript
Ops JAWS Meetup#25 みんなが幸せなインシデント管理 2023年9月4日
2 自己紹介 経歴 HWエンジニア → 中小SIer → ERPコンサル → AWS
パートナー → つながる会社 Follow Me prairie.cards →→→→→→→→→→→→ Community OpsJAWS, (AWS Community Builder) 好きな言葉 No human labor is no human error. Ryo Yoshii 吉井 亮
インシデントとは サービス停止、または、品質低下によって ユーザーに影響を与える事象 3
インシデント管理とは 各所への影響を最小限に留め、 早期にサービスを復旧させるプロセス 4
インシデント管理プロセス 1. 検出 2. 分類 3. 解決策の立案 4. 解決策の実施 5.
回復、クローズ 5
どこに不幸が あるでしょうか? 6 1. 検出 2. 分類 3. 解決策の立案 4.
解決策の実施 5. 回復、クローズ
アラート疲れ • 重要度や緊急度で通知先を変える • アラート本文に”意味”を持たせる 7
SLO と見比べる 稼働率 99.5 → 年間 43.8時間、月間 3.65時間 99.9 →
年間 8.76時間、月間 43.8分 99.95 → 年間 4.36時間、月間 21.9分 ※ 数時間ならオンコールでもいけそう ※ 43分だとNOCが必要 8
無いぞ、無いぞ、手順書 • まずサービス回復 • 根本解決のための証拠保全 • エスカレーションも手順のうち 9
眠いけど引き継ぎはしよう • ライブインシデント状況ドキュメント • 対面、WebMtg 会話で引き継ぎ 10
俺たちはアベンジャーズだ • つよつよエンジニアに頼らない • 当人も悪い気がしていないようだ… 11
繰り返すこのインシデント、あのアラートはまるで恋だね また繰り返す このインシデント 繰り返さないように根本対策を! 12
私達は人間です • 精神的、肉体的負担が増えてきたら インシデント対応から離れてもいい • 持ち回り公平に 13
訓練 • 最初のアサインはシャドーから • 適切な研修 14
プロには報酬で報いる オンコール 応答・対応したら💴 対応しなくても当番になったら💴 15
THANK YOU 16