Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
OpsJAWS MEETUP25_みんなが幸せなインシデント管理
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Ryo Yoshii
September 05, 2023
Technology
1.6k
0
Share
OpsJAWS MEETUP25_みんなが幸せなインシデント管理
2023年9月4日開催 OpsJAWS Meetup#25 インシデント管理 で登壇した資料を公開します。
幸せになってほしい
Ryo Yoshii
September 05, 2023
More Decks by Ryo Yoshii
See All by Ryo Yoshii
AIAgentを駆使してSREが貢献する開発体験の向上
yoshiiryo1
4
1.3k
SRE は管理職に向いている
yoshiiryo1
6
5.9k
SRE with AI:実践から学ぶ、運用課題解決と未来への展望
yoshiiryo1
1
2.2k
2025-02-21 ゆるSRE勉強会 Enhancing SRE Using AI
yoshiiryo1
1
770
Enhancing SRE Using AI
yoshiiryo1
1
1.2k
Amazon Bedrock Agents と Chatbot で無敵のOpsになる
yoshiiryo1
1
300
組織横断型であるがゆえの楽しみと苦しみ
yoshiiryo1
4
1.3k
EC2 の運用と監視の基本をおさらい 「監視、バックアップ、操作」
yoshiiryo1
0
970
re:Invent2023 現地レポ& Cloud Operation サービス Update
yoshiiryo1
0
240
Other Decks in Technology
See All in Technology
AI時代から振り返るTerraform drift運用の歴史 / AI Age Reflections on the History of Terraform Drift Operations
aeonpeople
0
610
Spring Boot における AOT Cache 活用テクニックと 起動時間改善事例
ntt_dsol_java
0
180
コードレビューを制するチームがソフトウェアデリバリーのフローを制す / Beyond Code Review: Distributing Its Responsibilities Across the SDLC
mtx2s
3
490
自称宇宙最速で不合格となったAIP-C01にリベンジを果たすべくAIで問題集アプリを作ってみた。
yama3133
0
250
PHP と TypeScript の型システム比較:AI 時代の「型」は誰のためにあるのか? #frontend_phpcon_do / frontend_phpcon_do_2026
shogogg
1
160
Java正規表現エンジン(NFA)の仕組みと パフォーマンスを維持するための最適化手法
takeuchi_132917
0
160
ビジュアルプログラミングIoTLT vol.23
1ftseabass
PRO
0
160
「コーディング」しない人のための Claude Code 入門 ChatGPT の次の一歩 — 業務に組み込む 育成・共有・自動化
rfdnxbro
1
430
ポスター発表&デモと総括 / Poster Presentations & Demonstrations and Summary
ks91
PRO
0
180
AIガバナンス実践 - 生成AIコネクタのデータ漏洩リスクと実務対策
knishioka
0
140
なぜハノーバーメッセに行くべきなのか 〜初参加だから語れること〜
tanakaseiya
0
190
Claude code Orchestra
ozakiomumkj
2
760
Featured
See All Featured
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
1
190
Art, The Web, and Tiny UX
lynnandtonic
304
21k
The Illustrated Children's Guide to Kubernetes
chrisshort
51
52k
Paper Plane (Part 1)
katiecoart
PRO
0
8.1k
エンジニアに許された特別な時間の終わり
watany
107
240k
Fashionably flexible responsive web design (full day workshop)
malarkey
408
66k
Utilizing Notion as your number one productivity tool
mfonobong
4
310
Test your architecture with Archunit
thirion
1
2.3k
The State of eCommerce SEO: How to Win in Today's Products SERPs - #SEOweek
aleyda
2
11k
BBQ
matthewcrist
89
10k
Docker and Python
trallard
47
3.9k
Statistics for Hackers
jakevdp
799
230k
Transcript
Ops JAWS Meetup#25 みんなが幸せなインシデント管理 2023年9月4日
2 自己紹介 経歴 HWエンジニア → 中小SIer → ERPコンサル → AWS
パートナー → つながる会社 Follow Me prairie.cards →→→→→→→→→→→→ Community OpsJAWS, (AWS Community Builder) 好きな言葉 No human labor is no human error. Ryo Yoshii 吉井 亮
インシデントとは サービス停止、または、品質低下によって ユーザーに影響を与える事象 3
インシデント管理とは 各所への影響を最小限に留め、 早期にサービスを復旧させるプロセス 4
インシデント管理プロセス 1. 検出 2. 分類 3. 解決策の立案 4. 解決策の実施 5.
回復、クローズ 5
どこに不幸が あるでしょうか? 6 1. 検出 2. 分類 3. 解決策の立案 4.
解決策の実施 5. 回復、クローズ
アラート疲れ • 重要度や緊急度で通知先を変える • アラート本文に”意味”を持たせる 7
SLO と見比べる 稼働率 99.5 → 年間 43.8時間、月間 3.65時間 99.9 →
年間 8.76時間、月間 43.8分 99.95 → 年間 4.36時間、月間 21.9分 ※ 数時間ならオンコールでもいけそう ※ 43分だとNOCが必要 8
無いぞ、無いぞ、手順書 • まずサービス回復 • 根本解決のための証拠保全 • エスカレーションも手順のうち 9
眠いけど引き継ぎはしよう • ライブインシデント状況ドキュメント • 対面、WebMtg 会話で引き継ぎ 10
俺たちはアベンジャーズだ • つよつよエンジニアに頼らない • 当人も悪い気がしていないようだ… 11
繰り返すこのインシデント、あのアラートはまるで恋だね また繰り返す このインシデント 繰り返さないように根本対策を! 12
私達は人間です • 精神的、肉体的負担が増えてきたら インシデント対応から離れてもいい • 持ち回り公平に 13
訓練 • 最初のアサインはシャドーから • 適切な研修 14
プロには報酬で報いる オンコール 応答・対応したら💴 対応しなくても当番になったら💴 15
THANK YOU 16