Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
trocco®での インシデント重大度表(SEVレベル表)運用
Search
Kenta Suzuki
October 25, 2023
Technology
0
2.2k
trocco®での インシデント重大度表(SEVレベル表)運用
組織拡大と共に発生するソフトウェア品質の課題と裏話LT@目黒 #primenumber_kayac
https://connpass.com/event/298302/
Kenta Suzuki
October 25, 2023
Tweet
Share
More Decks by Kenta Suzuki
See All by Kenta Suzuki
Ruby はじめての型 Gotanda.rb 2023/04/20
kekekenta
0
250
trocco® の品質を守る、とても普通な取り組み
kekekenta
0
4.4k
Embulkを利用したデータ統合SaaSの構築と運用
kekekenta
2
4.5k
Kubernetes (EKS) で構築する スケーラブルなジョブ実行基盤
kekekenta
7
6.1k
Other Decks in Technology
See All in Technology
B2B SaaSから見た最近のC#/.NETの進化
sansantech
PRO
0
730
ドメイン名の終活について - JPAAWG 7th -
mikit
33
20k
オープンソースAIとは何か? --「オープンソースAIの定義 v1.0」詳細解説
shujisado
7
730
フルカイテン株式会社 採用資料
fullkaiten
0
40k
AWS Media Services 最新サービスアップデート 2024
eijikominami
0
190
【若手エンジニア応援LT会】ソフトウェアを学んできた私がインフラエンジニアを目指した理由
kazushi_ohata
0
150
[FOSS4G 2024 Japan LT] LLMを使ってGISデータ解析を自動化したい!
nssv
1
210
ISUCONに強くなるかもしれない日々の過ごしかた/Findy ISUCON 2024-11-14
fujiwara3
8
870
複雑なState管理からの脱却
sansantech
PRO
1
140
Making your applications cross-environment - OSCG 2024 NA
salaboy
0
180
VideoMamba: State Space Model for Efficient Video Understanding
chou500
0
190
Amplify Gen2 Deep Dive / バックエンドの型をいかにしてフロントエンドへ伝えるか #TSKaigi #TSKaigiKansai #AWSAmplifyJP
tacck
PRO
0
370
Featured
See All Featured
What's in a price? How to price your products and services
michaelherold
243
12k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
48k
5 minutes of I Can Smell Your CMS
philhawksworth
202
19k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
28
2k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
4
370
Designing for humans not robots
tammielis
250
25k
Fashionably flexible responsive web design (full day workshop)
malarkey
405
65k
It's Worth the Effort
3n
183
27k
Documentation Writing (for coders)
carmenintech
65
4.4k
Producing Creativity
orderedlist
PRO
341
39k
A Modern Web Designer's Workflow
chriscoyier
693
190k
A designer walks into a library…
pauljervisheath
203
24k
Transcript
trocco®での インシデント重大度表(SEVレベル表)運用 2023.10.20 「組織拡大と共に発生するソフトウェア品質の課題と裏話LT@目黒」 primeNumber CTO Kenta Suzuki (@kekekenta)
©primeNumber Inc. 2 資料の内容 • インシデント重大度表(SEVレベル表)運用の効果 • 過去にtrocco®でSEVレベル表を作成した際の、実際の手順
会社概要 会社名 代表 創業 Office COMPANY 株式会社primeNumber 代表取締役CEO 田邊 雄樹
2015年11月 東京都品川区上大崎3丁目1番1号 JR東急目黒ビル5F 3
あらゆるデータを、 ビジネスの力に変える。 primeNumberは、データテクノロジーカンパニー。 あらゆるデータが爆発的に増えていく時代に、 誰もがすばやく、簡単にデータを使える環境を構築し、 データ活⽀までのプロセスを最適化。 ⽀度なテクノロジーと独⽀のアイデアで、 世界中のビジネスを⽀援します。 V I
S I O N 4
©primeNumber Inc. trocco®とは A B O U T 5
©primeNumber Inc. 6 trocco®とは trocco®とは、データ統合を自動化し、データエンジニアリングにかかる工数を削減するSaaSです。 データをビジネスに活用するまでのステップ 「データ統合」を自動化し、データエンジニアリングにかかる工数を削減
©primeNumber Inc. 7 trocco®とは デモ動画URL:https://trocco.io/lp/index.html
©primeNumber Inc. 8 trocco®とは フルマネージド ETL/ELT 日本特有のサービスを含めた、約100種のコネクタに対応 データ分析基盤のための技術スタックを提供するサービスです。 GUI ワークフロー
複雑なデータ処理フローを GUI 上で設定・運用 データマネジメント機能 データリネージ / Git 連携・コード管理 / スキーマ追従 / データカタログ etc.
©primeNumber Inc. 9 プロダクトの規模拡大と開発組織拡大 にともない、 大小問わずインシデントの発生頻度や対応の複雑さが増す。 プロダクトの規模拡大とインシデント
©primeNumber Inc. 10 インシデントへの向き合い方 • 大前提として、インシデントは少ないほうが良い ◦ お客様には可能な限り安定的にtrocco®を利用していただきたく、そのための 改善努力を日々行っています •
しかし、インシデントの発生は避けられないのは事実 ◦ 皆さんの組織でも、軽微なものを含めてインシデントは必ず発生しているはず
©primeNumber Inc. 11 インシデントは発生前提で考える インシデントが発生した場合に、 早期に気づき、報告が挙げられ、 チームが解決に注力し、 ユーザー影響を最小にすることが重要
©primeNumber Inc. 12 インシデントをより早く解決するためには、社内の認識を揃えることが重要 • 何が重大なインシデントで、どのような対応(報告/改修)を するべきなのかの社内認識を揃えることで、問題の解決に注 力できる
©primeNumber Inc. 13 • 重大度レベル表(SEV表) を定義し運用するのが効果的 ◦ SEV = Severity
• 各社定義しているAtlassianの例 ◦ SEV レベルの定義が明確であればあるほど、チームの認識が揃って、インシデントが発生 したときに迅速かつ適切に対応できる可能性が高くなります。重大度レベルが明確に定義 されていないと、インシデントを解決するのではなく、インシデントの緊急性を定義して 説明するために大切な時間を無駄に費やしてしまいがちです。 https://www.atlassian.com/ja/incident-management/kpis/severity-levels 重大度レベル表(SEV表)
©primeNumber Inc. 14 SEV表: PagerDutyの例
©primeNumber Inc. 15 SEV表の中身 • 各レベルごとに次の内容を記載 ◦ 事象例: どんな問題がこのレベルに該当するのか ◦
対応: 推奨される連絡方法、開発の優先度 SEV表を見れば、誰もが重大度を認識し、適切な行動を取れる
©primeNumber Inc. 16 (※実際のものとは異なります)trocco®で運用しているSEV表
©primeNumber Inc. 17 trocco®において、過去にSEV表を作成した際の手順 1. 問題が発生した際の対応方法をリストアップする -> SEVレベル数の決定 2. 各SEVレベルに、過去のインシデントを割り当ててみる
3. 割り当てたインシデントを元に、各SEVの事象を言語化 4. 運用開始に向け、CSチームとの連携フローをすり合わせ 5. インシデント発生タイミングでSEVの妥当性を振り返る
©primeNumber Inc. 18 1. 問題が発生した際の対応方法をリストアップする SEV表の策定手順 trocco®では、次の5パターンに対応が分かれる • 営業時間外問わず対応 ◦
1. 「最優先で修正対応を行う」「経営陣への通達を行う」 ◦ 2. 「最優先で修正対応を行う」 • 営業時間内で対応 ◦ 3. 「最優先で修正対応を行う」 ◦ 4. 「通常の開発よりも、優先度を上げて対応する」 ◦ 5. 「通常の開発プロセスにおける優先度判断で対応する」
©primeNumber Inc. 19 2. 各SEVレベルに、過去のインシデントを割り当ててみる • それぞれのインシデントでどの対応を取るべきだったかをエンジニ ア、CSで議論 • trocco®では、インシデント発生時にポストモーテム資料を作成して
いおり、過去の問題を簡単に振り返ることができる。 ◦ 1人目の専任SREがポストモーテム文化を改善したらエンジニア以外 にも広まり、他部門との連携も強化された話| Hiroki Takatsuka SEV表の策定手順
©primeNumber Inc. 20 3. 過去のインシデントを元に、各SEVの事象を言語化 • 例 ◦ ユーザーが運用中のデータパイプラインで突然trocco®起因のエ ラーが発生するインシデントは重要度が高いと考え、最優先で対
応していることがわかった。 ▪ SEV表を通して改めて言語化を行い、各チームで共通認識 を持った。 SEV表の策定手順
©primeNumber Inc. 21 4. 運用開始に向け、CSチームとの連携フローをすり合わせ • CSチームと会話し、CS->エンジニアチームへの報 告フローについての整合性を取る SEV表の策定手順
©primeNumber Inc. 22 5. 定期的にSEVの妥当性を振り返る • 作って終わりではなく、継続的に運用改善してい くのが大事 • 定期的にSEVの判断軸が妥当かを検討する
SEV表の策定手順
©primeNumber Inc. 23 SEV表の運用を通してのまとめ • 重大度の認識と対応方法が明確になり、より問題の解消にフォーカスでき るようになった ◦ 「SEV-4なので、すぐの対応は不要」「SEV-3が見込まれるので調査を進め、hotfixでリリースし ましょう」など、調査と認識合わせに時間がかかる時間が短くなった。
ぜひtrocco®のSEV表作成手順を参考に、自社でも考えてみて ください。
©primeNumber Inc. 鈴木 健太 WHO AM I? 株式会社primeNumber CTO プロダクト開発本部
VP • 趣味:ランニング、読書 1 24