Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
trocco®での インシデント重大度表(SEVレベル表)運用
Search
Kenta Suzuki
October 25, 2023
Technology
3.6k
0
Share
trocco®での インシデント重大度表(SEVレベル表)運用
組織拡大と共に発生するソフトウェア品質の課題と裏話LT@目黒 #primenumber_kayac
https://connpass.com/event/298302/
Kenta Suzuki
October 25, 2023
More Decks by Kenta Suzuki
See All by Kenta Suzuki
エンジニア英語キャリア meetup #01 オープニングトーク
kekekenta
0
48
AI時代において英語学習は本当に必要? ~未経験からのバイリンガルキャリアの始め方を教えます~
kekekenta
0
140
ステップで始めるLLMを活用したデータ民主化
kekekenta
0
32
プロダクトオーナーから見たSOC2 _SOC2ゆるミートアップ#2
kekekenta
0
320
Ruby はじめての型 Gotanda.rb 2023/04/20
kekekenta
0
310
trocco® の品質を守る、とても普通な取り組み
kekekenta
0
5.7k
Embulkを利用したデータ統合SaaSの構築と運用
kekekenta
2
5.3k
Kubernetes (EKS) で構築する スケーラブルなジョブ実行基盤
kekekenta
7
6.5k
Other Decks in Technology
See All in Technology
UIライブラリに依存しすぎないReact Native設計を目指して
grandbig
0
170
今年注目する!データ分析プラットフォームでのAIの活用
nayuts
0
170
【技術書典20】OpenFOAM(自宅で深める流体解析)流れと熱移動(2)
kamakiri1225
0
340
国内外の生成AIセキュリティの最新動向 & AIガードレール製品「chakoshi」のご紹介 / Latest Trends in Generative AI Security (Domestic & International) & Introduction to AI Guardrail Product "chakoshi"
nttcom
4
1.6k
Shipping AI Agents — Lessons from Production
vvatanabe
0
300
Modernizing Your HCL Connections Experience: Visual Report to chain, Profile Enhancements, and AI Integration
wannesrams
0
220
巨大プラットフォームを進化させる「第3のROI」
recruitengineers
PRO
2
2k
要件定義の精度を高めるための型と生成AIの活用 / Using Types and Generative AI to Improve the Accuracy of Requirements Definition
haru860
0
220
GitHub Copilot CLI と VS Code Agent Mode の使い分け
tomokusaba
0
110
Good Enough Types: Heuristic Type Inference for Ruby
riseshia
1
380
MCPサーバーを中核としたAIエージェント開発と業務自動化/nikkei-tech-talk-45
nikkei_engineer_recruiting
0
100
Oracle Exadata Database Service on Cloud@Customer X11M (ExaDB-C@C) サービス概要
oracle4engineer
PRO
2
7.9k
Featured
See All Featured
Effective software design: The role of men in debugging patriarchy in IT @ Voxxed Days AMS
baasie
0
310
Producing Creativity
orderedlist
PRO
348
40k
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
110
Fireside Chat
paigeccino
42
3.9k
Side Projects
sachag
455
43k
Tips & Tricks on How to Get Your First Job In Tech
honzajavorek
1
500
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
11
900
The Curious Case for Waylosing
cassininazir
0
320
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
122
21k
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
500
How to Ace a Technical Interview
jacobian
281
24k
AI Search: Where Are We & What Can We Do About It?
aleyda
0
7.4k
Transcript
trocco®での インシデント重大度表(SEVレベル表)運用 2023.10.20 「組織拡大と共に発生するソフトウェア品質の課題と裏話LT@目黒」 primeNumber CTO Kenta Suzuki (@kekekenta)
©primeNumber Inc. 2 資料の内容 • インシデント重大度表(SEVレベル表)運用の効果 • 過去にtrocco®でSEVレベル表を作成した際の、実際の手順
会社概要 会社名 代表 創業 Office COMPANY 株式会社primeNumber 代表取締役CEO 田邊 雄樹
2015年11月 東京都品川区上大崎3丁目1番1号 JR東急目黒ビル5F 3
あらゆるデータを、 ビジネスの力に変える。 primeNumberは、データテクノロジーカンパニー。 あらゆるデータが爆発的に増えていく時代に、 誰もがすばやく、簡単にデータを使える環境を構築し、 データ活⽀までのプロセスを最適化。 ⽀度なテクノロジーと独⽀のアイデアで、 世界中のビジネスを⽀援します。 V I
S I O N 4
©primeNumber Inc. trocco®とは A B O U T 5
©primeNumber Inc. 6 trocco®とは trocco®とは、データ統合を自動化し、データエンジニアリングにかかる工数を削減するSaaSです。 データをビジネスに活用するまでのステップ 「データ統合」を自動化し、データエンジニアリングにかかる工数を削減
©primeNumber Inc. 7 trocco®とは デモ動画URL:https://trocco.io/lp/index.html
©primeNumber Inc. 8 trocco®とは フルマネージド ETL/ELT 日本特有のサービスを含めた、約100種のコネクタに対応 データ分析基盤のための技術スタックを提供するサービスです。 GUI ワークフロー
複雑なデータ処理フローを GUI 上で設定・運用 データマネジメント機能 データリネージ / Git 連携・コード管理 / スキーマ追従 / データカタログ etc.
©primeNumber Inc. 9 プロダクトの規模拡大と開発組織拡大 にともない、 大小問わずインシデントの発生頻度や対応の複雑さが増す。 プロダクトの規模拡大とインシデント
©primeNumber Inc. 10 インシデントへの向き合い方 • 大前提として、インシデントは少ないほうが良い ◦ お客様には可能な限り安定的にtrocco®を利用していただきたく、そのための 改善努力を日々行っています •
しかし、インシデントの発生は避けられないのは事実 ◦ 皆さんの組織でも、軽微なものを含めてインシデントは必ず発生しているはず
©primeNumber Inc. 11 インシデントは発生前提で考える インシデントが発生した場合に、 早期に気づき、報告が挙げられ、 チームが解決に注力し、 ユーザー影響を最小にすることが重要
©primeNumber Inc. 12 インシデントをより早く解決するためには、社内の認識を揃えることが重要 • 何が重大なインシデントで、どのような対応(報告/改修)を するべきなのかの社内認識を揃えることで、問題の解決に注 力できる
©primeNumber Inc. 13 • 重大度レベル表(SEV表) を定義し運用するのが効果的 ◦ SEV = Severity
• 各社定義しているAtlassianの例 ◦ SEV レベルの定義が明確であればあるほど、チームの認識が揃って、インシデントが発生 したときに迅速かつ適切に対応できる可能性が高くなります。重大度レベルが明確に定義 されていないと、インシデントを解決するのではなく、インシデントの緊急性を定義して 説明するために大切な時間を無駄に費やしてしまいがちです。 https://www.atlassian.com/ja/incident-management/kpis/severity-levels 重大度レベル表(SEV表)
©primeNumber Inc. 14 SEV表: PagerDutyの例
©primeNumber Inc. 15 SEV表の中身 • 各レベルごとに次の内容を記載 ◦ 事象例: どんな問題がこのレベルに該当するのか ◦
対応: 推奨される連絡方法、開発の優先度 SEV表を見れば、誰もが重大度を認識し、適切な行動を取れる
©primeNumber Inc. 16 (※実際のものとは異なります)trocco®で運用しているSEV表
©primeNumber Inc. 17 trocco®において、過去にSEV表を作成した際の手順 1. 問題が発生した際の対応方法をリストアップする -> SEVレベル数の決定 2. 各SEVレベルに、過去のインシデントを割り当ててみる
3. 割り当てたインシデントを元に、各SEVの事象を言語化 4. 運用開始に向け、CSチームとの連携フローをすり合わせ 5. インシデント発生タイミングでSEVの妥当性を振り返る
©primeNumber Inc. 18 1. 問題が発生した際の対応方法をリストアップする SEV表の策定手順 trocco®では、次の5パターンに対応が分かれる • 営業時間外問わず対応 ◦
1. 「最優先で修正対応を行う」「経営陣への通達を行う」 ◦ 2. 「最優先で修正対応を行う」 • 営業時間内で対応 ◦ 3. 「最優先で修正対応を行う」 ◦ 4. 「通常の開発よりも、優先度を上げて対応する」 ◦ 5. 「通常の開発プロセスにおける優先度判断で対応する」
©primeNumber Inc. 19 2. 各SEVレベルに、過去のインシデントを割り当ててみる • それぞれのインシデントでどの対応を取るべきだったかをエンジニ ア、CSで議論 • trocco®では、インシデント発生時にポストモーテム資料を作成して
いおり、過去の問題を簡単に振り返ることができる。 ◦ 1人目の専任SREがポストモーテム文化を改善したらエンジニア以外 にも広まり、他部門との連携も強化された話| Hiroki Takatsuka SEV表の策定手順
©primeNumber Inc. 20 3. 過去のインシデントを元に、各SEVの事象を言語化 • 例 ◦ ユーザーが運用中のデータパイプラインで突然trocco®起因のエ ラーが発生するインシデントは重要度が高いと考え、最優先で対
応していることがわかった。 ▪ SEV表を通して改めて言語化を行い、各チームで共通認識 を持った。 SEV表の策定手順
©primeNumber Inc. 21 4. 運用開始に向け、CSチームとの連携フローをすり合わせ • CSチームと会話し、CS->エンジニアチームへの報 告フローについての整合性を取る SEV表の策定手順
©primeNumber Inc. 22 5. 定期的にSEVの妥当性を振り返る • 作って終わりではなく、継続的に運用改善してい くのが大事 • 定期的にSEVの判断軸が妥当かを検討する
SEV表の策定手順
©primeNumber Inc. 23 SEV表の運用を通してのまとめ • 重大度の認識と対応方法が明確になり、より問題の解消にフォーカスでき るようになった ◦ 「SEV-4なので、すぐの対応は不要」「SEV-3が見込まれるので調査を進め、hotfixでリリースし ましょう」など、調査と認識合わせに時間がかかる時間が短くなった。
ぜひtrocco®のSEV表作成手順を参考に、自社でも考えてみて ください。
©primeNumber Inc. 鈴木 健太 WHO AM I? 株式会社primeNumber CTO プロダクト開発本部
VP • 趣味:ランニング、読書 1 24