Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
hacomonoポストモーテムの取り組み(2023/09)
Search
hacomono Inc.
PRO
September 14, 2023
Technology
1
920
hacomonoポストモーテムの取り組み(2023/09)
https://findy.connpass.com/event/294084/
hacomono Inc.
PRO
September 14, 2023
Tweet
Share
More Decks by hacomono Inc.
See All by hacomono Inc.
hacomonoにおけるプロダクトエンジニアの役割と生態
hacomono
PRO
5
440
"ウルトラジャンプ" な成長を支えるプロダクトエンジニアというキャリア
hacomono
PRO
2
630
PoCに向けた最小限の機能開発で考えたこととしくじり
hacomono
PRO
0
480
「ここは俺に任せておまえは先に行け」hacomono運用保守部の紹介
hacomono
PRO
0
57
hacomonoのRailsプロダクトにおけるテストの実状とこれから
hacomono
PRO
0
110
hacomonoで頑張るSRE: クラウドガバナンス&クラウドセキュリティ編
hacomono
PRO
0
200
hacomono アーキテクチャのリアル ~スタートアップが直面する技術的負債~
hacomono
PRO
0
200
BtoB SaaS プロダクトでの要件定義のリアル
hacomono
PRO
0
52
Nuxt2 -> 3 を戦っていくには
hacomono
PRO
0
130
Other Decks in Technology
See All in Technology
EMとして2023年度に頑張ったこと / What we did well in FY2023 as a EM
pauli
1
210
Grafana x PagerDuty Better Together
jacopen
1
250
AWS学習者向けにAzureの解説スライドを作成した話
handy
3
190
require(ESM)とECMAScript仕様
uhyo
4
950
エンジニア候補者向け資料2024.04.24.pdf
macloud
0
3.3k
Google Cloud Next '24 Recap(Cloud Run/k8s)
mokocm
0
330
MixIT 2024 - Pulumi : Gérer son infra avec son langage de programmation préféré
ju_hnny5
1
120
MLOpsの「壁」を乗り越える、LINEヤフーの Data Quality as Code
lycorptech_jp
PRO
8
620
推しは推せるときに推せ! プロダクトにフィードバックしていこう
nakasho
0
460
20分で完全に理解するGrafanaダッシュボード
hamadakoji
5
890
Azure Container Apps + Bicep 〜 こんな感じで運用しています
kaz29
3
620
MapLibreとAmazon Location Service
dayjournal
1
180
Featured
See All Featured
Atom: Resistance is Futile
akmur
260
25k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
117
18k
Building Applications with DynamoDB
mza
88
5.6k
The Brand Is Dead. Long Live the Brand.
mthomps
49
29k
The MySQL Ecosystem @ GitHub 2015
samlambert
244
12k
Designing for Performance
lara
602
67k
Why You Should Never Use an ORM
jnunemaker
PRO
51
8.7k
Building Your Own Lightsaber
phodgson
100
5.7k
Done Done
chrislema
178
15k
StorybookのUI Testing Handbookを読んだ
zakiyama
13
4.6k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
13
8.3k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
358
22k
Transcript
Last Update 2022.03.16 hacomonoでのポストモーテムの取り組み 株式会社hacomono CTO室 EM 横山 司
None
3 3 店舗・施設の業務管理システム / マイページ がオールインワン 店舗内 予約 入会 決済
マイページ 会員管理 月謝自動化 チケット 管理 シフト管理 会員マイページ 予約管理 マネジメント機能 店頭物販 Iotドア連携 チェック イン 店頭予約 マシン連携 入退館
Confidential Series C|hacomono Data 4 4 hacomonoの2022年から2023年の推移 導入店舗数 チャーンレート 年間キャッシュレス決済額
年間NRR 累計ユーザー登録数 1,100 3,000 店舗 店舗 (2022年1月末時点) (2023年4月時点) 0.5% 以下 閉店・経営難以外の解約は ほぼ“ゼロ”をキープ 2023年4月現在 約 3 倍の導入店舗数増 125% 135 (2022年) (2023年) % 安定した10%の成長 約4倍の決済額増 200 310 (2022年) (2023年) 約110万人以上のユーザー増加 56億円 227 (2022年) (2023年) 億円 約 約 万人 約 万人 約
5 ビジネスの急成長 → 組織の急拡大 → プロダクトの複雑化 多種多様なインシデント増大 - 組み合わせエッジケースで起こるバグ - 大手顧客のデータ量/同時アクセス数でのパフォーマンスダウン - インフラ、アーキテクチャレベルの設計に起因する問題 -
リリース手順、監視手順などオペレーショナル・エクセレンスに関わる問題 SREなど特定メンバーの負荷増大、プロセスなどの不備が露呈 組織的な取り組みの検討(2023/03〜) ポストモーテム重要性の取り組み
6 1. 体制 PSIRTの組成 2. プロセス インシデントガイドライン、ポストモーテムテンプレート、各種基準などフローや仕組みの整備 3. 仕組み SLOダッシュボード、インシデントトレンド、インシデントと紐づけた再発防止策のタスク管理、
週次振り返り 4. 文化 開発チームの月次イベントでの共有、専用Slackチャンネルでの称賛 hacomonoでの取り組み
7 1. 体制 PSIRTの組成 2. プロセス インシデントガイドライン、ポストモーテムテンプレート、各種基準などフローや仕組みの整備 3. 仕組み SLOダッシュボード、インシデントトレンド、インシデントと紐づけた再発防止策のタスク管理、
週次振り返り 4. 文化 開発チームの月次イベントでの共有、専用Slackチャンネルでの称賛 hacomonoでの取り組み
8 体制 : PSIRTの立ち上げ
9 1. 体制 PSIRTの組成 2. プロセス インシデントガイドライン、ポストモーテムテンプレート、各種基準などフローや仕組みの整備 3. 仕組み SLOダッシュボード、インシデントトレンド、インシデントと紐づけた再発防止策のタスク管理、
週次振り返り 4. 文化 開発チームの月次イベントでの共有、専用Slackチャンネルでの称賛 hacomonoでの取り組み
10 プロセス : インシデントガイドライン
11 プロセス : インシデント体制と役割
12 プロセス : インシデントレポート &ポストモーテムテンプレート
13 プロセス : インシデントレポート &ポストモーテムテンプレート
14 1. 体制 PSIRTの組成 2. プロセス インシデントガイドライン、ポストモーテムテンプレート、各種基準などフローや仕組みの整備 3. 仕組み SLOダッシュボード、インシデントトレンド、インシデントと紐づけた再発防止策のタスク管理、
週次振り返り 4. 文化 開発チームの月次イベントでの共有、専用Slackチャンネルでの称賛 hacomonoでの取り組み
15 仕組み : SLOダッシュボード
16 仕組み : SLOダッシュボード
17 仕組み: インシデントと再発防止策の関連付け
18 1. 体制 PSIRTの組成 2. プロセス インシデントガイドライン、ポストモーテムテンプレート、各種基準などフローや仕組みの整備 3. 仕組み SLOダッシュボード、インシデントトレンド、インシデントと紐づけた再発防止策のタスク管理、
週次振り返り 4. 文化 開発チームの月次イベントでの共有、専用Slackチャンネルでの称賛 hacomonoでの取り組み
19 文化
20 インシデント→ポストモーテム→学習&再発防止策→Action hacomonoこれまでの取り組み の流れを作った ポストモーテムからの学びの例 - 障害訓練の実施(新入社員のオンボーディングにも) - SREによる監視ツールの講習会 -
影響調査で使うSQLのシェア - Statuspageの導入 (もっと簡単に社外告知したい )
21 開発チームの外側に課題があることが多い点が アジャイル(スクラム)開発の難しさと似ている ポストモーテムの難しさ ✓そもそもプロダクトの品質課題 ✓組織文化の課題 ✓組織間連携など体制面の課題 ✓スキル課題
22 改善していきたいポイント - 短期対応 vs 根本対策のバランス - 何が起きていたかをどこまで掘り下げるべきか - 再発防止策がずれていて再発しちゃう問題
- やることを増やすだけではなく減らすこと - 特定チームや個人ではなく組織全体での学習にすること ポストモーテムの難しさ
https://www.hacomono.jp/