$30 off During Our Annual Pro Sale. View Details »

hacomonoポストモーテムの取り組み(2023/09)

hacomono Inc.
September 14, 2023

 hacomonoポストモーテムの取り組み(2023/09)

hacomono Inc.

September 14, 2023
Tweet

More Decks by hacomono Inc.

Other Decks in Technology

Transcript

  1. Last Update
    2022.03.16
    hacomonoでのポストモーテムの取り組み
    株式会社hacomono CTO室 EM 横山 司

    View Slide

  2. View Slide

  3. 3
    3
    店舗・施設の業務管理システム / マイページ がオールインワン
    店舗内
    予約
    入会
    決済
    マイページ
    会員管理
    月謝自動化
    チケット
    管理
    シフト管理
    会員マイページ
    予約管理
    マネジメント機能
    店頭物販 Iotドア連携
    チェック
    イン
    店頭予約
    マシン連携 入退館

    View Slide

  4. Confidential
    Series C|hacomono Data
    4
    4
    hacomonoの2022年から2023年の推移
    導入店舗数 チャーンレート 年間キャッシュレス決済額
    年間NRR 累計ユーザー登録数
    1,100
    3,000
    店舗
    店舗
    (2022年1月末時点)
    (2023年4月時点)
    0.5%
    以下
    閉店・経営難以外の解約は
    ほぼ“ゼロ”をキープ
    2023年4月現在
    約 3 倍の導入店舗数増
    125%
    135
    (2022年) (2023年)
    %
    安定した10%の成長
    約4倍の決済額増
    200
    310
    (2022年) (2023年)
    約110万人以上のユーザー増加
    56億円
    227
    (2022年) (2023年)
    億円
    約 約
    万人

    万人

    View Slide

  5. 5
    ビジネスの急成長 → 組織の急拡大 → プロダクトの複雑化
    多種多様なインシデント増大
    - 組み合わせエッジケースで起こるバグ
    - 大手顧客のデータ量/同時アクセス数でのパフォーマンスダウン
    - インフラ、アーキテクチャレベルの設計に起因する問題
    - リリース手順、監視手順などオペレーショナル・エクセレンスに関わる問題
    SREなど特定メンバーの負荷増大、プロセスなどの不備が露呈
    組織的な取り組みの検討(2023/03〜)
    ポストモーテム重要性の取り組み

    View Slide

  6. 6
    1. 体制
    PSIRTの組成
    2. プロセス
    インシデントガイドライン、ポストモーテムテンプレート、各種基準などフローや仕組みの整備
    3. 仕組み
    SLOダッシュボード、インシデントトレンド、インシデントと紐づけた再発防止策のタスク管理、
    週次振り返り
    4. 文化
    開発チームの月次イベントでの共有、専用Slackチャンネルでの称賛
    hacomonoでの取り組み

    View Slide

  7. 7
    1. 体制
    PSIRTの組成
    2. プロセス
    インシデントガイドライン、ポストモーテムテンプレート、各種基準などフローや仕組みの整備
    3. 仕組み
    SLOダッシュボード、インシデントトレンド、インシデントと紐づけた再発防止策のタスク管理、
    週次振り返り
    4. 文化
    開発チームの月次イベントでの共有、専用Slackチャンネルでの称賛
    hacomonoでの取り組み

    View Slide

  8. 8
    体制 : PSIRTの立ち上げ

    View Slide

  9. 9
    1. 体制
    PSIRTの組成
    2. プロセス
    インシデントガイドライン、ポストモーテムテンプレート、各種基準などフローや仕組みの整備
    3. 仕組み
    SLOダッシュボード、インシデントトレンド、インシデントと紐づけた再発防止策のタスク管理、
    週次振り返り
    4. 文化
    開発チームの月次イベントでの共有、専用Slackチャンネルでの称賛
    hacomonoでの取り組み

    View Slide

  10. 10
    プロセス : インシデントガイドライン

    View Slide

  11. 11
    プロセス : インシデント体制と役割

    View Slide

  12. 12
    プロセス : インシデントレポート &ポストモーテムテンプレート

    View Slide

  13. 13
    プロセス : インシデントレポート &ポストモーテムテンプレート

    View Slide

  14. 14
    1. 体制
    PSIRTの組成
    2. プロセス
    インシデントガイドライン、ポストモーテムテンプレート、各種基準などフローや仕組みの整備
    3. 仕組み
    SLOダッシュボード、インシデントトレンド、インシデントと紐づけた再発防止策のタスク管理、
    週次振り返り
    4. 文化
    開発チームの月次イベントでの共有、専用Slackチャンネルでの称賛
    hacomonoでの取り組み

    View Slide

  15. 15
    仕組み : SLOダッシュボード

    View Slide

  16. 16
    仕組み : SLOダッシュボード

    View Slide

  17. 17
    仕組み: インシデントと再発防止策の関連付け

    View Slide

  18. 18
    1. 体制
    PSIRTの組成
    2. プロセス
    インシデントガイドライン、ポストモーテムテンプレート、各種基準などフローや仕組みの整備
    3. 仕組み
    SLOダッシュボード、インシデントトレンド、インシデントと紐づけた再発防止策のタスク管理、
    週次振り返り
    4. 文化
    開発チームの月次イベントでの共有、専用Slackチャンネルでの称賛
    hacomonoでの取り組み

    View Slide

  19. 19
    文化

    View Slide

  20. 20
    インシデント→ポストモーテム→学習&再発防止策→Action
    hacomonoこれまでの取り組み
    の流れを作った
    ポストモーテムからの学びの例
    - 障害訓練の実施(新入社員のオンボーディングにも)
    - SREによる監視ツールの講習会
    - 影響調査で使うSQLのシェア
    - Statuspageの導入 (もっと簡単に社外告知したい
    )

    View Slide

  21. 21
    開発チームの外側に課題があることが多い点が
         アジャイル(スクラム)開発の難しさと似ている
    ポストモーテムの難しさ
    ✓そもそもプロダクトの品質課題
    ✓組織文化の課題
    ✓組織間連携など体制面の課題
    ✓スキル課題

    View Slide

  22. 22
    改善していきたいポイント
    - 短期対応 vs 根本対策のバランス
    - 何が起きていたかをどこまで掘り下げるべきか
    - 再発防止策がずれていて再発しちゃう問題
    - やることを増やすだけではなく減らすこと
    - 特定チームや個人ではなく組織全体での学習にすること
    ポストモーテムの難しさ

    View Slide

  23. https://www.hacomono.jp/

    View Slide