Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SRE成熟度評価におけるポストモーテムLv.3ガイドライン

shotaTsuge
September 14, 2023

 SRE成熟度評価におけるポストモーテムLv.3ガイドライン

ポストモーテムLT会!「SRE成熟度評価」「社内共有会」カルチャーを醸成するためにやったこと
https://findy.connpass.com/event/294084/

□ Slide内資料リンク
SRG Portal
https://ca-srg.dev/
Developer Experts制度
https://www.cyberagent.co.jp/techinfo/info/detail/id=23823
データで見るサイバーエージェントグループのSREと横断的なSRE推進の取り組み
https://speakerdeck.com/shotatsuge/ca-sre-promotion
SRE Technology Map
https://www.cyberagent.co.jp/techinfo/info/detail/id=28998

サイバーエージェントグループ エンジニア の求人一覧
https://hrmos.co/pages/cyberagent-group/jobs?category=1479332733224841216
2025年度エンジニアコース新卒採用
https://www.cyberagent.co.jp/careers/special/students/tech/

shotaTsuge

September 14, 2023
Tweet

More Decks by shotaTsuge

Other Decks in Technology

Transcript

  1. SRE成熟度評価における
    ポストモーテムLv.3ガイドライン
    @ポストモーテムLT会
    柘植 翔太(@shotaTsuge)

    View Slide

  2. 柘植翔太 Tsuge Shota
    •株式会社サイバーエージェント
    メディア統括本部サービスリライアビリティグループ(SRG)
    マネージャー(事業責任者)
    CyberAgent Developer Expert of SRE
    @shotaTusge
    https://ca-srg.dev

    View Slide

  3. 1.SRGとSRE成熟度評価について
    2.ポストモーテムLv.3ガイドライン
    3.まとめ
    4.宣伝

    View Slide

  4. SRGとSRE成熟度評価
    について

    View Slide

  5. SRGについて
    •メディア管轄横断のSRE組織
    •社内向けのSRE as a Serviceを提供し、 サービスの信頼性向上へ貢献している
    Ameba、AWA、CL、社内基盤サービスなど、100以上のサービス・システムを担当
    ※ 過去には、ABEMAやタップルや新R25なども担当

    View Slide

  6. SRE成熟度評価について
    •横断的にSRE推進するために開発したフレームワーク
    能力成熟度モデル統合をベースに作成している
    評価項目は、サービス信頼性の断層を参考にしている
    潜在/顕在リスクを整理し、中長期的な計画が立てやすくなる

    View Slide

  7. https://speakerdeck.com/shotatsuge/ca-sre-promotion

    View Slide

  8. ポストモーテム
    LV.3ガイドライン

    View Slide

  9. ポストモーテムLv.3ガイドライン
    •前提として
    各プロダクトにおいての理想状態をLv.3としている
    •Lv.3ガイドライン
    各項目のベストプラクティスを考える上での観点を質問にしたもの
    汎用化のために、敢えて抽象的な質問にしている(あくまで参考)
    各プロダクトにおいての理想状態は違うので、全てを満たしている必要はない

    View Slide

  10. ポストモーテムLv.3ガイドライン
    •「インシデント発生時」「記載内容」「振り返り」の3つの分類の観点

    View Slide

  11. ポストモーテムの課題と
    解決に使えるプラクティス

    View Slide

  12. ポストモーテムの課題
    •目的の明文化もしくは共通認識が組織内でされていない
    •ポストモーテムの実施、運用負荷が高い
    •振り返りの場に、心理的安全性がない
    •実施することによって得られた成果が可視化されていない

    View Slide

  13. 課題解決に使えるプラクティス

    View Slide

  14. 課題解決に使えるプラクティス
    •目的の明文化もしくは共通認識が組織内でされていない
    •ポストモーテムの実施、運用負荷が高い
    その他
    ポストモーテムを書くことによる負荷が高くなっていないかを定期的に話せる場を用意する。
    障害レベルによって、記載項目を変更する

    View Slide

  15. 課題解決に使えるプラクティス
    •振り返りの場に、心理的安全性がない
    •実施することによって得られた成果が可視化されていない
    まずは、再発防止策や改善についてのアクションアイテムをチケット管理するところから始める
    将来的には、下記指標などへの貢献を可視化できると良い
    検出時間(TTD:Time to detect)
    修復時間(TTR:Time to repair)
    次の障害が発生するまでの間隔(TBF:Time between failures)
    Fig. その SLO は現実的ですか?SRE 的なリスク分析手法 


    View Slide

  16. その他Tips

    View Slide

  17. その他Tips
    •ポストモーテムを導入・改善する際のガイドラインとテンプレート

    View Slide

  18. その他Tips
    •毎週のSRG_Chatting(雑談会)で、社内外の障害やポストモーテムの共有会を実施

    View Slide

  19. まとめ

    View Slide

  20. まとめ
    •ポストモーテムを組織に浸透させるために重要なこと
    ポストモーテムの目的を明文化し、組織内で共通認識できるようにしましょう
    ポストモーテムの運用負荷が高くなっていないかを定期的に確認しましょう
    特定の個人やチームを避難するのではなく、むしろポストモーテムを書いてくれることを感謝しましょう
    まずは、再発防止策や改善についてのアクションアイテムをチケット管理するところから始めましょう

    View Slide

  21. 宣伝

    View Slide

  22. SRE Technology Map
    •SRE Technology Map
    弊社のSREチームの取り組みや事業部ごとの体制、カルチャーついて網羅的にまとめたもの
    https://www.cyberagent.co.jp/techinfo/info/detail/id=28998

    View Slide

  23. 採用情報
    •キャリア採用
    サイバーエージェントグループ エンジニア の求人一覧
    【メディア事業部】SRE / Service Reliability Group(SRG)
    【CAM】SREエンジニア
    •新卒採用
    2025年度エンジニアコース新卒採用

    View Slide

  24. ご清聴ありがとうございました

    View Slide