Slide 1

Slide 1 text

SRE成熟度評価における ポストモーテムLv.3ガイドライン @ポストモーテムLT会 柘植 翔太(@shotaTsuge)

Slide 2

Slide 2 text

柘植翔太 Tsuge Shota •株式会社サイバーエージェント メディア統括本部サービスリライアビリティグループ(SRG) マネージャー(事業責任者) CyberAgent Developer Expert of SRE @shotaTusge https://ca-srg.dev

Slide 3

Slide 3 text

1.SRGとSRE成熟度評価について 2.ポストモーテムLv.3ガイドライン 3.まとめ 4.宣伝

Slide 4

Slide 4 text

SRGとSRE成熟度評価 について

Slide 5

Slide 5 text

SRGについて •メディア管轄横断のSRE組織 •社内向けのSRE as a Serviceを提供し、 サービスの信頼性向上へ貢献している Ameba、AWA、CL、社内基盤サービスなど、100以上のサービス・システムを担当 ※ 過去には、ABEMAやタップルや新R25なども担当

Slide 6

Slide 6 text

SRE成熟度評価について •横断的にSRE推進するために開発したフレームワーク 能力成熟度モデル統合をベースに作成している 評価項目は、サービス信頼性の断層を参考にしている 潜在/顕在リスクを整理し、中長期的な計画が立てやすくなる

Slide 7

Slide 7 text

https://speakerdeck.com/shotatsuge/ca-sre-promotion

Slide 8

Slide 8 text

ポストモーテム LV.3ガイドライン

Slide 9

Slide 9 text

ポストモーテムLv.3ガイドライン •前提として 各プロダクトにおいての理想状態をLv.3としている •Lv.3ガイドライン 各項目のベストプラクティスを考える上での観点を質問にしたもの 汎用化のために、敢えて抽象的な質問にしている(あくまで参考) 各プロダクトにおいての理想状態は違うので、全てを満たしている必要はない

Slide 10

Slide 10 text

ポストモーテムLv.3ガイドライン •「インシデント発生時」「記載内容」「振り返り」の3つの分類の観点

Slide 11

Slide 11 text

ポストモーテムの課題と 解決に使えるプラクティス

Slide 12

Slide 12 text

ポストモーテムの課題 •目的の明文化もしくは共通認識が組織内でされていない •ポストモーテムの実施、運用負荷が高い •振り返りの場に、心理的安全性がない •実施することによって得られた成果が可視化されていない

Slide 13

Slide 13 text

課題解決に使えるプラクティス

Slide 14

Slide 14 text

課題解決に使えるプラクティス •目的の明文化もしくは共通認識が組織内でされていない •ポストモーテムの実施、運用負荷が高い その他 ポストモーテムを書くことによる負荷が高くなっていないかを定期的に話せる場を用意する。 障害レベルによって、記載項目を変更する

Slide 15

Slide 15 text

課題解決に使えるプラクティス •振り返りの場に、心理的安全性がない •実施することによって得られた成果が可視化されていない まずは、再発防止策や改善についてのアクションアイテムをチケット管理するところから始める 将来的には、下記指標などへの貢献を可視化できると良い 検出時間(TTD:Time to detect) 修復時間(TTR:Time to repair) 次の障害が発生するまでの間隔(TBF:Time between failures) Fig. その SLO は現実的ですか?SRE 的なリスク分析手法 


Slide 16

Slide 16 text

その他Tips

Slide 17

Slide 17 text

その他Tips •ポストモーテムを導入・改善する際のガイドラインとテンプレート

Slide 18

Slide 18 text

その他Tips •毎週のSRG_Chatting(雑談会)で、社内外の障害やポストモーテムの共有会を実施

Slide 19

Slide 19 text

まとめ

Slide 20

Slide 20 text

まとめ •ポストモーテムを組織に浸透させるために重要なこと ポストモーテムの目的を明文化し、組織内で共通認識できるようにしましょう ポストモーテムの運用負荷が高くなっていないかを定期的に確認しましょう 特定の個人やチームを避難するのではなく、むしろポストモーテムを書いてくれることを感謝しましょう まずは、再発防止策や改善についてのアクションアイテムをチケット管理するところから始めましょう

Slide 21

Slide 21 text

宣伝

Slide 22

Slide 22 text

SRE Technology Map •SRE Technology Map 弊社のSREチームの取り組みや事業部ごとの体制、カルチャーついて網羅的にまとめたもの https://www.cyberagent.co.jp/techinfo/info/detail/id=28998

Slide 23

Slide 23 text

採用情報 •キャリア採用 サイバーエージェントグループ エンジニア の求人一覧 【メディア事業部】SRE / Service Reliability Group(SRG) 【CAM】SREエンジニア •新卒採用 2025年度エンジニアコース新卒採用

Slide 24

Slide 24 text

ご清聴ありがとうございました