Slide 1

Slide 1 text

ポストモーテム読書会 のすすめ id:taxintt / @taxin_tt 2024/07/05 Road To SRE NEXT@京都 1

Slide 2

Slide 2 text

自己紹介 ● 西川 拓志 ○ id: taxintt / @taxin_tt ● Mackerel開発チーム SRE 2

Slide 3

Slide 3 text

3 みなさん

Slide 4

Slide 4 text

4 ポストモーテム書いてますか?

Slide 5

Slide 5 text

5 ポストモーテム 「読んで」ますか?

Slide 6

Slide 6 text

ポストモーテムとは? ● post-mortem=事後検証 ○ > a medical examination of a dead person's body in order to find out the cause of death. ● インシデントの再発防止策を検討するための プロセス 6 https://dictionary.cambridge.org/ja/dictionary/english/post-mortem

Slide 7

Slide 7 text

7 https://sre.google/sre-book/postmortem-culture/

Slide 8

Slide 8 text

ポストモーテムとは? ● インシデントの再発防止策をまとめた社内向け のドキュメント ○ インシデントとそのインパクト ○ その緩和や解消のために行われたアクション ○ インシデントの根本原因 ○ インシデントの再発を避けるためのアクション 8

Slide 9

Slide 9 text

9 https://sre.google/workbook/postmortem-culture/

Slide 10

Slide 10 text

はてなのポストモーテム文化 ● ポストモーテムを書く文化がある ● 他チームのポストモーテムは社内ナレッジ ベースに載り、作成時には全社通知がくる ○ ポストモーテムの存在を知ることができる ○ 他チームのポストモーテムも閲覧できる 10

Slide 11

Slide 11 text

11 読むしかないでしょ

Slide 12

Slide 12 text

ポストモーテム読書会 ● 社内外のポストモーテムから題材を1つ選ぶ ● Cosenseを使いながら読書会を実施する ○ 読書 + コメント記入タイム (20 ~ 25分) ○ コメントをみながら議論をする (30分) ○ 議論の中で挙がったTODO を確認する (5分) 12

Slide 13

Slide 13 text

13

Slide 14

Slide 14 text

読書会やってよかったこと ● 「生きた」学びを得て、活用できる ○ 特に、社内のポストモーテムは障害原因から障害対応の 様子、再発防止策まで具体的なことが書いてある ○ 具体的な内容の方が、学びを得たり改善に繋げやすい 14

Slide 15

Slide 15 text

読書会やってよかったこと ○ インシデントの根本原因 ■ 「この障害、自分達のプロダクトでも発生し得るのでは? 」 ○ 障害対応のフロー・ドキュメント ■ いいと思った所を真似する、アレンジして取り入れる ○ インシデントの再発防止策 ■ 先んじて調査・実施することで障害を未然に防ぐ 15

Slide 16

Slide 16 text

読書会で出たTODO ● 障害対応のプロセスの改善 ○ 障害対応ドキュメントテンプレート、Runbookの改善 ○ メンテナンス時の考慮事項のドキュメント化 ● 監視ルールの点検会 ○ コンポーネントごとに監視が充足しているか点検する ● etc… 16

Slide 17

Slide 17 text

17

Slide 18

Slide 18 text

18 ポストモーテム 読んで活用していきましょう