Upgrade to Pro — share decks privately, control downloads, hide ads and more …

1人目の専任SREがポストモーテム文化を改善したらエンジニア以外にも広まり、 他部門との連携も強化された話+

1人目の専任SREがポストモーテム文化を改善したらエンジニア以外にも広まり、 他部門との連携も強化された話+

Hiroki Takatsuka

September 13, 2023
Tweet

More Decks by Hiroki Takatsuka

Other Decks in Technology

Transcript

  1. 1人目の専任SREがポストモーテム文化を
    改善したらエンジニア以外にも広まり、
    他部門との連携も強化された話+
    株式会社primeNumber エンジニアリング本部 SRE
    Hiroki Takatsuka (@tk3fftk) ポストモーテムLT #2
    1

    View Slide

  2. 目次
    ● 自己紹介とtrocco®の紹介
    ● primeNumberにあったポストモーテム文化
    ● どのような改善を行ったか
    ● 結果として目に見える成果に繋がったもの
    ● まとめ
    2

    View Slide

  3. 先に今日の発表のまとめ
    3
    ● primeNumber社のポストモーテム文化を改善しました💪
    ● ポイントをふりかえると以下の2点に集約されそうです🙏
    ● まずは教科書通りに忠実にやる
    ○ 守破離の「守」をやるイメージ
    ○ 教科書は原典(GoogleのSRE本)にあたること
    ● 組織で自走できる文化ができるまでは啓蒙・推進活動を積極的に行う
    ○ 具体的にはポストモーテム作成、ふりかえりの設定とファシリテーター
    ○ あれはよいものだ、と認識してもらえると担当者でやろうというムーブになっていく、はず

    View Slide

  4. 目次
    ● 自己紹介とtrocco®の紹介
    ● primeNumberにあったポストモーテム文化
    ● どのような改善を行ったか
    ● 結果として目に見える成果に繋がったもの
    ● まとめ
    4

    View Slide

  5. 髙塚 広貴 (Hiroki Takatsuka)
    株式会社primeNumber エンジニアリング本部 SRE
    5
    ● ヤフー株式会社 (2016 ~ 2022)
    ○ CI/CDプラットフォーム Screwdriver.cd の
    SREチームのEMやスクラムマスターなど
    ● 株式会社primeNumber (2022 ~ )
    ○ trocco®のSRE
    ○ SREチームは現在2名 + 業務委託の方数名
    ● 猫
    ○ アル (アビシニアン ♂ 3歳半)

    View Slide

  6. trocco®とは
    6
    フルマネージド ETL/ELT
    日本特有のサービスを含めた、約100種のコネクタに対応
    データ分析基盤のための技術スタックを提供するサービスです。
    GUI ワークフロー
    複雑なデータ処理フローを GUI 上で設定・運用
    データマネジメント機能
    データリネージ / Git 連携・コード管理 / スキーマ追従 /
    データカタログ etc.

    View Slide

  7. 7
    約100種のコネクタで データを整備・集約
    データエンジニアが手を煩わせていた作業工程を、SaaS で簡単に巻き取ることが可能です。

    View Slide

  8. 目次
    ● 自己紹介とtrocco®の紹介
    ● primeNumberにあったポストモーテム文化
    ● どのような改善を行ったか
    ● 結果として目に見える成果に繋がったもの
    ● まとめ
    8

    View Slide

  9. エンジニアにポストモーテムを書く文化は存在していた
    ● GitHub issueテンプレの項目を埋める形
    ● インシデントの発生原因や影響範囲の共
    有/記録の観点が強い
    ● でも全然埋まってないとか、活用されて
    ないものも結構ある…
    ○ 右のやつみたいな感じ
    9

    View Slide

  10. せっかくのインシデントを無駄にしたくない
    ● ポストモーテム作成に関する課題
    ● ポストモーテム作成後の活用の仕方
    ● 上記2点について、ポストモーテムの目的の1つである「失敗から学ぶ」という
    観点から見ると改善の余地がありそうだと感じました👀
    (「せっかくのインシデントを無駄にする」というアンチパターンがシステム運用アンチパターンにも書かれていますよね)
    10

    View Slide

  11. 目次
    ● 自己紹介とtrocco®の紹介
    ● primeNumberにあったポストモーテム文化
    ● どのような改善を行ったか
    ● 結果として目に見える成果に繋がったもの
    ● まとめ
    11

    View Slide

  12. やったこと
    12
    ● ポストモーテムのGoogle Docs移行
    ● Google Docsのテンプレ機能でポストモーテムテンプレートを更新
    ● インシデント対応マニュアルの作成
    ● 「ポストモーテムふりかえり」の推進

    View Slide

  13. ポストモーテムのGoogle Docs移行 + テンプレ更新
    13
    ● 同時編集・コメント可能で社内でコラボレーションが容易なGoogle Docsを利用
    ○ GoogleのSRE本のChapter 15 (Postmortem Culture: Learning from Failure) の通り
    ■ > Real-time collaboration, An open commenting/annotation system, Email notifications
    ● というか本で「俺たちはこれ使ってるぜ」と書かれているツールそのもの
    ■ Google DocsはpN社で普段から利用していた
    ● (前職ではBox Notesを使っていましたが、欲しい機能があり心理的にも導入コストが
    低ければ何でもいいはず)
    ● 基本的には SRE本やSRE Workbookに忠実にテンプレートを更新
    ○ 対応に関わっていない人でも読めば何が起こったか追えるよう項目を追加
    ○ 再発防止のためのアクションに優先度をつけるように
    ○ 「インシデント対応からの学び」の項目を追加 などなど

    View Slide

  14. こんな感じ
    14

    View Slide

  15. インシデント対応マニュアルの作成
    ● インシデント発生時に行うフローをまとめた
    ○ 最低限「インシデント検知した人が何をしたらいいかわからない」状態を無くす目的
    ● ポストモーテム作成もインシデント対応フローに組み込み
    ● 一応対応フローチャートもMermaidで書いたよ!
    15

    View Slide

  16. でも、とっさにコンフル開いてマニュアル見れないよね…
    ● 別チームのエンジニアがSlackのカスタムレスポンス化してくれて浸透🎉
    ○ とあるインシデントのポストモーテムふりかえりの再発防止アクションでした
    16

    View Slide

  17. 「ポストモーテムふりかえり」の推進
    17
    ● ポストモーテムをベースに議論・再発防止策を検討するミーティング
    ○ これをprimeNumber社内では「ポストモーテムふりかえり」と呼んでいます
    ● インシデント発生時、率先してポストモーテムふりかえりを開催+ファシリ
    ● primeNumber社は他部署間の交流が活発
    ● ポストモーテムに関してもエンジニア組織だけに閉じてしまうのはもったいな
    い、と感じ、エンジニア組織以外にも「ポストモーテムふりかえり」を推進
    ● 例えばテクニカルライターチームに推進した例 👉

    View Slide

  18. ある日のSlack…
    18

    View Slide

  19. troccoヘルプドキュメントのヘッダに突然のランチメニューが
    19
    これ

    View Slide

  20. テクニカルライターチームの実験でしたとさ
    20

    View Slide

  21. こんにちは、ポストモーテムおじさんです
    21
    (※このときはまだ共有会って言ってますね)

    View Slide

  22. 前向きにふりかえろう
    ● 多くの人の時間を使ってまでふりかえりを行うべき理由の1つだと考えています⏳
    22

    View Slide

  23. 目次
    ● 自己紹介とtrocco®の紹介
    ● primeNumberにあったポストモーテム文化
    ● どのような改善を行ったか
    ● 結果として目に見える成果に繋がったもの
    ● 現在どう運用しているか (“プラス”部分)
    ● まとめ
    23

    View Slide

  24. 成果だと思っているもの
    ● ヒヤリハットもきっちり学びと改善に
    ○ 例えば、2023年1月の CircleCI のセキュリティインシデント
    ● ポストモーテムふりかえりを通じてカスタマーサクセスチームとの連携改善
    ● 開発チームのエンジニアから会社としての強みではないか、というコメントも
    24

    View Slide

  25. ● 👍 インシデント対応フローに組み込まれ、対応担当者がポストモーテム作
    成〜ふりかえりまで実施できている
    ● 👍 対応フローの改善についてもポストモーテムふりかえりで話せている
    ● 👍 (以前からできてますが) 責任を個人ではなくチームのものにできている
    ● 🙏 テンプレの改善 (改善の結果、形骸化してしまっている項目がある)
    ● 🙏 再発防止アクションの履行をSREチームでwatchしている
    ○ 「アクションが確実に実施されること」「実施できない場合に優先度・期日を変更した判断理由が書かれること」
    現在のポストモーテム運用について個人的 Good👍 / Motto🙏
    25

    View Slide

  26. 目次
    ● 自己紹介とtrocco®の紹介
    ● primeNumberにあったポストモーテム文化
    ● どのような改善を行ったか
    ● 結果として目に見える成果に繋がったもの
    ● まとめ
    26

    View Slide

  27. まとめ
    27
    ● primeNumber社のポストモーテム文化を改善しました💪
    ● ポイントをふりかえると以下の2点に集約されそうです🙏
    ● まずは教科書通りに忠実にやる
    ○ 守破離の「守」をやるイメージ
    ○ 教科書は原典(GoogleのSRE本)にあたること
    ● 組織で自走できる文化ができるまでは啓蒙・推進活動を積極的に行う
    ○ 具体的にはポストモーテム作成、ふりかえりの設定とファシリテーター
    ○ あれはよいものだ、と認識してもらえると担当者でやろうというムーブになっていく、はず

    View Slide

  28. trocco®を一緒に創ってくれる方を探しています👀
    ● 海外展開に向けて面白い経験ができると思うのでぜひ🙏
    ○ trocco® SRE
    ○ trocco® ソフトウェアエンジニア
    ○ セキュリティスペシャリスト
    ○ その他募集一覧 👉 https://herp.careers/v1/primenumber
    ● ゆるく交流しませんか?の会 pN meet up!@目黒 もやります🍻
    ○ 2023年9月29日(金)19:00~21:00 開催予定です!
    28

    View Slide

  29. 参考資料など
    ● 1人目の専任SREがポストモーテム文化を改善したらエンジニア以外にも広まり、他部門との連携も強化された話|Hiroki
    Takatsuka
    ● Example Postmortem, Google - Site Reliability Engineering
    29

    View Slide