Slide 1

Slide 1 text

1人目の専任SREがポストモーテム文化を 改善したらエンジニア以外にも広まり、 他部門との連携も強化された話+ 株式会社primeNumber エンジニアリング本部 SRE Hiroki Takatsuka (@tk3fftk) ポストモーテムLT #2 1

Slide 2

Slide 2 text

目次 ● 自己紹介とtrocco®の紹介 ● primeNumberにあったポストモーテム文化 ● どのような改善を行ったか ● 結果として目に見える成果に繋がったもの ● まとめ 2

Slide 3

Slide 3 text

先に今日の発表のまとめ 3 ● primeNumber社のポストモーテム文化を改善しました💪 ● ポイントをふりかえると以下の2点に集約されそうです🙏 ● まずは教科書通りに忠実にやる ○ 守破離の「守」をやるイメージ ○ 教科書は原典(GoogleのSRE本)にあたること ● 組織で自走できる文化ができるまでは啓蒙・推進活動を積極的に行う ○ 具体的にはポストモーテム作成、ふりかえりの設定とファシリテーター ○ あれはよいものだ、と認識してもらえると担当者でやろうというムーブになっていく、はず

Slide 4

Slide 4 text

目次 ● 自己紹介とtrocco®の紹介 ● primeNumberにあったポストモーテム文化 ● どのような改善を行ったか ● 結果として目に見える成果に繋がったもの ● まとめ 4

Slide 5

Slide 5 text

髙塚 広貴 (Hiroki Takatsuka) 株式会社primeNumber エンジニアリング本部 SRE 5 ● ヤフー株式会社 (2016 ~ 2022) ○ CI/CDプラットフォーム Screwdriver.cd の SREチームのEMやスクラムマスターなど ● 株式会社primeNumber (2022 ~ ) ○ trocco®のSRE ○ SREチームは現在2名 + 業務委託の方数名 ● 猫 ○ アル (アビシニアン ♂ 3歳半)

Slide 6

Slide 6 text

trocco®とは 6 フルマネージド ETL/ELT 日本特有のサービスを含めた、約100種のコネクタに対応 データ分析基盤のための技術スタックを提供するサービスです。 GUI ワークフロー 複雑なデータ処理フローを GUI 上で設定・運用 データマネジメント機能 データリネージ / Git 連携・コード管理 / スキーマ追従 / データカタログ etc.

Slide 7

Slide 7 text

7 約100種のコネクタで データを整備・集約 データエンジニアが手を煩わせていた作業工程を、SaaS で簡単に巻き取ることが可能です。

Slide 8

Slide 8 text

目次 ● 自己紹介とtrocco®の紹介 ● primeNumberにあったポストモーテム文化 ● どのような改善を行ったか ● 結果として目に見える成果に繋がったもの ● まとめ 8

Slide 9

Slide 9 text

エンジニアにポストモーテムを書く文化は存在していた ● GitHub issueテンプレの項目を埋める形 ● インシデントの発生原因や影響範囲の共 有/記録の観点が強い ● でも全然埋まってないとか、活用されて ないものも結構ある… ○ 右のやつみたいな感じ 9

Slide 10

Slide 10 text

せっかくのインシデントを無駄にしたくない ● ポストモーテム作成に関する課題 ● ポストモーテム作成後の活用の仕方 ● 上記2点について、ポストモーテムの目的の1つである「失敗から学ぶ」という 観点から見ると改善の余地がありそうだと感じました👀 (「せっかくのインシデントを無駄にする」というアンチパターンがシステム運用アンチパターンにも書かれていますよね) 10

Slide 11

Slide 11 text

目次 ● 自己紹介とtrocco®の紹介 ● primeNumberにあったポストモーテム文化 ● どのような改善を行ったか ● 結果として目に見える成果に繋がったもの ● まとめ 11

Slide 12

Slide 12 text

やったこと 12 ● ポストモーテムのGoogle Docs移行 ● Google Docsのテンプレ機能でポストモーテムテンプレートを更新 ● インシデント対応マニュアルの作成 ● 「ポストモーテムふりかえり」の推進

Slide 13

Slide 13 text

ポストモーテムのGoogle Docs移行 + テンプレ更新 13 ● 同時編集・コメント可能で社内でコラボレーションが容易なGoogle Docsを利用 ○ GoogleのSRE本のChapter 15 (Postmortem Culture: Learning from Failure) の通り ■ > Real-time collaboration, An open commenting/annotation system, Email notifications ● というか本で「俺たちはこれ使ってるぜ」と書かれているツールそのもの ■ Google DocsはpN社で普段から利用していた ● (前職ではBox Notesを使っていましたが、欲しい機能があり心理的にも導入コストが 低ければ何でもいいはず) ● 基本的には SRE本やSRE Workbookに忠実にテンプレートを更新 ○ 対応に関わっていない人でも読めば何が起こったか追えるよう項目を追加 ○ 再発防止のためのアクションに優先度をつけるように ○ 「インシデント対応からの学び」の項目を追加 などなど

Slide 14

Slide 14 text

こんな感じ 14

Slide 15

Slide 15 text

インシデント対応マニュアルの作成 ● インシデント発生時に行うフローをまとめた ○ 最低限「インシデント検知した人が何をしたらいいかわからない」状態を無くす目的 ● ポストモーテム作成もインシデント対応フローに組み込み ● 一応対応フローチャートもMermaidで書いたよ! 15

Slide 16

Slide 16 text

でも、とっさにコンフル開いてマニュアル見れないよね… ● 別チームのエンジニアがSlackのカスタムレスポンス化してくれて浸透🎉 ○ とあるインシデントのポストモーテムふりかえりの再発防止アクションでした 16

Slide 17

Slide 17 text

「ポストモーテムふりかえり」の推進 17 ● ポストモーテムをベースに議論・再発防止策を検討するミーティング ○ これをprimeNumber社内では「ポストモーテムふりかえり」と呼んでいます ● インシデント発生時、率先してポストモーテムふりかえりを開催+ファシリ ● primeNumber社は他部署間の交流が活発 ● ポストモーテムに関してもエンジニア組織だけに閉じてしまうのはもったいな い、と感じ、エンジニア組織以外にも「ポストモーテムふりかえり」を推進 ● 例えばテクニカルライターチームに推進した例 👉

Slide 18

Slide 18 text

ある日のSlack… 18

Slide 19

Slide 19 text

troccoヘルプドキュメントのヘッダに突然のランチメニューが 19 これ

Slide 20

Slide 20 text

テクニカルライターチームの実験でしたとさ 20

Slide 21

Slide 21 text

こんにちは、ポストモーテムおじさんです 21 (※このときはまだ共有会って言ってますね)

Slide 22

Slide 22 text

前向きにふりかえろう ● 多くの人の時間を使ってまでふりかえりを行うべき理由の1つだと考えています⏳ 22

Slide 23

Slide 23 text

目次 ● 自己紹介とtrocco®の紹介 ● primeNumberにあったポストモーテム文化 ● どのような改善を行ったか ● 結果として目に見える成果に繋がったもの ● 現在どう運用しているか (“プラス”部分) ● まとめ 23

Slide 24

Slide 24 text

成果だと思っているもの ● ヒヤリハットもきっちり学びと改善に ○ 例えば、2023年1月の CircleCI のセキュリティインシデント ● ポストモーテムふりかえりを通じてカスタマーサクセスチームとの連携改善 ● 開発チームのエンジニアから会社としての強みではないか、というコメントも 24

Slide 25

Slide 25 text

● 👍 インシデント対応フローに組み込まれ、対応担当者がポストモーテム作 成〜ふりかえりまで実施できている ● 👍 対応フローの改善についてもポストモーテムふりかえりで話せている ● 👍 (以前からできてますが) 責任を個人ではなくチームのものにできている ● 🙏 テンプレの改善 (改善の結果、形骸化してしまっている項目がある) ● 🙏 再発防止アクションの履行をSREチームでwatchしている ○ 「アクションが確実に実施されること」「実施できない場合に優先度・期日を変更した判断理由が書かれること」 現在のポストモーテム運用について個人的 Good👍 / Motto🙏 25

Slide 26

Slide 26 text

目次 ● 自己紹介とtrocco®の紹介 ● primeNumberにあったポストモーテム文化 ● どのような改善を行ったか ● 結果として目に見える成果に繋がったもの ● まとめ 26

Slide 27

Slide 27 text

まとめ 27 ● primeNumber社のポストモーテム文化を改善しました💪 ● ポイントをふりかえると以下の2点に集約されそうです🙏 ● まずは教科書通りに忠実にやる ○ 守破離の「守」をやるイメージ ○ 教科書は原典(GoogleのSRE本)にあたること ● 組織で自走できる文化ができるまでは啓蒙・推進活動を積極的に行う ○ 具体的にはポストモーテム作成、ふりかえりの設定とファシリテーター ○ あれはよいものだ、と認識してもらえると担当者でやろうというムーブになっていく、はず

Slide 28

Slide 28 text

trocco®を一緒に創ってくれる方を探しています👀 ● 海外展開に向けて面白い経験ができると思うのでぜひ🙏 ○ trocco® SRE ○ trocco® ソフトウェアエンジニア ○ セキュリティスペシャリスト ○ その他募集一覧 👉 https://herp.careers/v1/primenumber ● ゆるく交流しませんか?の会 pN meet up!@目黒 もやります🍻 ○ 2023年9月29日(金)19:00~21:00 開催予定です! 28

Slide 29

Slide 29 text

参考資料など ● 1人目の専任SREがポストモーテム文化を改善したらエンジニア以外にも広まり、他部門との連携も強化された話|Hiroki Takatsuka ● Example Postmortem, Google - Site Reliability Engineering 29