Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
1人目の専任SREがポストモーテム文化を改善したらエンジニア以外にも広まり、 他部門との連携も...
Search
tk3fftk
September 13, 2023
Technology
4.4k
2
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
1人目の専任SREがポストモーテム文化を改善したらエンジニア以外にも広まり、 他部門との連携も強化された話+
https://findy.connpass.com/event/294084/
tk3fftk
September 13, 2023
More Decks by tk3fftk
See All by tk3fftk
セキュリティの専門家じゃなくてもできる。「セキュリティ意識」をアップデートして サプライチェーン攻撃への耐性を高めよう。
tk3fftk
5
680
TROCCOで始めるクラウドコストを民主化するためのFinOps
tk3fftk
3
590
障害対応のRunbookは作った、でも本当に動くの? AWS FIS で EKS の AZ 障害を再現してみた
tk3fftk
1
150
AWSの資格って役に立つの?
tk3fftk
2
400
ヘルシーSRE
tk3fftk
2
330
セキュアなAI活用のためのLiteLLMの可能性
tk3fftk
5
3k
スタートアップの1人目SREが SREチームを分割しようと考えるに至るまで
tk3fftk
1
320
どちらかだけじゃもったいないかも? ECSとEKSを適材適所で併用するメリット、運用課題とそれらの対応について
tk3fftk
2
1.1k
そろそろOn-Callの通知音について考えてみよう (PagerDuty編)
tk3fftk
3
1.5k
Other Decks in Technology
See All in Technology
Microsoft Build Keynoteふりかえり
tomokusaba
0
120
製造業のクラウド活用最適解〜AI,DXを加速するデータ基盤の作り方〜
hamadakoji
0
420
ITエンジニアを取り巻く環境とキャリアパス / A career path for Japanese IT engineers
takatama
4
1.8k
Claude Code の Sandbox 機能を Anthropic Sandbox Runtime(srt) で試そう!/lets-play-anthropic-sandbox-runtime
tomoki10
1
320
価格.comをAI駆動で全面刷新する ー 30年分の技術的負債を返し、次の30年の土台をつくる ー / AI Engineering Summit Tokyo 2026
tkyowa
51
58k
もりもり新機能を一挙紹介! AgentCoreに入門して、AWS上にAIエージェントを構築しよう
minorun365
PRO
6
870
Chart.js が簡単に使えるようになっていたので OGP 画像生成に使った話
kamekyame
0
170
AI-DLCを活用した高品質・安全なAI駆動開発実践 / AI Driven Development with AI-DLC
yoshidashingo
0
160
マーケットプレイス版Oracle WebCenter Content For OCI
oracle4engineer
PRO
5
1.8k
Snowflakeと仲良くなる第一歩
coco_se
3
300
AmazonRoute 53ではじめてのドメイン取得!HTTPS化までの道のりを整理してみた
usanchuu
3
120
ブロックチェーン / Blockchain
ks91
PRO
0
110
Featured
See All Featured
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
We Have a Design System, Now What?
morganepeng
55
8.2k
How to Build an AI Search Optimization Roadmap - Criteria and Steps to Take #SEOIRL
aleyda
1
2.1k
SERP Conf. Vienna - Web Accessibility: Optimizing for Inclusivity and SEO
sarafernandez
2
1.5k
Side Projects
sachag
455
43k
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
1
280
Learning to Love Humans: Emotional Interface Design
aarron
275
41k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.7k
Mozcon NYC 2025: Stop Losing SEO Traffic
samtorres
1
250
Docker and Python
trallard
47
3.9k
Applied NLP in the Age of Generative AI
inesmontani
PRO
4
2.3k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
38
2.9k
Transcript
1人目の専任SREがポストモーテム文化を 改善したらエンジニア以外にも広まり、 他部門との連携も強化された話+ 株式会社primeNumber エンジニアリング本部 SRE Hiroki Takatsuka (@tk3fftk) ポストモーテムLT
#2 1
目次 • 自己紹介とtrocco®の紹介 • primeNumberにあったポストモーテム文化 • どのような改善を行ったか • 結果として目に見える成果に繋がったもの •
まとめ 2
先に今日の発表のまとめ 3 • primeNumber社のポストモーテム文化を改善しました💪 • ポイントをふりかえると以下の2点に集約されそうです🙏 • まずは教科書通りに忠実にやる ◦ 守破離の「守」をやるイメージ
◦ 教科書は原典(GoogleのSRE本)にあたること • 組織で自走できる文化ができるまでは啓蒙・推進活動を積極的に行う ◦ 具体的にはポストモーテム作成、ふりかえりの設定とファシリテーター ◦ あれはよいものだ、と認識してもらえると担当者でやろうというムーブになっていく、はず
目次 • 自己紹介とtrocco®の紹介 • primeNumberにあったポストモーテム文化 • どのような改善を行ったか • 結果として目に見える成果に繋がったもの •
まとめ 4
髙塚 広貴 (Hiroki Takatsuka) 株式会社primeNumber エンジニアリング本部 SRE 5 • ヤフー株式会社
(2016 ~ 2022) ◦ CI/CDプラットフォーム Screwdriver.cd の SREチームのEMやスクラムマスターなど • 株式会社primeNumber (2022 ~ ) ◦ trocco®のSRE ◦ SREチームは現在2名 + 業務委託の方数名 • 猫 ◦ アル (アビシニアン ♂ 3歳半)
trocco®とは 6 フルマネージド ETL/ELT 日本特有のサービスを含めた、約100種のコネクタに対応 データ分析基盤のための技術スタックを提供するサービスです。 GUI ワークフロー 複雑なデータ処理フローを GUI
上で設定・運用 データマネジメント機能 データリネージ / Git 連携・コード管理 / スキーマ追従 / データカタログ etc.
7 約100種のコネクタで データを整備・集約 データエンジニアが手を煩わせていた作業工程を、SaaS で簡単に巻き取ることが可能です。
目次 • 自己紹介とtrocco®の紹介 • primeNumberにあったポストモーテム文化 • どのような改善を行ったか • 結果として目に見える成果に繋がったもの •
まとめ 8
エンジニアにポストモーテムを書く文化は存在していた • GitHub issueテンプレの項目を埋める形 • インシデントの発生原因や影響範囲の共 有/記録の観点が強い • でも全然埋まってないとか、活用されて ないものも結構ある…
◦ 右のやつみたいな感じ 9
せっかくのインシデントを無駄にしたくない • ポストモーテム作成に関する課題 • ポストモーテム作成後の活用の仕方 • 上記2点について、ポストモーテムの目的の1つである「失敗から学ぶ」という 観点から見ると改善の余地がありそうだと感じました👀 (「せっかくのインシデントを無駄にする」というアンチパターンがシステム運用アンチパターンにも書かれていますよね) 10
目次 • 自己紹介とtrocco®の紹介 • primeNumberにあったポストモーテム文化 • どのような改善を行ったか • 結果として目に見える成果に繋がったもの •
まとめ 11
やったこと 12 • ポストモーテムのGoogle Docs移行 • Google Docsのテンプレ機能でポストモーテムテンプレートを更新 • インシデント対応マニュアルの作成
• 「ポストモーテムふりかえり」の推進
ポストモーテムのGoogle Docs移行 + テンプレ更新 13 • 同時編集・コメント可能で社内でコラボレーションが容易なGoogle Docsを利用 ◦ GoogleのSRE本のChapter
15 (Postmortem Culture: Learning from Failure) の通り ▪ > Real-time collaboration, An open commenting/annotation system, Email notifications • というか本で「俺たちはこれ使ってるぜ」と書かれているツールそのもの ▪ Google DocsはpN社で普段から利用していた • (前職ではBox Notesを使っていましたが、欲しい機能があり心理的にも導入コストが 低ければ何でもいいはず) • 基本的には SRE本やSRE Workbookに忠実にテンプレートを更新 ◦ 対応に関わっていない人でも読めば何が起こったか追えるよう項目を追加 ◦ 再発防止のためのアクションに優先度をつけるように ◦ 「インシデント対応からの学び」の項目を追加 などなど
こんな感じ 14
インシデント対応マニュアルの作成 • インシデント発生時に行うフローをまとめた ◦ 最低限「インシデント検知した人が何をしたらいいかわからない」状態を無くす目的 • ポストモーテム作成もインシデント対応フローに組み込み • 一応対応フローチャートもMermaidで書いたよ! 15
でも、とっさにコンフル開いてマニュアル見れないよね… • 別チームのエンジニアがSlackのカスタムレスポンス化してくれて浸透🎉 ◦ とあるインシデントのポストモーテムふりかえりの再発防止アクションでした 16
「ポストモーテムふりかえり」の推進 17 • ポストモーテムをベースに議論・再発防止策を検討するミーティング ◦ これをprimeNumber社内では「ポストモーテムふりかえり」と呼んでいます • インシデント発生時、率先してポストモーテムふりかえりを開催+ファシリ • primeNumber社は他部署間の交流が活発
• ポストモーテムに関してもエンジニア組織だけに閉じてしまうのはもったいな い、と感じ、エンジニア組織以外にも「ポストモーテムふりかえり」を推進 • 例えばテクニカルライターチームに推進した例 👉
ある日のSlack… 18
troccoヘルプドキュメントのヘッダに突然のランチメニューが 19 これ
テクニカルライターチームの実験でしたとさ 20
こんにちは、ポストモーテムおじさんです 21 (※このときはまだ共有会って言ってますね)
前向きにふりかえろう • 多くの人の時間を使ってまでふりかえりを行うべき理由の1つだと考えています⏳ 22
目次 • 自己紹介とtrocco®の紹介 • primeNumberにあったポストモーテム文化 • どのような改善を行ったか • 結果として目に見える成果に繋がったもの •
現在どう運用しているか (“プラス”部分) • まとめ 23
成果だと思っているもの • ヒヤリハットもきっちり学びと改善に ◦ 例えば、2023年1月の CircleCI のセキュリティインシデント • ポストモーテムふりかえりを通じてカスタマーサクセスチームとの連携改善 •
開発チームのエンジニアから会社としての強みではないか、というコメントも 24
• 👍 インシデント対応フローに組み込まれ、対応担当者がポストモーテム作 成〜ふりかえりまで実施できている • 👍 対応フローの改善についてもポストモーテムふりかえりで話せている • 👍 (以前からできてますが)
責任を個人ではなくチームのものにできている • 🙏 テンプレの改善 (改善の結果、形骸化してしまっている項目がある) • 🙏 再発防止アクションの履行をSREチームでwatchしている ◦ 「アクションが確実に実施されること」「実施できない場合に優先度・期日を変更した判断理由が書かれること」 現在のポストモーテム運用について個人的 Good👍 / Motto🙏 25
目次 • 自己紹介とtrocco®の紹介 • primeNumberにあったポストモーテム文化 • どのような改善を行ったか • 結果として目に見える成果に繋がったもの •
まとめ 26
まとめ 27 • primeNumber社のポストモーテム文化を改善しました💪 • ポイントをふりかえると以下の2点に集約されそうです🙏 • まずは教科書通りに忠実にやる ◦ 守破離の「守」をやるイメージ
◦ 教科書は原典(GoogleのSRE本)にあたること • 組織で自走できる文化ができるまでは啓蒙・推進活動を積極的に行う ◦ 具体的にはポストモーテム作成、ふりかえりの設定とファシリテーター ◦ あれはよいものだ、と認識してもらえると担当者でやろうというムーブになっていく、はず
trocco®を一緒に創ってくれる方を探しています👀 • 海外展開に向けて面白い経験ができると思うのでぜひ🙏 ◦ trocco® SRE ◦ trocco® ソフトウェアエンジニア ◦
セキュリティスペシャリスト ◦ その他募集一覧 👉 https://herp.careers/v1/primenumber • ゆるく交流しませんか?の会 pN meet up!@目黒 もやります🍻 ◦ 2023年9月29日(金)19:00~21:00 開催予定です! 28
参考資料など • 1人目の専任SREがポストモーテム文化を改善したらエンジニア以外にも広まり、他部門との連携も強化された話|Hiroki Takatsuka • Example Postmortem, Google - Site
Reliability Engineering 29