Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
1人目の専任SREがポストモーテム文化を改善したらエンジニア以外にも広まり、 他部門との連携も...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
tk3fftk
September 13, 2023
Technology
4.4k
2
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
1人目の専任SREがポストモーテム文化を改善したらエンジニア以外にも広まり、 他部門との連携も強化された話+
https://findy.connpass.com/event/294084/
tk3fftk
September 13, 2023
More Decks by tk3fftk
See All by tk3fftk
セキュリティの専門家じゃなくてもできる。「セキュリティ意識」をアップデートして サプライチェーン攻撃への耐性を高めよう。
tk3fftk
5
760
TROCCOで始めるクラウドコストを民主化するためのFinOps
tk3fftk
3
620
障害対応のRunbookは作った、でも本当に動くの? AWS FIS で EKS の AZ 障害を再現してみた
tk3fftk
1
150
AWSの資格って役に立つの?
tk3fftk
2
400
ヘルシーSRE
tk3fftk
2
340
セキュアなAI活用のためのLiteLLMの可能性
tk3fftk
5
3k
スタートアップの1人目SREが SREチームを分割しようと考えるに至るまで
tk3fftk
1
320
どちらかだけじゃもったいないかも? ECSとEKSを適材適所で併用するメリット、運用課題とそれらの対応について
tk3fftk
2
1.1k
そろそろOn-Callの通知音について考えてみよう (PagerDuty編)
tk3fftk
3
1.5k
Other Decks in Technology
See All in Technology
【Cyber-sec+】経営層を"動かす"ための考え方
hssh2_bin
0
190
Claude Codeとのおしゃべりでセマンティックモデルの定義からダッシュボード作成まで完成させる
nic_sugiyama
0
120
小さく始める AI 活用推進 ― 日経電子版 Web チームの事例/nikkei-tech-talk47
nikkei_engineer_recruiting
0
270
マルチアカウント環境での コーディングエージェントを使った障害調査が大変なので AIエージェントにReadOnly権限を付与してみた / ReadOnly AI Agents for Multi-Account AWS Incident Response
yamaguchitk333
2
110
Claude Codeをどのように キャッチアップしているか
oikon48
13
8.2k
Oracle AI Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
6
1.5k
Snowflakeと仲良くなる第一歩
coco_se
4
480
不要なレビューをAIにまかせて AIコーディングの環境改善を加速した
shoota
1
150
GitHub Copilot 最新アップデート – 「一歩先」の実践活用術
moulongzhang
4
1.1k
2026TECHFRESH畢業分享會 - Lightning Talk - E起 See See : 電商推薦讀心術? 數據說了算
line_developers_tw
PRO
0
1.1k
Kubernetesにおける学習基盤とLLMOpsの概要
ry
1
310
フィジカル版Github Onshapeの紹介
shiba_8ro
0
260
Featured
See All Featured
Accessibility Awareness
sabderemane
1
140
The Anti-SEO Checklist Checklist. Pubcon Cyber Week
ryanjones
0
160
Build your cross-platform service in a week with App Engine
jlugia
234
18k
Beyond borders and beyond the search box: How to win the global "messy middle" with AI-driven SEO
davidcarrasco
3
160
Digital Ethics as a Driver of Design Innovation
axbom
PRO
1
310
The browser strikes back
jonoalderson
0
1.2k
brightonSEO & MeasureFest 2025 - Christian Goodrich - Winning strategies for Black Friday CRO & PPC
cargoodrich
3
730
WCS-LA-2024
lcolladotor
0
630
Agile Leadership in an Agile Organization
kimpetersen
PRO
0
160
So, you think you're a good person
axbom
PRO
2
2.1k
Exploring the relationship between traditional SERPs and Gen AI search
raygrieselhuber
PRO
2
4k
We Analyzed 250 Million AI Search Results: Here's What I Found
joshbly
1
1.4k
Transcript
1人目の専任SREがポストモーテム文化を 改善したらエンジニア以外にも広まり、 他部門との連携も強化された話+ 株式会社primeNumber エンジニアリング本部 SRE Hiroki Takatsuka (@tk3fftk) ポストモーテムLT
#2 1
目次 • 自己紹介とtrocco®の紹介 • primeNumberにあったポストモーテム文化 • どのような改善を行ったか • 結果として目に見える成果に繋がったもの •
まとめ 2
先に今日の発表のまとめ 3 • primeNumber社のポストモーテム文化を改善しました💪 • ポイントをふりかえると以下の2点に集約されそうです🙏 • まずは教科書通りに忠実にやる ◦ 守破離の「守」をやるイメージ
◦ 教科書は原典(GoogleのSRE本)にあたること • 組織で自走できる文化ができるまでは啓蒙・推進活動を積極的に行う ◦ 具体的にはポストモーテム作成、ふりかえりの設定とファシリテーター ◦ あれはよいものだ、と認識してもらえると担当者でやろうというムーブになっていく、はず
目次 • 自己紹介とtrocco®の紹介 • primeNumberにあったポストモーテム文化 • どのような改善を行ったか • 結果として目に見える成果に繋がったもの •
まとめ 4
髙塚 広貴 (Hiroki Takatsuka) 株式会社primeNumber エンジニアリング本部 SRE 5 • ヤフー株式会社
(2016 ~ 2022) ◦ CI/CDプラットフォーム Screwdriver.cd の SREチームのEMやスクラムマスターなど • 株式会社primeNumber (2022 ~ ) ◦ trocco®のSRE ◦ SREチームは現在2名 + 業務委託の方数名 • 猫 ◦ アル (アビシニアン ♂ 3歳半)
trocco®とは 6 フルマネージド ETL/ELT 日本特有のサービスを含めた、約100種のコネクタに対応 データ分析基盤のための技術スタックを提供するサービスです。 GUI ワークフロー 複雑なデータ処理フローを GUI
上で設定・運用 データマネジメント機能 データリネージ / Git 連携・コード管理 / スキーマ追従 / データカタログ etc.
7 約100種のコネクタで データを整備・集約 データエンジニアが手を煩わせていた作業工程を、SaaS で簡単に巻き取ることが可能です。
目次 • 自己紹介とtrocco®の紹介 • primeNumberにあったポストモーテム文化 • どのような改善を行ったか • 結果として目に見える成果に繋がったもの •
まとめ 8
エンジニアにポストモーテムを書く文化は存在していた • GitHub issueテンプレの項目を埋める形 • インシデントの発生原因や影響範囲の共 有/記録の観点が強い • でも全然埋まってないとか、活用されて ないものも結構ある…
◦ 右のやつみたいな感じ 9
せっかくのインシデントを無駄にしたくない • ポストモーテム作成に関する課題 • ポストモーテム作成後の活用の仕方 • 上記2点について、ポストモーテムの目的の1つである「失敗から学ぶ」という 観点から見ると改善の余地がありそうだと感じました👀 (「せっかくのインシデントを無駄にする」というアンチパターンがシステム運用アンチパターンにも書かれていますよね) 10
目次 • 自己紹介とtrocco®の紹介 • primeNumberにあったポストモーテム文化 • どのような改善を行ったか • 結果として目に見える成果に繋がったもの •
まとめ 11
やったこと 12 • ポストモーテムのGoogle Docs移行 • Google Docsのテンプレ機能でポストモーテムテンプレートを更新 • インシデント対応マニュアルの作成
• 「ポストモーテムふりかえり」の推進
ポストモーテムのGoogle Docs移行 + テンプレ更新 13 • 同時編集・コメント可能で社内でコラボレーションが容易なGoogle Docsを利用 ◦ GoogleのSRE本のChapter
15 (Postmortem Culture: Learning from Failure) の通り ▪ > Real-time collaboration, An open commenting/annotation system, Email notifications • というか本で「俺たちはこれ使ってるぜ」と書かれているツールそのもの ▪ Google DocsはpN社で普段から利用していた • (前職ではBox Notesを使っていましたが、欲しい機能があり心理的にも導入コストが 低ければ何でもいいはず) • 基本的には SRE本やSRE Workbookに忠実にテンプレートを更新 ◦ 対応に関わっていない人でも読めば何が起こったか追えるよう項目を追加 ◦ 再発防止のためのアクションに優先度をつけるように ◦ 「インシデント対応からの学び」の項目を追加 などなど
こんな感じ 14
インシデント対応マニュアルの作成 • インシデント発生時に行うフローをまとめた ◦ 最低限「インシデント検知した人が何をしたらいいかわからない」状態を無くす目的 • ポストモーテム作成もインシデント対応フローに組み込み • 一応対応フローチャートもMermaidで書いたよ! 15
でも、とっさにコンフル開いてマニュアル見れないよね… • 別チームのエンジニアがSlackのカスタムレスポンス化してくれて浸透🎉 ◦ とあるインシデントのポストモーテムふりかえりの再発防止アクションでした 16
「ポストモーテムふりかえり」の推進 17 • ポストモーテムをベースに議論・再発防止策を検討するミーティング ◦ これをprimeNumber社内では「ポストモーテムふりかえり」と呼んでいます • インシデント発生時、率先してポストモーテムふりかえりを開催+ファシリ • primeNumber社は他部署間の交流が活発
• ポストモーテムに関してもエンジニア組織だけに閉じてしまうのはもったいな い、と感じ、エンジニア組織以外にも「ポストモーテムふりかえり」を推進 • 例えばテクニカルライターチームに推進した例 👉
ある日のSlack… 18
troccoヘルプドキュメントのヘッダに突然のランチメニューが 19 これ
テクニカルライターチームの実験でしたとさ 20
こんにちは、ポストモーテムおじさんです 21 (※このときはまだ共有会って言ってますね)
前向きにふりかえろう • 多くの人の時間を使ってまでふりかえりを行うべき理由の1つだと考えています⏳ 22
目次 • 自己紹介とtrocco®の紹介 • primeNumberにあったポストモーテム文化 • どのような改善を行ったか • 結果として目に見える成果に繋がったもの •
現在どう運用しているか (“プラス”部分) • まとめ 23
成果だと思っているもの • ヒヤリハットもきっちり学びと改善に ◦ 例えば、2023年1月の CircleCI のセキュリティインシデント • ポストモーテムふりかえりを通じてカスタマーサクセスチームとの連携改善 •
開発チームのエンジニアから会社としての強みではないか、というコメントも 24
• 👍 インシデント対応フローに組み込まれ、対応担当者がポストモーテム作 成〜ふりかえりまで実施できている • 👍 対応フローの改善についてもポストモーテムふりかえりで話せている • 👍 (以前からできてますが)
責任を個人ではなくチームのものにできている • 🙏 テンプレの改善 (改善の結果、形骸化してしまっている項目がある) • 🙏 再発防止アクションの履行をSREチームでwatchしている ◦ 「アクションが確実に実施されること」「実施できない場合に優先度・期日を変更した判断理由が書かれること」 現在のポストモーテム運用について個人的 Good👍 / Motto🙏 25
目次 • 自己紹介とtrocco®の紹介 • primeNumberにあったポストモーテム文化 • どのような改善を行ったか • 結果として目に見える成果に繋がったもの •
まとめ 26
まとめ 27 • primeNumber社のポストモーテム文化を改善しました💪 • ポイントをふりかえると以下の2点に集約されそうです🙏 • まずは教科書通りに忠実にやる ◦ 守破離の「守」をやるイメージ
◦ 教科書は原典(GoogleのSRE本)にあたること • 組織で自走できる文化ができるまでは啓蒙・推進活動を積極的に行う ◦ 具体的にはポストモーテム作成、ふりかえりの設定とファシリテーター ◦ あれはよいものだ、と認識してもらえると担当者でやろうというムーブになっていく、はず
trocco®を一緒に創ってくれる方を探しています👀 • 海外展開に向けて面白い経験ができると思うのでぜひ🙏 ◦ trocco® SRE ◦ trocco® ソフトウェアエンジニア ◦
セキュリティスペシャリスト ◦ その他募集一覧 👉 https://herp.careers/v1/primenumber • ゆるく交流しませんか?の会 pN meet up!@目黒 もやります🍻 ◦ 2023年9月29日(金)19:00~21:00 開催予定です! 28
参考資料など • 1人目の専任SREがポストモーテム文化を改善したらエンジニア以外にも広まり、他部門との連携も強化された話|Hiroki Takatsuka • Example Postmortem, Google - Site
Reliability Engineering 29