Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
入門 再発防止策
Search
ryuichi1208
May 19, 2026
58
0
Share
入門 再発防止策
ryuichi1208
May 19, 2026
More Decks by ryuichi1208
See All by ryuichi1208
金曜日デプロイ、するかしないか.pdf
ryuichi1208
0
9
会話で作る信頼性
ryuichi1208
0
150
シグナル(Unix)と仲良くなる
ryuichi1208
1
34
AI前提のサービス運用について再考する
ryuichi1208
6
1.4k
A Shallow Dive into the World of TCP
ryuichi1208
1
660
入門リトライ
ryuichi1208
20
8.1k
超入門SRE 2025
ryuichi1208
4
1.5k
Goで作って学ぶWebSocket
ryuichi1208
5
4.1k
コード化されていない稼働中のサーバを移設_再構築する技術
ryuichi1208
20
15k
Featured
See All Featured
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
[RailsConf 2023] Rails as a piece of cake
palkan
59
6.6k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.3k
Leo the Paperboy
mayatellez
7
1.8k
How to Talk to Developers About Accessibility
jct
2
190
エンジニアに許された特別な時間の終わり
watany
106
240k
Speed Design
sergeychernyshev
33
1.6k
Pawsitive SEO: Lessons from My Dog (and Many Mistakes) on Thriving as a Consultant in the Age of AI
davidcarrasco
0
130
The #1 spot is gone: here's how to win anyway
tamaranovitovic
2
1k
Building Adaptive Systems
keathley
44
3k
New Earth Scene 8
popppiees
3
2.2k
Making the Leap to Tech Lead
cromwellryan
135
9.8k
Transcript
入門 再発防止策 ~ 再発防止策をどう考えるか ~ Tamachi.sre#4
• 自己紹介 • そもそも再発防止策とは • アンチパターン再発防止策 • 良い再発防止策 • AIとSREと再発防止策と
• まとめ アジェンダ
自己紹介
• 渡部龍一 • X: ryuichi_1208 • 株式会社IVRy SRE • Tamach.sreの主催の一人
• AIで自作プログラミング言語 ◦ Pythonっぽい書き味の別言語 ◦ AIもすごいがLLVMもすごい... 自己紹介
• 共著した • 増刷した • SREのテーマを広く扱っている • SLI/SLO、トイル、組織 • その中にもポストモーテムの章
• 今日は書籍+αの内容 (宣伝)SREの知識地図
そもそも再発防止策とは何か
再発防止 = “失敗しにくい仕組み ” を作ること
• ミスする • 忘れる • 疲れる • 焦る 人間が頑張るは限界がある
• ミスを起こしにくくする • ミスしても壊れにくくする • 壊れても早く気づけるようにする “システム側の改善” が重要 再発防止では
• 設定ミスで障害発生 • 設定を修正 これだけでは別の設定ミスは防げる?? 「原因を潰す」だけでは不十分
None
None
• なぜ危険な変更ができたのか • なぜ検知できなかったのか • なぜ影響が広がったのか 「原因を潰す」だけでは不十分
• 発生確率を下げる • 影響を小さくする • 早く検知する • 早く復旧できるようにする “次はもっとマシに壊れる”状態を作ることが重要 再発防止のゴール
/目的は「障害ゼロ」ではない
再発防止 = “失敗しにくい仕組み ” を作ること
アンチパターンな再発防止策
• 気をつけます • レビューを徹底します • 手順をちゃんと確認します • 朝会で共有します • 気合いで!
たまによく見るやつ
• ポストモーテムを書いて終わる • TODOだけ積まれる • 優先順位が低く放置される • オーナー不在 ありがちな失敗
• 障害の日から日付が経つごとに... • 誰もやらなくて数週間後に同じ原因で再発 • SREとしては悔しい 振り返り会は盛り上がったのに ...
再発防止策をいい感じに回すには
• 再発防止策が取られないで放置される問題はよくある • 障害対応中は頑張って治すけど治した後には他にやる ことがたくさんあり... 放置される問題
• ポストモーテムでオーナーを決定させる • その場にPMを呼んで優先度判断 • 最重要以外をやらない判断をとる勇気も重要 ◦ なんとなく不安だから作ったToDoとか • 四半期に一回くらい棚卸し
放置される問題処方箋
• その日の障害その日のうちに ◦ 昔先輩から言われた言葉 • AIがある今なら超複雑とかではない限りは意外とその 日にできることは多かったりする 放置される問題処方箋
• 人の注意力に依存しない • 自動化されている • 継続可能 • システムで制御される • 誰でも実行できる
良い再発防止策
良い再発防止策
• 早期検知 • 自動復旧/フェイルオーバー • Rollback高速化 • Runbook整備 “防ぐ” だけが再発防止ではない
再発防止では、 • なぜ起きた? • なぜ検知できなかった? • なぜ影響が広がった? • なぜ復旧が遅れた? を分けて考えることが重要
再発防止策の考え方
障害は1箇所だけで起きるわけではない • 設計、実装、デプロイ • 監視、運用 • 組織、コミュニケーション 複数レイヤーに問題が存在します。 レイヤーで見る
重要なのは、「“1つの対策で完璧を目指さない”」こと • Validation • Alert • Rollback • Feature Flag、Canary
Release など複数の防御ラインを持ち事故を小さくする 防御ラインを増やす
AIとSRE
None
• AIによってSREは「運用作業の自動化」から「信頼性を 設計する役割」へ進化ししてきてる • 障害対応・異常検知・RCA・Toil削減に大きな変化が起 きている • 一方AIは確率的に動作するため、本番導入には透明性 や段階的権限管理、ロールバックなど、安全性を前提に した設計が必須
AIは人間の置き換えではないを明言してる
• 最終的なゴールは、AI Operatorのような仕組みを通じ て「信頼性がデフォルトで組み込まれたシステム」を実 現すること • SREはAIを使って“障害対応する人”から“信頼性を自己 進化させる仕組みを作る人”へ変わっていく。 AIは人間の置き換えではないを明言してる
まとめ
まとめ • 再発防止は「反省会」ではない • 人を強くするより、システムを強くする • “気をつける” には限界がある • 小さく改善を積み重ねることが重要
参考
参考 • Postmortem Culture: Learning from Failure • Blameless PostMortems
and a Just Culture • Incident postmortems • Whose fault was it anyway? On blameless post-mortems • Post-incident review best practices
ご清聴ありがとうございました