Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
入門 再発防止策
Search
ryuichi1208
May 19, 2026
6.6k
17
Share
入門 再発防止策
ryuichi1208
May 19, 2026
More Decks by ryuichi1208
See All by ryuichi1208
金曜日デプロイ、するかしないか.pdf
ryuichi1208
1
71
会話で作る信頼性
ryuichi1208
0
180
シグナル(Unix)と仲良くなる
ryuichi1208
1
43
AI前提のサービス運用について再考する
ryuichi1208
6
1.4k
A Shallow Dive into the World of TCP
ryuichi1208
1
670
入門リトライ
ryuichi1208
20
8.2k
超入門SRE 2025
ryuichi1208
4
1.5k
Goで作って学ぶWebSocket
ryuichi1208
5
4.2k
コード化されていない稼働中のサーバを移設_再構築する技術
ryuichi1208
20
15k
Featured
See All Featured
Max Prin - Stacking Signals: How International SEO Comes Together (And Falls Apart)
techseoconnect
PRO
0
170
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
11
930
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
35k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.8k
Designing for humans not robots
tammielis
254
26k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
Building a A Zero-Code AI SEO Workflow
portentint
PRO
0
540
Paper Plane
katiecoart
PRO
1
50k
The untapped power of vector embeddings
frankvandijk
2
1.7k
Dominate Local Search Results - an insider guide to GBP, reviews, and Local SEO
greggifford
PRO
0
180
GraphQLとの向き合い方2022年版
quramy
50
15k
jQuery: Nuts, Bolts and Bling
dougneiner
66
8.5k
Transcript
入門 再発防止策 ~ 再発防止策をどう考えるか ~ Tamachi.sre#4
• 自己紹介 • そもそも再発防止策とは • アンチパターン再発防止策 • 良い再発防止策 • AIとSREと再発防止策と
• まとめ アジェンダ
自己紹介
• 渡部龍一 • X: ryuichi_1208 • 株式会社IVRy SRE • Tamach.sreの主催の一人
• AIで自作プログラミング言語 ◦ Pythonっぽい書き味の別言語 ◦ AIもすごいがLLVMもすごい... 自己紹介
• 共著した • 増刷した • SREのテーマを広く扱っている • SLI/SLO、トイル、組織 • その中にもポストモーテムの章
• 今日は書籍+αの内容 (宣伝)SREの知識地図
そもそも再発防止策とは何か
再発防止 = “失敗しにくい仕組み ” を作ること
• ミスする • 忘れる • 疲れる • 焦る 人間が頑張るは限界がある
• ミスを起こしにくくする • ミスしても壊れにくくする • 壊れても早く気づけるようにする “システム側の改善” が重要 再発防止では
• 設定ミスで障害発生 • 設定を修正 これだけでは別の設定ミスは防げる?? 「原因を潰す」だけでは不十分
None
None
• なぜ危険な変更ができたのか • なぜ検知できなかったのか • なぜ影響が広がったのか 「原因を潰す」だけでは不十分
• 発生確率を下げる • 影響を小さくする • 早く検知する • 早く復旧できるようにする “次はもっとマシに壊れる”状態を作ることが重要 再発防止のゴール
/目的は「障害ゼロ」ではない
再発防止 = “失敗しにくい仕組み ” を作ること
アンチパターンな再発防止策
• 気をつけます • レビューを徹底します • 手順をちゃんと確認します • 朝会で共有します • 気合いで!
たまによく見るやつ
• ポストモーテムを書いて終わる • TODOだけ積まれる • 優先順位が低く放置される • オーナー不在 ありがちな失敗
• 障害の日から日付が経つごとに... • 誰もやらなくて数週間後に同じ原因で再発 • SREとしては悔しい 振り返り会は盛り上がったのに ...
再発防止策をいい感じに回すには
• 再発防止策が取られないで放置される問題はよくある • 障害対応中は頑張って治すけど治した後には他にやる ことがたくさんあり... 放置される問題
• ポストモーテムでオーナーを決定させる • その場にPMを呼んで優先度判断 • 最重要以外をやらない判断をとる勇気も重要 ◦ なんとなく不安だから作ったToDoとか • 四半期に一回くらい棚卸し
放置される問題処方箋
• その日の障害その日のうちに ◦ 昔先輩から言われた言葉 • AIがある今なら超複雑とかではない限りは意外とその 日にできることは多かったりする 放置される問題処方箋
• 人の注意力に依存しない • 自動化されている • 継続可能 • システムで制御される • 誰でも実行できる
良い再発防止策
良い再発防止策
• 早期検知 • 自動復旧/フェイルオーバー • Rollback高速化 • Runbook整備 “防ぐ” だけが再発防止ではない
再発防止では、 • なぜ起きた? • なぜ検知できなかった? • なぜ影響が広がった? • なぜ復旧が遅れた? を分けて考えることが重要
再発防止策の考え方
障害は1箇所だけで起きるわけではない • 設計、実装、デプロイ • 監視、運用 • 組織、コミュニケーション 複数レイヤーに問題が存在します。 レイヤーで見る
重要なのは、「“1つの対策で完璧を目指さない”」こと • Validation • Alert • Rollback • Feature Flag、Canary
Release など複数の防御ラインを持ち事故を小さくする 防御ラインを増やす
AIとSRE
None
• AIによってSREは「運用作業の自動化」から「信頼性を 設計する役割」へ進化ししてきてる • 障害対応・異常検知・RCA・Toil削減に大きな変化が起 きている • 一方AIは確率的に動作するため、本番導入には透明性 や段階的権限管理、ロールバックなど、安全性を前提に した設計が必須
AIは人間の置き換えではないを明言してる
• 最終的なゴールは、AI Operatorのような仕組みを通じ て「信頼性がデフォルトで組み込まれたシステム」を実 現すること • SREはAIを使って“障害対応する人”から“信頼性を自己 進化させる仕組みを作る人”へ変わっていく。 AIは人間の置き換えではないを明言してる
まとめ
まとめ • 再発防止は「反省会」ではない • 人を強くするより、システムを強くする • “気をつける” には限界がある • 小さく改善を積み重ねることが重要
参考
参考 • Postmortem Culture: Learning from Failure • Blameless PostMortems
and a Just Culture • Incident postmortems • Whose fault was it anyway? On blameless post-mortems • Post-incident review best practices
ご清聴ありがとうございました