入門 再発防止策
by
ryuichi1208
×
Copy
Open
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Slide 1
Slide 1 text
入門 再発防止策 ~ 再発防止策をどう考えるか ~ Tamachi.sre#4
Slide 2
Slide 2 text
● 自己紹介 ● そもそも再発防止策とは ● アンチパターン再発防止策 ● 良い再発防止策 ● AIとSREと再発防止策と ● まとめ アジェンダ
Slide 3
Slide 3 text
自己紹介
Slide 4
Slide 4 text
● 渡部龍一 ● X: ryuichi_1208 ● 株式会社IVRy SRE ● Tamach.sreの主催の一人 ● AIで自作プログラミング言語 ○ Pythonっぽい書き味の別言語 ○ AIもすごいがLLVMもすごい... 自己紹介
Slide 5
Slide 5 text
● 共著した ● 増刷した ● SREのテーマを広く扱っている ● SLI/SLO、トイル、組織 ● その中にもポストモーテムの章 ● 今日は書籍+αの内容 (宣伝)SREの知識地図
Slide 6
Slide 6 text
そもそも再発防止策とは何か
Slide 7
Slide 7 text
再発防止 = “失敗しにくい仕組み ” を作ること
Slide 8
Slide 8 text
● ミスする ● 忘れる ● 疲れる ● 焦る 人間が頑張るは限界がある
Slide 9
Slide 9 text
● ミスを起こしにくくする ● ミスしても壊れにくくする ● 壊れても早く気づけるようにする “システム側の改善” が重要 再発防止では
Slide 10
Slide 10 text
● 設定ミスで障害発生 ● 設定を修正 これだけでは別の設定ミスは防げる?? 「原因を潰す」だけでは不十分
Slide 11
Slide 11 text
No content
Slide 12
Slide 12 text
No content
Slide 13
Slide 13 text
● なぜ危険な変更ができたのか ● なぜ検知できなかったのか ● なぜ影響が広がったのか 「原因を潰す」だけでは不十分
Slide 14
Slide 14 text
● 発生確率を下げる ● 影響を小さくする ● 早く検知する ● 早く復旧できるようにする “次はもっとマシに壊れる”状態を作ることが重要 再発防止のゴール /目的は「障害ゼロ」ではない
Slide 15
Slide 15 text
再発防止 = “失敗しにくい仕組み ” を作ること
Slide 16
Slide 16 text
アンチパターンな再発防止策
Slide 17
Slide 17 text
● 気をつけます ● レビューを徹底します ● 手順をちゃんと確認します ● 朝会で共有します ● 気合いで! たまによく見るやつ
Slide 18
Slide 18 text
● ポストモーテムを書いて終わる ● TODOだけ積まれる ● 優先順位が低く放置される ● オーナー不在 ありがちな失敗
Slide 19
Slide 19 text
● 障害の日から日付が経つごとに... ● 誰もやらなくて数週間後に同じ原因で再発 ● SREとしては悔しい 振り返り会は盛り上がったのに ...
Slide 20
Slide 20 text
再発防止策をいい感じに回すには
Slide 21
Slide 21 text
● 再発防止策が取られないで放置される問題はよくある ● 障害対応中は頑張って治すけど治した後には他にやる ことがたくさんあり... 放置される問題
Slide 22
Slide 22 text
● ポストモーテムでオーナーを決定させる ● その場にPMを呼んで優先度判断 ● 最重要以外をやらない判断をとる勇気も重要 ○ なんとなく不安だから作ったToDoとか ● 四半期に一回くらい棚卸し 放置される問題処方箋
Slide 23
Slide 23 text
● その日の障害その日のうちに ○ 昔先輩から言われた言葉 ● AIがある今なら超複雑とかではない限りは意外とその 日にできることは多かったりする 放置される問題処方箋
Slide 24
Slide 24 text
● 人の注意力に依存しない ● 自動化されている ● 継続可能 ● システムで制御される ● 誰でも実行できる 良い再発防止策
Slide 25
Slide 25 text
良い再発防止策
Slide 26
Slide 26 text
● 早期検知 ● 自動復旧/フェイルオーバー ● Rollback高速化 ● Runbook整備 “防ぐ” だけが再発防止ではない
Slide 27
Slide 27 text
再発防止では、 ● なぜ起きた? ● なぜ検知できなかった? ● なぜ影響が広がった? ● なぜ復旧が遅れた? を分けて考えることが重要 再発防止策の考え方
Slide 28
Slide 28 text
障害は1箇所だけで起きるわけではない ● 設計、実装、デプロイ ● 監視、運用 ● 組織、コミュニケーション 複数レイヤーに問題が存在します。 レイヤーで見る
Slide 29
Slide 29 text
重要なのは、「“1つの対策で完璧を目指さない”」こと ● Validation ● Alert ● Rollback ● Feature Flag、Canary Release など複数の防御ラインを持ち事故を小さくする 防御ラインを増やす
Slide 30
Slide 30 text
AIとSRE
Slide 31
Slide 31 text
No content
Slide 32
Slide 32 text
● AIによってSREは「運用作業の自動化」から「信頼性を 設計する役割」へ進化ししてきてる ● 障害対応・異常検知・RCA・Toil削減に大きな変化が起 きている ● 一方AIは確率的に動作するため、本番導入には透明性 や段階的権限管理、ロールバックなど、安全性を前提に した設計が必須 AIは人間の置き換えではないを明言してる
Slide 33
Slide 33 text
● 最終的なゴールは、AI Operatorのような仕組みを通じ て「信頼性がデフォルトで組み込まれたシステム」を実 現すること ● SREはAIを使って“障害対応する人”から“信頼性を自己 進化させる仕組みを作る人”へ変わっていく。 AIは人間の置き換えではないを明言してる
Slide 34
Slide 34 text
まとめ
Slide 35
Slide 35 text
まとめ ● 再発防止は「反省会」ではない ● 人を強くするより、システムを強くする ● “気をつける” には限界がある ● 小さく改善を積み重ねることが重要
Slide 36
Slide 36 text
参考
Slide 37
Slide 37 text
参考 ● Postmortem Culture: Learning from Failure ● Blameless PostMortems and a Just Culture ● Incident postmortems ● Whose fault was it anyway? On blameless post-mortems ● Post-incident review best practices
Slide 38
Slide 38 text
ご清聴ありがとうございました