Slide 1

Slide 1 text

入門 再発防止策 ~ 再発防止策をどう考えるか ~ Tamachi.sre#4

Slide 2

Slide 2 text

● 自己紹介 ● そもそも再発防止策とは ● アンチパターン再発防止策 ● 良い再発防止策 ● AIとSREと再発防止策と ● まとめ アジェンダ

Slide 3

Slide 3 text

自己紹介

Slide 4

Slide 4 text

● 渡部龍一 ● X: ryuichi_1208 ● 株式会社IVRy SRE ● Tamach.sreの主催の一人 ● AIで自作プログラミング言語 ○ Pythonっぽい書き味の別言語 ○ AIもすごいがLLVMもすごい... 自己紹介

Slide 5

Slide 5 text

● 共著した ● 増刷した ● SREのテーマを広く扱っている ● SLI/SLO、トイル、組織 ● その中にもポストモーテムの章 ● 今日は書籍+αの内容 (宣伝)SREの知識地図

Slide 6

Slide 6 text

そもそも再発防止策とは何か

Slide 7

Slide 7 text

再発防止 = “失敗しにくい仕組み ” を作ること

Slide 8

Slide 8 text

● ミスする ● 忘れる ● 疲れる ● 焦る 人間が頑張るは限界がある

Slide 9

Slide 9 text

● ミスを起こしにくくする ● ミスしても壊れにくくする ● 壊れても早く気づけるようにする “システム側の改善” が重要 再発防止では

Slide 10

Slide 10 text

● 設定ミスで障害発生 ● 設定を修正 これだけでは別の設定ミスは防げる?? 「原因を潰す」だけでは不十分

Slide 11

Slide 11 text

No content

Slide 12

Slide 12 text

No content

Slide 13

Slide 13 text

● なぜ危険な変更ができたのか ● なぜ検知できなかったのか ● なぜ影響が広がったのか 「原因を潰す」だけでは不十分

Slide 14

Slide 14 text

● 発生確率を下げる ● 影響を小さくする ● 早く検知する ● 早く復旧できるようにする “次はもっとマシに壊れる”状態を作ることが重要 再発防止のゴール /目的は「障害ゼロ」ではない

Slide 15

Slide 15 text

再発防止 = “失敗しにくい仕組み ” を作ること

Slide 16

Slide 16 text

アンチパターンな再発防止策

Slide 17

Slide 17 text

● 気をつけます ● レビューを徹底します ● 手順をちゃんと確認します ● 朝会で共有します ● 気合いで! たまによく見るやつ

Slide 18

Slide 18 text

● ポストモーテムを書いて終わる ● TODOだけ積まれる ● 優先順位が低く放置される ● オーナー不在 ありがちな失敗

Slide 19

Slide 19 text

● 障害の日から日付が経つごとに... ● 誰もやらなくて数週間後に同じ原因で再発 ● SREとしては悔しい 振り返り会は盛り上がったのに ...

Slide 20

Slide 20 text

再発防止策をいい感じに回すには

Slide 21

Slide 21 text

● 再発防止策が取られないで放置される問題はよくある ● 障害対応中は頑張って治すけど治した後には他にやる ことがたくさんあり... 放置される問題

Slide 22

Slide 22 text

● ポストモーテムでオーナーを決定させる ● その場にPMを呼んで優先度判断 ● 最重要以外をやらない判断をとる勇気も重要 ○ なんとなく不安だから作ったToDoとか ● 四半期に一回くらい棚卸し 放置される問題処方箋

Slide 23

Slide 23 text

● その日の障害その日のうちに ○ 昔先輩から言われた言葉 ● AIがある今なら超複雑とかではない限りは意外とその 日にできることは多かったりする 放置される問題処方箋

Slide 24

Slide 24 text

● 人の注意力に依存しない ● 自動化されている ● 継続可能 ● システムで制御される ● 誰でも実行できる 良い再発防止策

Slide 25

Slide 25 text

良い再発防止策

Slide 26

Slide 26 text

● 早期検知 ● 自動復旧/フェイルオーバー ● Rollback高速化 ● Runbook整備 “防ぐ” だけが再発防止ではない

Slide 27

Slide 27 text

再発防止では、 ● なぜ起きた? ● なぜ検知できなかった? ● なぜ影響が広がった? ● なぜ復旧が遅れた? を分けて考えることが重要 再発防止策の考え方

Slide 28

Slide 28 text

障害は1箇所だけで起きるわけではない ● 設計、実装、デプロイ ● 監視、運用 ● 組織、コミュニケーション 複数レイヤーに問題が存在します。 レイヤーで見る

Slide 29

Slide 29 text

重要なのは、「“1つの対策で完璧を目指さない”」こと ● Validation ● Alert ● Rollback ● Feature Flag、Canary Release など複数の防御ラインを持ち事故を小さくする 防御ラインを増やす

Slide 30

Slide 30 text

AIとSRE

Slide 31

Slide 31 text

No content

Slide 32

Slide 32 text

● AIによってSREは「運用作業の自動化」から「信頼性を 設計する役割」へ進化ししてきてる ● 障害対応・異常検知・RCA・Toil削減に大きな変化が起 きている ● 一方AIは確率的に動作するため、本番導入には透明性 や段階的権限管理、ロールバックなど、安全性を前提に した設計が必須 AIは人間の置き換えではないを明言してる

Slide 33

Slide 33 text

● 最終的なゴールは、AI Operatorのような仕組みを通じ て「信頼性がデフォルトで組み込まれたシステム」を実 現すること ● SREはAIを使って“障害対応する人”から“信頼性を自己 進化させる仕組みを作る人”へ変わっていく。 AIは人間の置き換えではないを明言してる

Slide 34

Slide 34 text

まとめ

Slide 35

Slide 35 text

まとめ ● 再発防止は「反省会」ではない ● 人を強くするより、システムを強くする ● “気をつける” には限界がある ● 小さく改善を積み重ねることが重要

Slide 36

Slide 36 text

参考

Slide 37

Slide 37 text

参考 ● Postmortem Culture: Learning from Failure ● Blameless PostMortems and a Just Culture ● Incident postmortems ● Whose fault was it anyway? On blameless post-mortems ● Post-incident review best practices

Slide 38

Slide 38 text

ご清聴ありがとうございました