入門再発防止策 - Speaker Deck

入門再発防止策

by ryuichi1208

Embed

Start on current slide

Slide 1

Slide 1 text

入門再発防止策 ~ 再発防止策をどう考えるか ~ Tamachi.sre#4

Slide 2

Slide 2 text

● 自己紹介 ● そもそも再発防止策とは ● アンチパターン再発防止策 ● 良い再発防止策 ● AIとSREと再発防止策と ● まとめアジェンダ

Slide 3

Slide 3 text

自己紹介

Slide 4

Slide 4 text

● 渡部龍一 ● X: ryuichi_1208 ● 株式会社IVRy SRE ● Tamach.sreの主催の一人 ● AIで自作プログラミング言語 ○ Pythonっぽい書き味の別言語 ○ AIもすごいがLLVMもすごい... 自己紹介

Slide 5

Slide 5 text

● 共著した ● 増刷した ● SREのテーマを広く扱っている ● SLI/SLO、トイル、組織 ● その中にもポストモーテムの章 ● 今日は書籍+αの内容 (宣伝)SREの知識地図

Slide 6

Slide 6 text

そもそも再発防止策とは何か

Slide 7

Slide 7 text

再発防止 = “失敗しにくい仕組み ” を作ること

Slide 8

Slide 8 text

● ミスする ● 忘れる ● 疲れる ● 焦る人間が頑張るは限界がある

Slide 9

Slide 9 text

● ミスを起こしにくくする ● ミスしても壊れにくくする ● 壊れても早く気づけるようにする “システム側の改善” が重要再発防止では

Slide 10

Slide 10 text

● 設定ミスで障害発生 ● 設定を修正これだけでは別の設定ミスは防げる？？「原因を潰す」だけでは不十分

Slide 11

Slide 11 text

No content

Slide 12

Slide 12 text

No content

Slide 13

Slide 13 text

● なぜ危険な変更ができたのか ● なぜ検知できなかったのか ● なぜ影響が広がったのか「原因を潰す」だけでは不十分

Slide 14

Slide 14 text

● 発生確率を下げる ● 影響を小さくする ● 早く検知する ● 早く復旧できるようにする “次はもっとマシに壊れる”状態を作ることが重要再発防止のゴール /目的は「障害ゼロ」ではない

Slide 15

Slide 15 text

再発防止 = “失敗しにくい仕組み ” を作ること

Slide 16

Slide 16 text

アンチパターンな再発防止策

Slide 17

Slide 17 text

● 気をつけます ● レビューを徹底します ● 手順をちゃんと確認します ● 朝会で共有します ● 気合いで！たまによく見るやつ

Slide 18

Slide 18 text

● ポストモーテムを書いて終わる ● TODOだけ積まれる ● 優先順位が低く放置される ● オーナー不在ありがちな失敗

Slide 19

Slide 19 text

● 障害の日から日付が経つごとに... ● 誰もやらなくて数週間後に同じ原因で再発 ● SREとしては悔しい振り返り会は盛り上がったのに ...

Slide 20

Slide 20 text

再発防止策をいい感じに回すには

Slide 21

Slide 21 text

● 再発防止策が取られないで放置される問題はよくある ● 障害対応中は頑張って治すけど治した後には他にやることがたくさんあり... 放置される問題

Slide 22

Slide 22 text

● ポストモーテムでオーナーを決定させる ● その場にPMを呼んで優先度判断 ● 最重要以外をやらない判断をとる勇気も重要 ○ なんとなく不安だから作ったToDoとか ● 四半期に一回くらい棚卸し放置される問題処方箋

Slide 23

Slide 23 text

● その日の障害その日のうちに ○ 昔先輩から言われた言葉 ● AIがある今なら超複雑とかではない限りは意外とその日にできることは多かったりする放置される問題処方箋

Slide 24

Slide 24 text

● 人の注意力に依存しない ● 自動化されている ● 継続可能 ● システムで制御される ● 誰でも実行できる良い再発防止策

Slide 25

Slide 25 text

良い再発防止策

Slide 26

Slide 26 text

● 早期検知 ● 自動復旧/フェイルオーバー ● Rollback高速化 ● Runbook整備 “防ぐ” だけが再発防止ではない

Slide 27

Slide 27 text

再発防止では、 ● なぜ起きた？ ● なぜ検知できなかった？ ● なぜ影響が広がった？ ● なぜ復旧が遅れた？を分けて考えることが重要再発防止策の考え方

Slide 28

Slide 28 text

障害は1箇所だけで起きるわけではない ● 設計、実装、デプロイ ● 監視、運用 ● 組織、コミュニケーション複数レイヤーに問題が存在します。レイヤーで見る

Slide 29

Slide 29 text

重要なのは、「“1つの対策で完璧を目指さない”」こと ● Validation ● Alert ● Rollback ● Feature Flag、Canary Release など複数の防御ラインを持ち事故を小さくする防御ラインを増やす

Slide 30

Slide 30 text

AIとSRE

Slide 31

Slide 31 text

No content

Slide 32

Slide 32 text

● AIによってSREは「運用作業の自動化」から「信頼性を設計する役割」へ進化ししてきてる ● 障害対応・異常検知・RCA・Toil削減に大きな変化が起きている ● 一方AIは確率的に動作するため、本番導入には透明性や段階的権限管理、ロールバックなど、安全性を前提にした設計が必須 AIは人間の置き換えではないを明言してる

Slide 33

Slide 33 text

● 最終的なゴールは、AI Operatorのような仕組みを通じて「信頼性がデフォルトで組み込まれたシステム」を実現すること ● SREはAIを使って“障害対応する人”から“信頼性を自己進化させる仕組みを作る人”へ変わっていく。 AIは人間の置き換えではないを明言してる

Slide 34

Slide 34 text

まとめ

Slide 35

Slide 35 text

まとめ ● 再発防止は「反省会」ではない ● 人を強くするより、システムを強くする ● “気をつける” には限界がある ● 小さく改善を積み重ねることが重要

Slide 36

Slide 36 text

参考

Slide 37

Slide 37 text

参考 ● Postmortem Culture: Learning from Failure ● Blameless PostMortems and a Just Culture ● Incident postmortems ● Whose fault was it anyway? On blameless post-mortems ● Post-incident review best practices

Slide 38

Slide 38 text

ご清聴ありがとうございました