入門再発防止策

入門再発防止策 ~ 再発防止策をどう考えるか ~ Tamachi.sre#4

• 自己紹介 • そもそも再発防止策とは • アンチパターン再発防止策 • 良い再発防止策 • AIとSREと再発防止策と
• まとめアジェンダ

自己紹介

• 渡部龍一 • X: ryuichi_1208 • 株式会社IVRy SRE • Tamach.sreの主催の一人
• AIで自作プログラミング言語 ◦ Pythonっぽい書き味の別言語 ◦ AIもすごいがLLVMもすごい... 自己紹介

• 共著した • 増刷した • SREのテーマを広く扱っている • SLI/SLO、トイル、組織 • その中にもポストモーテムの章
• 今日は書籍+αの内容 (宣伝)SREの知識地図

そもそも再発防止策とは何か

再発防止 = “失敗しにくい仕組み ” を作ること

• ミスする • 忘れる • 疲れる • 焦る人間が頑張るは限界がある

• ミスを起こしにくくする • ミスしても壊れにくくする • 壊れても早く気づけるようにする “システム側の改善” が重要再発防止では

• 設定ミスで障害発生 • 設定を修正これだけでは別の設定ミスは防げる？？「原因を潰す」だけでは不十分

• なぜ危険な変更ができたのか • なぜ検知できなかったのか • なぜ影響が広がったのか「原因を潰す」だけでは不十分

• 発生確率を下げる • 影響を小さくする • 早く検知する • 早く復旧できるようにする “次はもっとマシに壊れる”状態を作ることが重要再発防止のゴール
/目的は「障害ゼロ」ではない

再発防止 = “失敗しにくい仕組み ” を作ること

アンチパターンな再発防止策

• 気をつけます • レビューを徹底します • 手順をちゃんと確認します • 朝会で共有します • 気合いで！
たまによく見るやつ

• ポストモーテムを書いて終わる • TODOだけ積まれる • 優先順位が低く放置される • オーナー不在ありがちな失敗

• 障害の日から日付が経つごとに... • 誰もやらなくて数週間後に同じ原因で再発 • SREとしては悔しい振り返り会は盛り上がったのに ...

再発防止策をいい感じに回すには

• 再発防止策が取られないで放置される問題はよくある • 障害対応中は頑張って治すけど治した後には他にやることがたくさんあり... 放置される問題

• ポストモーテムでオーナーを決定させる • その場にPMを呼んで優先度判断 • 最重要以外をやらない判断をとる勇気も重要 ◦ なんとなく不安だから作ったToDoとか • 四半期に一回くらい棚卸し
放置される問題処方箋

• その日の障害その日のうちに ◦ 昔先輩から言われた言葉 • AIがある今なら超複雑とかではない限りは意外とその日にできることは多かったりする放置される問題処方箋

• 人の注意力に依存しない • 自動化されている • 継続可能 • システムで制御される • 誰でも実行できる
良い再発防止策

良い再発防止策

• 早期検知 • 自動復旧/フェイルオーバー • Rollback高速化 • Runbook整備 “防ぐ” だけが再発防止ではない

再発防止では、 • なぜ起きた？ • なぜ検知できなかった？ • なぜ影響が広がった？ • なぜ復旧が遅れた？を分けて考えることが重要
再発防止策の考え方

障害は1箇所だけで起きるわけではない • 設計、実装、デプロイ • 監視、運用 • 組織、コミュニケーション複数レイヤーに問題が存在します。レイヤーで見る

重要なのは、「“1つの対策で完璧を目指さない”」こと • Validation • Alert • Rollback • Feature Flag、Canary
Release など複数の防御ラインを持ち事故を小さくする防御ラインを増やす

AIとSRE

• AIによってSREは「運用作業の自動化」から「信頼性を設計する役割」へ進化ししてきてる • 障害対応・異常検知・RCA・Toil削減に大きな変化が起きている • 一方AIは確率的に動作するため、本番導入には透明性や段階的権限管理、ロールバックなど、安全性を前提にした設計が必須
AIは人間の置き換えではないを明言してる

• 最終的なゴールは、AI Operatorのような仕組みを通じて「信頼性がデフォルトで組み込まれたシステム」を実現すること • SREはAIを使って“障害対応する人”から“信頼性を自己進化させる仕組みを作る人”へ変わっていく。 AIは人間の置き換えではないを明言してる

まとめ

まとめ • 再発防止は「反省会」ではない • 人を強くするより、システムを強くする • “気をつける” には限界がある • 小さく改善を積み重ねることが重要

参考

参考 • Postmortem Culture: Learning from Failure • Blameless PostMortems
and a Just Culture • Incident postmortems • Whose fault was it anyway? On blameless post-mortems • Post-incident review best practices

ご清聴ありがとうございました

入門再発防止策

入門再発防止策

ryuichi1208

More Decks by ryuichi1208

Featured

Transcript