Upgrade to Pro — share decks privately, control downloads, hide ads and more …

障害対応のキホン

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.

 障害対応のキホン

社内勉強会の資料です。

Avatar for Moriyama Hiroaki

Moriyama Hiroaki

December 06, 2022
Tweet

More Decks by Moriyama Hiroaki

Other Decks in Technology

Transcript

  1. アジェンダ • 障害対応 is 何? • 障害対応の原則 is 何? •

    障害対応フロー • 障害対応の心得 • 障害対応後も大切だよ
  2. バグでもデグレでもない 障害対応フロー おかしいな?と思う ことに気付く まず声を上げて 周囲に知らせる 集まったメンバーで状 況の把握 障害の可能性 があるのか?

    何もなくてよかった ね!で業務復帰 障害の可能性が0% 担当割り振り 障害の可能性が0.1%以上 障害の可能性ありと 事業部周知 事象の詳細調査と 原因調査(バグ観点) 事象の詳細調査と 原因調査(デグレ観点) 暫定対応方法検討 恒久対応方法検討 バグやデグレか? 障害と断定 随時経過報告 調査の結果 問題ないと報告 発生原因の根本を 潰す対応 バグやデグレ 早急に事象を 解消するための対応 状況によってチーム編成を検討 状況によって、対応内容の判断を行う ここまでは、10分以内くらいを目指したい... バグやデグレ
  3. • 作業に入らず全体を俯瞰する人を必ず1人確保する。 ◦ マネージャーやリーダーが担当することが多い ◦ この人は、各チームを動き回り情報をキャッチ ◦ 必要に応じて、別チームに共有に動く • 時間軸も気にする

    ◦ 対応に入る際、◯時に再集合など、ブレイクポイントを設定 し、状況共有などをはさみ認知のギャップ解消や、重複調 査や重複対応といったムダを防ぐ 障害対応の心得〜全般〜
  4. • 障害かも?と思ったらすぐ周知に動くことが大事 ◦ 「障害かも?」→「障害じゃない」:大きな問題なし ◦ 「障害じゃないでしょ!」→「障害でした」:大問題 • 初動時 ◦ 何が起こっているかの事実の共有を最優先

    ◦ その後、影響範囲の認識合わせ ◦ 最後に対応方針やチーム体制を決定 • 声を上げる、声を出すを意識 障害対応の心得〜検知から対応開始まで〜
  5. • 最優先すべきは、障害状態の回復 ◦ 最短の時間で回復する方法を考える ◦ デグレが原因なら原則は切り戻し一択 ◦ バグの根本対応より、影響を極小化する方法が優先 ◦ 急ぐあまりの二次災害に注意

    • 思考の変遷、検討の結果、など情報はこまめにログに残す。 ◦ スプシなどでまとめてもいいけど、Slackにも必ず残す 障害対応の心得〜対応〜
  6. 振り返り(ポストモーテム)をやろう! • ポストモーテム ◦ 2軸での再発防止策の検討 ▪ 類似障害を起こさない対応策 • 「心がける」等ではなく仕組みで対応する ▪

    類似障害が起こっても問題ないようにする対応策 • 発生しても自動対応できる仕組み • 発生してもすぐに検知し対応に入れる仕組み