Upgrade to Pro — share decks privately, control downloads, hide ads and more …

手を動かさないインシデント対応〜自動化で迅速・正確な運用を目指す〜

 手を動かさないインシデント対応〜自動化で迅速・正確な運用を目指す〜

インシデントマネジメント 事態収拾のための取り組みに迫る Lunch LT でお話しした資料です

Kazuto Kusama

June 05, 2024
Tweet

More Decks by Kazuto Kusama

Other Decks in Technology

Transcript

  1. 1. 検知 2. トリアージ 3. 動員 4. 協⼒/解決 5. 学習/予防

    ライフサイクル全体を通して、インシデントの状況をリアルタイムで可視化 インシデントを特定 ⾃動処理 運⽤改善のための 知⾒を提供 最適な担当者に通知 迅速な解決を⽀援 あらゆるツールから イベントを受信 架電、 SMS、メール Appプッシュ通知、チャット ⾃動エスカレーション スケジュール管理 診断‧修復作業の⾃動化 チーム内外と円滑に連携 クラウド コンテナ マイクロサービス ネットワーク アプリ‧サービス セキュリティ データベース サーバー ソーシャル PagerDuty Operations Cloud インシデントをより早く‧少ないリソースで解決 / 将来のインシデントを未然に防ぐ 担当者が最適な 通知⽅法を選択 対応履歴 MTTA/MTTR 分析 担当者の負荷状況 ポストモーテム 解決のヒントを提⽰ • 過去の類似インシデント • 直近の構成/コード変更 ...etc. 80%-99% ノイズ削減 700+ Integrations
  2. インシデント対応中は色々あぶない • あらゆる方面からプレッシャーがかかる • 通知が荒ぶる • 早く直さなきゃという焦り • 深夜だと頭がまだ回ってない •

    そもそも対応する人が1人とは限らない • 知識、経験がバラバラ ⇒ 普段ではやらないようなミスも起きうる ⇒ 二次災害の危険性が高い
  3. まずはRunbookを作る 【ステップ 1】Runbookの内容を検討する 1. 最も多く発生するインシデントや業務は何か? 2. その業務における最善の解決策は何か ? 【ステップ2】Runbookを作成する •

    シンプルかつ明確な表現を使い、細かい点は省略する • 誰にでも理解しやすい言葉で表現する • 特定のプロセスに沿って具体的に説明する • システムやアプリケーションに変更が生じた際にも対 応できるように、フレキシブルな方法にする ルーティン業務を劇的に改善する 「Runbook(ランブック)」とは?