Upgrade to Pro — share decks privately, control downloads, hide ads and more …

インシデント対応入門

Avatar for gr1m0h gr1m0h
February 21, 2026

 インシデント対応入門

Avatar for gr1m0h

gr1m0h

February 21, 2026
Tweet

More Decks by gr1m0h

Other Decks in Technology

Transcript

  1. whoami Wataru Tsuda / gr1m0h SWE, SRE at Topotal, inc.

    インシデントマネジメントSaaS: Waroom SRE as a Service(SREの技術支援) 竹原市で生まれ育ち、広島市在住 広島商船高専 -> 東京(港区 -> 中野区) -> 2023年にUター ン インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 2
  2. インシデント対応のライフサイクル フェーズ やること 準備 体制・手順・ツールの整備 検知・初動 問題発見、緊急度判定 対応・復旧 調査・復旧作業 振り返り

    原因分析、再発防止策立案 恒久対応 再発防止策の実行 インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 5
  3. 準備フェーズでやること 項目 内容 体制整備 当番制、役割定義、連絡網 基準の策定 緊急度の定義、連絡ルール 手順書作成 よくある問題への対応手順 監視整備

    アラート設定、ノイズ削減 ポイント: 準備がないと「どうする?」から始まる Discussion: 手順書はありますか?更新されていますか? インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 7
  4. 検知と初動対応 理想的な検知: 監視システムからの自動通知 避けたい検知: ユーザーからのクレームで気づく 初動でやること 1. 状況確認と影響範囲の把握 2. 緊急度の判断(どれくらい深刻か)

    3. 関係者への連絡 ポイント: 「様子見」している間にも被害は広がる Discussion: 緊急度の判断基準はありますか? インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 9
  5. 対応時の役割分担 役割 責任 対応リーダー 全体の指揮、意思決定 連絡担当 社内外への情報発信 調査・復旧担当 原因調査、復旧作業 最低限:

    「指揮する人」と「作業する人」は分ける 復旧の優先順位: まずサービスを戻す(原因調査は後回しでOK) Discussion: 役割分担は決まっていますか? インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 11
  6. 恒久対応でやること やること 内容 再発防止策の実行 振り返りで決めたことの実施 手順書の更新 今回の学びを反映 監視の改善 検知を早める ポイント:

    期限と担当者を決めて追跡する Discussion: 再発防止策は実行されていますか? インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 15
  7. SEV(Severity)とは インシデントの重大度を数値で表現する レベル 影響 対応 SEV1 サービス全体停止 全員招集、即時対応 SEV2 主要機能の停止

    担当チーム即時対応 SEV3 一部機能の低下 営業時間内に対応 SEV4 軽微な問題 通常の優先度で対応 インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 20
  8. SLI/SLO/SLAとは サービス品質を数値で管理する 用語 意味 例 SLI サービスレベル指標 可用性、レイテンシ SLO サービスレベル目標

    可用性 99.9% SLA サービスレベル契約 顧客との約束 インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 22
  9. MTTD / MTTRとは インシデント対応の速度を測る指標 指標 意味 MTTD 検知までの平均時間 MTTR 復旧までの平均時間

    MTTRの問題点 インシデントごとのばらつきが大きく、平均値の信頼性が低い 各インシデントの復旧時間を10%短縮しても、約50%のケースでMTTRに反映され ない 粒度が粗く、どこを改善すべきか分からない インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 24
  10. TTX メトリクスで改善する MTTRを細分化した実践的な指標 メトリクス 意味 改善策の例 TTDetect 検知までの時間 監視の強化 TTEngage

    チーム編成の時間 シフト・連絡網の明確化 TTInvestigate 調査の時間 ダッシュボードの整備 TTFix 復旧の時間 ロールバックの高速化 ポイント: フェーズごとに計測することで、改善すべき箇所が明確になる 参考: インシデント主要メトリクスを用いたインシデント対応の改善 / SRE Kaigi 2025 インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 25
  11. Runbook / オンコールとは Runbook = 対応手順書 よくあるアラートの対応手順 調査に使うコマンド・クエリ 復旧手順 オンコール

    = 24時間対応の当番制 ローテーションで担当を決める 勤務時間外でもアラートに対応 インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 26