インシデント対応入門
by
gr1m0h
×
Copy
Open
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Slide 1
Slide 1 text
インシデント対応入門 みんなで考える障害対応のベストプラクティス インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 1
Slide 2
Slide 2 text
whoami Wataru Tsuda / gr1m0h SWE, SRE at Topotal, inc. インシデントマネジメントSaaS: Waroom SRE as a Service(SREの技術支援) 竹原市で生まれ育ち、広島市在住 広島商船高専 -> 東京(港区 -> 中野区) -> 2023年にUター ン インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 2
Slide 3
Slide 3 text
今日のゴール 1. インシデント対応の流れを理解する 2. 自分たちの現状を振り返る 3. ディスカッションで知見を共有する 正解は1つじゃない、色んなやり方を知ろう インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 3
Slide 4
Slide 4 text
インシデントとは? サービスに影響を与える予期しない出来事 サービスにアクセスできない 決済処理が失敗する レスポンスが極端に遅い 判断基準: ユーザーに影響があるかどうか インフラコスト急増など間接的影響もインシデントとして扱うケースもある Discussion: どこからを「インシデント」と呼んでいますか? インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 4
Slide 5
Slide 5 text
インシデント対応のライフサイクル フェーズ やること 準備 体制・手順・ツールの整備 検知・初動 問題発見、緊急度判定 対応・復旧 調査・復旧作業 振り返り 原因分析、再発防止策立案 恒久対応 再発防止策の実行 インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 5
Slide 6
Slide 6 text
フェーズ1: 準備 インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 6
Slide 7
Slide 7 text
準備フェーズでやること 項目 内容 体制整備 当番制、役割定義、連絡網 基準の策定 緊急度の定義、連絡ルール 手順書作成 よくある問題への対応手順 監視整備 アラート設定、ノイズ削減 ポイント: 準備がないと「どうする?」から始まる Discussion: 手順書はありますか?更新されていますか? インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 7
Slide 8
Slide 8 text
フェーズ2: 検知・初動 インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 8
Slide 9
Slide 9 text
検知と初動対応 理想的な検知: 監視システムからの自動通知 避けたい検知: ユーザーからのクレームで気づく 初動でやること 1. 状況確認と影響範囲の把握 2. 緊急度の判断(どれくらい深刻か) 3. 関係者への連絡 ポイント: 「様子見」している間にも被害は広がる Discussion: 緊急度の判断基準はありますか? インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 9
Slide 10
Slide 10 text
フェーズ3: 対応・復旧 インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 10
Slide 11
Slide 11 text
対応時の役割分担 役割 責任 対応リーダー 全体の指揮、意思決定 連絡担当 社内外への情報発信 調査・復旧担当 原因調査、復旧作業 最低限: 「指揮する人」と「作業する人」は分ける 復旧の優先順位: まずサービスを戻す(原因調査は後回しでOK) Discussion: 役割分担は決まっていますか? インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 11
Slide 12
Slide 12 text
フェーズ4: 振り返り インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 12
Slide 13
Slide 13 text
振り返りでやること 話し合うこと 何が起きたか(時系列で) なぜ起きたか(根本原因) 何がうまくいった / いかなかったか 再発防止策は何か 重要: 犯人探しはNG!仕組みの問題として捉える Discussion: 振り返りをやっていますか?形骸化していませんか? インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 13
Slide 14
Slide 14 text
フェーズ5: 恒久対応 インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 14
Slide 15
Slide 15 text
恒久対応でやること やること 内容 再発防止策の実行 振り返りで決めたことの実施 手順書の更新 今回の学びを反映 監視の改善 検知を早める ポイント: 期限と担当者を決めて追跡する Discussion: 再発防止策は実行されていますか? インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 15
Slide 16
Slide 16 text
インシデント対応でよくある課題 課題 状況 誰が対応するか不明 「誰か見てる?」問題 情報が散らばる Slack、電話、口頭でバラバラ 同じ問題が繰り返す 振り返りが形骸化 負担の偏り 当番制が整っていない インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 16
Slide 17
Slide 17 text
改善のヒント まず始めるなら... 1. 緊急度の基準を定義する 2. 連絡ルールを文書化する 3. 振り返りを習慣化する(小さなインシデントでも) インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 17
Slide 18
Slide 18 text
参考リソース 書籍 『SRE サイトリライアビリティエンジニアリング』 (Google) Web PagerDuty Incident Response Atlassian Incident Management インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 18
Slide 19
Slide 19 text
Appendix: SRE用語の解説 インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 19
Slide 20
Slide 20 text
SEV(Severity)とは インシデントの重大度を数値で表現する レベル 影響 対応 SEV1 サービス全体停止 全員招集、即時対応 SEV2 主要機能の停止 担当チーム即時対応 SEV3 一部機能の低下 営業時間内に対応 SEV4 軽微な問題 通常の優先度で対応 インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 20
Slide 21
Slide 21 text
インシデントコマンダー(IC)とは 対応全体を指揮する司令塔 対応の全体統括と意思決定 関係者の招集と役割分担 エスカレーションの判断 対応の終了宣言 重要: ICは技術的な作業をしない!指揮に専念する インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 21
Slide 22
Slide 22 text
SLI/SLO/SLAとは サービス品質を数値で管理する 用語 意味 例 SLI サービスレベル指標 可用性、レイテンシ SLO サービスレベル目標 可用性 99.9% SLA サービスレベル契約 顧客との約束 インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 22
Slide 23
Slide 23 text
ポストモーテムとは 「死後検死」が語源の振り返り手法 何が起きたか(タイムライン) なぜ起きたか(根本原因) 何がうまくいった / いかなかったか 再発防止策は何か Blameless(非難なし)が原則 インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 23
Slide 24
Slide 24 text
MTTD / MTTRとは インシデント対応の速度を測る指標 指標 意味 MTTD 検知までの平均時間 MTTR 復旧までの平均時間 MTTRの問題点 インシデントごとのばらつきが大きく、平均値の信頼性が低い 各インシデントの復旧時間を10%短縮しても、約50%のケースでMTTRに反映され ない 粒度が粗く、どこを改善すべきか分からない インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 24
Slide 25
Slide 25 text
TTX メトリクスで改善する MTTRを細分化した実践的な指標 メトリクス 意味 改善策の例 TTDetect 検知までの時間 監視の強化 TTEngage チーム編成の時間 シフト・連絡網の明確化 TTInvestigate 調査の時間 ダッシュボードの整備 TTFix 復旧の時間 ロールバックの高速化 ポイント: フェーズごとに計測することで、改善すべき箇所が明確になる 参考: インシデント主要メトリクスを用いたインシデント対応の改善 / SRE Kaigi 2025 インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 25
Slide 26
Slide 26 text
Runbook / オンコールとは Runbook = 対応手順書 よくあるアラートの対応手順 調査に使うコマンド・クエリ 復旧手順 オンコール = 24時間対応の当番制 ローテーションで担当を決める 勤務時間外でもアラートに対応 インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 26