インシデント対応入門
by
gr1m0h
×
Copy
Open
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
インシデント対応入門 みんなで考える障害対応のベストプラクティス インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 1
Slide 2
Slide 2 text
whoami Wataru Tsuda / gr1m0h SWE, SRE at Topotal, inc. インシデントマネジメントSaaS: Waroom SRE as a Service(SREの技術支援) 竹原市で生まれ育ち、広島市在住 広島商船高専 -> 東京(港区 -> 中野区) -> 2023年にUター ン インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 2
Slide 3
Slide 3 text
今日のゴール 1. インシデント対応の流れを理解する 2. 自分たちの現状を振り返る 3. ディスカッションで知見を共有する 正解は1つじゃない、色んなやり方を知ろう インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 3
Slide 4
Slide 4 text
インシデントとは? サービスに影響を与える予期しない出来事 サービスにアクセスできない 決済処理が失敗する レスポンスが極端に遅い 判断基準: ユーザーに影響があるかどうか インフラコスト急増など間接的影響もインシデントとして扱うケースもある Discussion: どこからを「インシデント」と呼んでいますか? インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 4
Slide 5
Slide 5 text
インシデント対応のライフサイクル フェーズ やること 準備 体制・手順・ツールの整備 検知・初動 問題発見、緊急度判定 対応・復旧 調査・復旧作業 振り返り 原因分析、再発防止策立案 恒久対応 再発防止策の実行 インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 5
Slide 6
Slide 6 text
フェーズ1: 準備 インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 6
Slide 7
Slide 7 text
準備フェーズでやること 項目 内容 体制整備 当番制、役割定義、連絡網 基準の策定 緊急度の定義、連絡ルール 手順書作成 よくある問題への対応手順 監視整備 アラート設定、ノイズ削減 ポイント: 準備がないと「どうする?」から始まる Discussion: 手順書はありますか?更新されていますか? インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 7
Slide 8
Slide 8 text
フェーズ2: 検知・初動 インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 8
Slide 9
Slide 9 text
検知と初動対応 理想的な検知: 監視システムからの自動通知 避けたい検知: ユーザーからのクレームで気づく 初動でやること 1. 状況確認と影響範囲の把握 2. 緊急度の判断(どれくらい深刻か) 3. 関係者への連絡 ポイント: 「様子見」している間にも被害は広がる Discussion: 緊急度の判断基準はありますか? インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 9
Slide 10
Slide 10 text
フェーズ3: 対応・復旧 インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 10
Slide 11
Slide 11 text
対応時の役割分担 役割 責任 対応リーダー 全体の指揮、意思決定 連絡担当 社内外への情報発信 調査・復旧担当 原因調査、復旧作業 最低限: 「指揮する人」と「作業する人」は分ける 復旧の優先順位: まずサービスを戻す(原因調査は後回しでOK) Discussion: 役割分担は決まっていますか? インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 11
Slide 12
Slide 12 text
フェーズ4: 振り返り インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 12
Slide 13
Slide 13 text
振り返りでやること 話し合うこと 何が起きたか(時系列で) なぜ起きたか(根本原因) 何がうまくいった / いかなかったか 再発防止策は何か 重要: 犯人探しはNG!仕組みの問題として捉える Discussion: 振り返りをやっていますか?形骸化していませんか? インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 13
Slide 14
Slide 14 text
フェーズ5: 恒久対応 インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 14
Slide 15
Slide 15 text
恒久対応でやること やること 内容 再発防止策の実行 振り返りで決めたことの実施 手順書の更新 今回の学びを反映 監視の改善 検知を早める ポイント: 期限と担当者を決めて追跡する Discussion: 再発防止策は実行されていますか? インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 15
Slide 16
Slide 16 text
インシデント対応でよくある課題 課題 状況 誰が対応するか不明 「誰か見てる?」問題 情報が散らばる Slack、電話、口頭でバラバラ 同じ問題が繰り返す 振り返りが形骸化 負担の偏り 当番制が整っていない インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 16
Slide 17
Slide 17 text
改善のヒント まず始めるなら... 1. 緊急度の基準を定義する 2. 連絡ルールを文書化する 3. 振り返りを習慣化する(小さなインシデントでも) インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 17
Slide 18
Slide 18 text
参考リソース 書籍 『SRE サイトリライアビリティエンジニアリング』 (Google) Web PagerDuty Incident Response Atlassian Incident Management インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 18
Slide 19
Slide 19 text
Appendix: SRE用語の解説 インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 19
Slide 20
Slide 20 text
SEV(Severity)とは インシデントの重大度を数値で表現する レベル 影響 対応 SEV1 サービス全体停止 全員招集、即時対応 SEV2 主要機能の停止 担当チーム即時対応 SEV3 一部機能の低下 営業時間内に対応 SEV4 軽微な問題 通常の優先度で対応 インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 20
Slide 21
Slide 21 text
インシデントコマンダー(IC)とは 対応全体を指揮する司令塔 対応の全体統括と意思決定 関係者の招集と役割分担 エスカレーションの判断 対応の終了宣言 重要: ICは技術的な作業をしない!指揮に専念する インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 21
Slide 22
Slide 22 text
SLI/SLO/SLAとは サービス品質を数値で管理する 用語 意味 例 SLI サービスレベル指標 可用性、レイテンシ SLO サービスレベル目標 可用性 99.9% SLA サービスレベル契約 顧客との約束 インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 22
Slide 23
Slide 23 text
ポストモーテムとは 「死後検死」が語源の振り返り手法 何が起きたか(タイムライン) なぜ起きたか(根本原因) 何がうまくいった / いかなかったか 再発防止策は何か Blameless(非難なし)が原則 インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 23
Slide 24
Slide 24 text
MTTD / MTTRとは インシデント対応の速度を測る指標 指標 意味 MTTD 検知までの平均時間 MTTR 復旧までの平均時間 MTTRの問題点 インシデントごとのばらつきが大きく、平均値の信頼性が低い 各インシデントの復旧時間を10%短縮しても、約50%のケースでMTTRに反映され ない 粒度が粗く、どこを改善すべきか分からない インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 24
Slide 25
Slide 25 text
TTX メトリクスで改善する MTTRを細分化した実践的な指標 メトリクス 意味 改善策の例 TTDetect 検知までの時間 監視の強化 TTEngage チーム編成の時間 シフト・連絡網の明確化 TTInvestigate 調査の時間 ダッシュボードの整備 TTFix 復旧の時間 ロールバックの高速化 ポイント: フェーズごとに計測することで、改善すべき箇所が明確になる 参考: インシデント主要メトリクスを用いたインシデント対応の改善 / SRE Kaigi 2025 インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 25
Slide 26
Slide 26 text
Runbook / オンコールとは Runbook = 対応手順書 よくあるアラートの対応手順 調査に使うコマンド・クエリ 復旧手順 オンコール = 24時間対応の当番制 ローテーションで担当を決める 勤務時間外でもアラートに対応 インシデント対応入門 2026/02/21 SRE Lounge Hiroshima #1 26