Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
障害対応のキホン
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
Moriyama Hiroaki
December 06, 2022
Technology
260
8
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
障害対応のキホン
社内勉強会の資料です。
Moriyama Hiroaki
December 06, 2022
More Decks by Moriyama Hiroaki
See All by Moriyama Hiroaki
ITリテラシー教育
moriyamahiroaki
1
150
他職種や経営層とエンジニアを「うまくつなぐ」ためにエンジニアができること
moriyamahiroaki
2
160
DBのキホン
moriyamahiroaki
1
59
急拡大するエンジニア組織で複数PJを進めるカオスな状況を乗り切るチームビルディング
moriyamahiroaki
3
180
Other Decks in Technology
See All in Technology
FinOps × AIエージェントで実現する コストインシデントの自動調査
oasis1994liveforever
0
140
フィジカル版Github Onshapeの紹介
shiba_8ro
0
260
自宅LLMの話
jacopen
1
600
【Cyber-sec+】経営層を"動かす"ための考え方
hssh2_bin
0
190
AWS Security Agent といっしょに脅威モデリングをやってみよう
amarelo_n24
0
100
Kiroで書いた 設計書 が AI レビューの 採点基準 になる
ezaki
0
110
2026 TECHFRESH 畢業分享會 - AI-Native 重塑軟體工程與虛擬講師
line_developers_tw
PRO
0
1.1k
気軽に使える"情報のハブ"としてのNotion活用 〜フロー情報の集積点 と、 Claude Code × Notion AI〜
syucream
1
140
新しいUbuntu/GNOMEが使いたいからXからWaylandへ移行頑張ってるの巻 2026-06-20
nobutomurata
0
120
AGENTS.mdとSkillsで始めるAIエージェント活用
sonoda_mj
3
220
Oracle AI Database@Azure:サービス概要のご紹介
oracle4engineer
PRO
6
2k
SONiCで構築・運用する生成AI向けパブリッククラウドネットワーク ~実装編~
sonic
0
220
Featured
See All Featured
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
1
210
How STYLIGHT went responsive
nonsquared
100
6.2k
Leadership Guide Workshop - DevTernity 2021
reverentgeek
1
300
Build The Right Thing And Hit Your Dates
maggiecrowley
39
3.2k
Getting science done with accelerated Python computing platforms
jacobtomlinson
2
230
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.6k
Game over? The fight for quality and originality in the time of robots
wayneb77
1
200
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
230
23k
Abbi's Birthday
coloredviolet
2
8.1k
Skip the Path - Find Your Career Trail
mkilby
1
150
Documentation Writing (for coders)
carmenintech
77
5.4k
[RailsConf 2023] Rails as a piece of cake
palkan
59
6.7k
Transcript
障害対応のキホン 2022/12/06 Moriyama Hiroaki
アジェンダ • 障害対応 is 何? • 障害対応の原則 is 何? •
障害対応フロー • 障害対応の心得 • 障害対応後も大切だよ
障害対応 is 何?
障害対応 is 何? 本番環境におけるバグ・デグレなど 予期せぬ状態(障害)に対する 緊急性の高い対応業務のことを指す
障害対応 is 何? 本番環境におけるバグ・デグレなど 予期せぬ状態(障害)に対する 緊急性の高い対応業務のことを指す
緊急性の高い対応業務 文字通り緊急度がMaxな業務 ↓ すべての業務に優先される業務
障害対応の原則 is 何?
障害対応の原則 is 何? • 認知 • 判断 • 行動
障害対応の原則 is 何? • 認知:状況を正しく知る • 判断:対応方法を正しく決定する • 行動:決めた対応方法を速やかに実行する
認知 【Must】 • 何が起こっているのか? • 誰にどのくらい影響が出ているのか? 【Want】 • どこに原因があるのか?
判断 【Must】 • 今すべきことは何か?を判断する • 誰がどんな対応をするか?を決める 【Want】 • いつまでに何をするか?を決める
行動 【Must】 • 作業状況を時系列に沿ってログを取る • 予定との乖離は最速で共有する 【Want】 • 最速で動けるように臨機応変さを持つ
この原則さえ理解すれば 大きなミスは犯さない
障害対応フロー
バグでもデグレでもない 障害対応フロー おかしいな?と思う ことに気付く まず声を上げて 周囲に知らせる 集まったメンバーで状 況の把握 障害の可能性 があるのか?
何もなくてよかった ね!で業務復帰 障害の可能性が0% 担当割り振り 障害の可能性が0.1%以上 障害の可能性ありと 事業部周知 事象の詳細調査と 原因調査(バグ観点) 事象の詳細調査と 原因調査(デグレ観点) 暫定対応方法検討 恒久対応方法検討 バグやデグレか? 障害と断定 随時経過報告 調査の結果 問題ないと報告 発生原因の根本を 潰す対応 バグやデグレ 早急に事象を 解消するための対応 状況によってチーム編成を検討 状況によって、対応内容の判断を行う ここまでは、10分以内くらいを目指したい... バグやデグレ
障害対応の心得
障害対応の心得〜全般〜 • 役割などの担当とレポートラインを明確化する • 他部署への状況共有も怠らない • 障害復旧に関するチーム(≒暫定対応チーム)に その領域のエキスパート(≒実装経験者)を集める • スピード優先でリアルタイムの会話を重視
◦ Slackで連絡<<<Web会議や対面での会話 ◦ ただし、会話内容はSlackなど見える場所にログを残す • 社外との打ち合わせ以外はすべてリスケして対応最優先
• 作業に入らず全体を俯瞰する人を必ず1人確保する。 ◦ マネージャーやリーダーが担当することが多い ◦ この人は、各チームを動き回り情報をキャッチ ◦ 必要に応じて、別チームに共有に動く • 時間軸も気にする
◦ 対応に入る際、◯時に再集合など、ブレイクポイントを設定 し、状況共有などをはさみ認知のギャップ解消や、重複調 査や重複対応といったムダを防ぐ 障害対応の心得〜全般〜
• 障害かも?と思ったらすぐ周知に動くことが大事 ◦ 「障害かも?」→「障害じゃない」:大きな問題なし ◦ 「障害じゃないでしょ!」→「障害でした」:大問題 • 初動時 ◦ 何が起こっているかの事実の共有を最優先
◦ その後、影響範囲の認識合わせ ◦ 最後に対応方針やチーム体制を決定 • 声を上げる、声を出すを意識 障害対応の心得〜検知から対応開始まで〜
• 最優先すべきは、障害状態の回復 ◦ 最短の時間で回復する方法を考える ◦ デグレが原因なら原則は切り戻し一択 ◦ バグの根本対応より、影響を極小化する方法が優先 ◦ 急ぐあまりの二次災害に注意
• 思考の変遷、検討の結果、など情報はこまめにログに残す。 ◦ スプシなどでまとめてもいいけど、Slackにも必ず残す 障害対応の心得〜対応〜
障害対応後も大切だよ
• ポストモーテム ◦ 事実の洗い出し ▪ 発生事象と影響範囲 ▪ 直接/間接原因 ▪ 今回の暫定/根本(恒久)対応の内容
▪ 対応のチーム編成やタイムライン 振り返り(ポストモーテム)をやろう!
• ポストモーテム ◦ 対応のGood/Badを議論 ▪ 全体を俯瞰する ▪ 対応で良かった事を議論 ▪ 対応で改善できることを議論
振り返り(ポストモーテム)をやろう!
振り返り(ポストモーテム)をやろう! • ポストモーテム ◦ 2軸での再発防止策の検討 ▪ 類似障害を起こさない対応策 • 「心がける」等ではなく仕組みで対応する ▪
類似障害が起こっても問題ないようにする対応策 • 発生しても自動対応できる仕組み • 発生してもすぐに検知し対応に入れる仕組み
• ポストモーテム系の参考記事 ◦ ポストモーテムを理解する - Qiita ◦ freeeが再び全社訓練 ◦ SREチームでポストモーテムを1年半運用してみた
振り返り(ポストモーテム)をやろう!
安心・安全・確実な障害対応で より良い開発者体験を
おわり