Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
小さく始める障害訓練
Search
j-maki
January 13, 2026
0
1
小さく始める障害訓練
j-maki
January 13, 2026
Tweet
Share
More Decks by j-maki
See All by j-maki
Amazon EKS MCP Serverでクラスタの職場環境のストレスチェックをして遊んでみた
jmakk0301
0
160
ギフティにおける プラットフォームエンジニアリングことはじめ
jmakk0301
2
370
probeの勘違いから見直した、Pod運用のアレコレ
jmakk0301
2
210
Featured
See All Featured
What's in a price? How to price your products and services
michaelherold
247
13k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.3k
Unsuck your backbone
ammeep
671
58k
Skip the Path - Find Your Career Trail
mkilby
0
60
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.6k
Technical Leadership for Architectural Decision Making
baasie
2
250
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
Ethics towards AI in product and experience design
skipperchong
2
200
My Coaching Mixtape
mlcsv
0
50
Building Experiences: Design Systems, User Experience, and Full Site Editing
marktimemedia
0
410
30 Presentation Tips
portentint
PRO
1
230
Impact Scores and Hybrid Strategies: The future of link building
tamaranovitovic
0
200
Transcript
小さく始める障害訓練
自己紹介 jmakiと言います。 ギフティという会社で3年くらいエンジニアをやっています。 普段はRubyを書いたり、AWSでインフラ構築したりしています。 SREではないです。
会社紹介というか個人的にもgifteeをよく使っているという話
会社紹介というか個人的にもgifteeをよく使っているという話 お世話になった業務委託のエンジニアの方に 個人的にgifteeのギフトを買って贈ったらとても喜んでくれました。 slackのDM等で気軽に贈れるので、普段からよく使っています。
今日話すこと 新規プロダクトのリリース前に障害訓練を実施したので、気をつけたポイントを共 有します。 SREではない自分が障害訓練の実施があまりない組織で小さく始めてみました。 どちらかというと障害訓練をこれから始める方向けの内容です。 ガチ勢の方はゆるく聞いていただけると
そもそも障害訓練って何ぞ? 障害訓練とは 実際の障害発生時に備えた準備として システムに意図的に障害を起こし、チームの対応力を確認・向上させる活動。 なぜ必要なのか? 実際の障害時は冷静な判断が難しいため日頃から準備しておく必要がある。 普段の開発業務では気づけない課題やシステムの改善点も見つかる。
では私のチームで実際どのように実施していったかについて発表 していきます。
事前準備その1 訓練の目的決め この時のポイント 初手は目的をシンプルに設定 慣れていないうちに沢山の目的・目標を一度にやり切るのは困難。 障害訓練は定期的に実施していくものであり、 初手からやる事を盛りすぎると実施自体のハードルになる。 実施経験を積みメンバーに取り組みの重要性を認識してもらうことが大切。 今回設定した目的 「サービスローンチの前に障害対応フローを再確認・整理する」
事前準備その2 訓練で起こす障害の内容選定 初手に選ぶ障害としてのポイント 目的に沿ったもの 対応フローの整理であれば難しい障害をあえて起こす必要はない。 ビジネス的にクリティカルなもの ゴールデンパスを満たせない等、最悪のケースを想定する。 準備に時間がかからないもの サーバやDBに負荷をかける系は準備に時間がかかるため、避けた方が無難。 今回実施した障害
Route53からALBのレコードを手動で消す 参考: SRE Magazine - 障害訓練の進め方
事前準備その3 実施メンバーへの事前説明 この時のポイント Mgrを味方につけておく。(可能なら顧客役をお願いして一緒に参加してもらう。 ) 顧客への連絡パスなど、できるだけリアルにやるようにメンバーに依頼する。 実施チーム以外の社内への周知も忘れずに。 副次的に活動の宣伝にもなる。
障害訓練実施 この時のポイント 言わずもがな、バレないようにこっそり障害を起こす。 基本的には対応を見守るが、もし詰まっている場合は適度にコメントを入れる。 目的が達成できるかを考えながら臨機応変に。 あとはメンバーがわちゃわちゃしているのをニヤニヤしながら眺める。
障害報告・ポストモーテム・訓練自体の振り返り この時のポイント 障害対応フローについて振り返りに時間をかける. 誰がいつ、何をやったのかの事実を整理しておく。 初手は課題が沢山でてくるが、全てを一度に解決しようとせず、 クリティカルなものから対応するなどの割り切る。
終わりに 障害訓練の実績がなければ、まずは小さく初めてみては? その際に目的等はできるだけシンプルにしてみると良さげ。 うちのチームでは障害訓練こうやっているぜ!みたいな話は是非懇親会で