Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
小さく始める障害訓練
Search
j-maki
January 13, 2026
0
0
小さく始める障害訓練
j-maki
January 13, 2026
Tweet
Share
More Decks by j-maki
See All by j-maki
Amazon EKS MCP Serverでクラスタの職場環境のストレスチェックをして遊んでみた
jmakk0301
0
160
ギフティにおける プラットフォームエンジニアリングことはじめ
jmakk0301
2
330
probeの勘違いから見直した、Pod運用のアレコレ
jmakk0301
2
210
Featured
See All Featured
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
61k
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
37
Code Reviewing Like a Champion
maltzj
527
40k
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
130
Discover your Explorer Soul
emna__ayadi
2
1k
Navigating Weather and Climate Data
rabernat
0
67
WENDY [Excerpt]
tessaabrams
9
35k
The SEO identity crisis: Don't let AI make you average
varn
0
47
How to Get Subject Matter Experts Bought In and Actively Contributing to SEO & PR Initiatives.
livdayseo
0
44
Leading Effective Engineering Teams in the AI Era
addyosmani
9
1.5k
Lessons Learnt from Crawling 1000+ Websites
charlesmeaden
PRO
0
1k
Bash Introduction
62gerente
615
210k
Transcript
小さく始める障害訓練
自己紹介 jmakiと言います。 ギフティという会社で3年くらいエンジニアをやっています。 普段はRubyを書いたり、AWSでインフラ構築したりしています。 SREではないです。
会社紹介というか個人的にもgifteeをよく使っているという話
会社紹介というか個人的にもgifteeをよく使っているという話 お世話になった業務委託のエンジニアの方に 個人的にgifteeのギフトを買って贈ったらとても喜んでくれました。 slackのDM等で気軽に贈れるので、普段からよく使っています。
今日話すこと 新規プロダクトのリリース前に障害訓練を実施したので、気をつけたポイントを共 有します。 SREではない自分が障害訓練の実施があまりない組織で小さく始めてみました。 どちらかというと障害訓練をこれから始める方向けの内容です。 ガチ勢の方はゆるく聞いていただけると
そもそも障害訓練って何ぞ? 障害訓練とは 実際の障害発生時に備えた準備として システムに意図的に障害を起こし、チームの対応力を確認・向上させる活動。 なぜ必要なのか? 実際の障害時は冷静な判断が難しいため日頃から準備しておく必要がある。 普段の開発業務では気づけない課題やシステムの改善点も見つかる。
では私のチームで実際どのように実施していったかについて発表 していきます。
事前準備その1 訓練の目的決め この時のポイント 初手は目的をシンプルに設定 慣れていないうちに沢山の目的・目標を一度にやり切るのは困難。 障害訓練は定期的に実施していくものであり、 初手からやる事を盛りすぎると実施自体のハードルになる。 実施経験を積みメンバーに取り組みの重要性を認識してもらうことが大切。 今回設定した目的 「サービスローンチの前に障害対応フローを再確認・整理する」
事前準備その2 訓練で起こす障害の内容選定 初手に選ぶ障害としてのポイント 目的に沿ったもの 対応フローの整理であれば難しい障害をあえて起こす必要はない。 ビジネス的にクリティカルなもの ゴールデンパスを満たせない等、最悪のケースを想定する。 準備に時間がかからないもの サーバやDBに負荷をかける系は準備に時間がかかるため、避けた方が無難。 今回実施した障害
Route53からALBのレコードを手動で消す 参考: SRE Magazine - 障害訓練の進め方
事前準備その3 実施メンバーへの事前説明 この時のポイント Mgrを味方につけておく。(可能なら顧客役をお願いして一緒に参加してもらう。 ) 顧客への連絡パスなど、できるだけリアルにやるようにメンバーに依頼する。 実施チーム以外の社内への周知も忘れずに。 副次的に活動の宣伝にもなる。
障害訓練実施 この時のポイント 言わずもがな、バレないようにこっそり障害を起こす。 基本的には対応を見守るが、もし詰まっている場合は適度にコメントを入れる。 目的が達成できるかを考えながら臨機応変に。 あとはメンバーがわちゃわちゃしているのをニヤニヤしながら眺める。
障害報告・ポストモーテム・訓練自体の振り返り この時のポイント 障害対応フローについて振り返りに時間をかける. 誰がいつ、何をやったのかの事実を整理しておく。 初手は課題が沢山でてくるが、全てを一度に解決しようとせず、 クリティカルなものから対応するなどの割り切る。
終わりに 障害訓練の実績がなければ、まずは小さく初めてみては? その際に目的等はできるだけシンプルにしてみると良さげ。 うちのチームでは障害訓練こうやっているぜ!みたいな話は是非懇親会で