Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
障害対応で実施する3つのこと
Search
umemotoryo
April 24, 2019
Programming
0
580
障害対応で実施する3つのこと
umemotoryo
April 24, 2019
Tweet
Share
More Decks by umemotoryo
See All by umemotoryo
質問箱の負荷対策
umemotoryo
0
480
Other Decks in Programming
See All in Programming
Swift Updates - Learn Languages 2025
koher
2
480
そのAPI、誰のため? Androidライブラリ設計における利用者目線の実践テクニック
mkeeda
2
310
testingを眺める
matumoto
1
140
MCPとデザインシステムに立脚したデザインと実装の融合
yukukotani
4
1.4k
Improving my own Ruby thereafter
sisshiki1969
1
160
さようなら Date。 ようこそTemporal! 3年間先行利用して得られた知見の共有
8beeeaaat
3
1.4k
ファインディ株式会社におけるMCP活用とサービス開発
starfish719
0
1.6k
Design Foundational Data Engineering Observability
sucitw
3
200
Putting The Genie in the Bottle - A Crash Course on running LLMs on Android
iurysza
0
140
時間軸から考えるTerraformを使う理由と留意点
fufuhu
16
4.8k
ユーザーも開発者も悩ませない TV アプリ開発 ~Compose の内部実装から学ぶフォーカス制御~
taked137
0
180
GitHubとGitLabとAWS CodePipelineでCI/CDを組み比べてみた
satoshi256kbyte
4
240
Featured
See All Featured
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
139
34k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
44
2.5k
The Power of CSS Pseudo Elements
geoffreycrofte
77
6k
Why You Should Never Use an ORM
jnunemaker
PRO
59
9.5k
Why Our Code Smells
bkeepers
PRO
339
57k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
RailsConf 2023
tenderlove
30
1.2k
How STYLIGHT went responsive
nonsquared
100
5.8k
KATA
mclloyd
32
14k
Building an army of robots
kneath
306
46k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
53
2.9k
Transcript
障害対応で実施する3つのこと 株式会社 ジラフ 梅本稜
2 1. 質問箱の脆弱性の発生原因と対応 2. 障害対応で実施する3つのこと a. 前提 b. 異常に早く気づく方法 c.
落ち着くこと d. 対応を考える・実行する
3 質問箱の脆弱性の 発生原因とその対応
4 発生原因 • 確認・認識不足(すごく簡単にまとめています) 対応 • Rails側にはserializerを適用 • linterでto_json、as_jsonを禁止 •
DBに保持すべきでないデータの削除 • E2Eテストの導入 発生原因とその対応
5 障害対応で実施する3つのこと 1. 前提 2. 異常に早く気づくこと 3. 落ち着くこと 4. 対応を考える・実行する
6 前提 • 質問箱を自分の子供のように思っています。 • 終業後も週4日程度、土日はどちらか1日はパソコンを開いています。 • slackの通知はだいたい見ています。 • お酒はあんまり飲んでません。
• 何か問題があると通知が僕にきます。(人や機械から) ◦ これに普段から早いレスをするとよく連絡が来るようになります。(人に 限定される) • GAでリアルタイムの人数をたまに見ています。
7 異常に早く気付くこと • 自分が対応できなくても他の人に知らせることができる。 • 考える時間を作れる。 • エラーなどが発生しているときにアクセスしてきたユーザーは戻ってこないと 言われている。 ◦
数字を探したのですが見つけられなかったです。 • ダウンタイム等による金銭的な損害を短くできる。
8 落ち着くこと • 報告が上がっていない箇所でも同じ障害が発生していたりする。 • すぐに変更を加えない。(明らかなものを除く) • 現在発生している箇所を把握する。 • 今対応すべきか考える。(業務時間外の時)
• 例えばすでにメンテナンスモードになっており、アクセスできる状態であれば翌 日でも良かったりする時もあるのでPOや関係者と相談する。 • 早く対応できればそれがベストだが焦ってさらに何か発生する方が困る。
9 対応を考える・実行する • 何をしたら良いかわからなくなったらいろんな人に連絡して助けてもらう。 • 自分の動ける時間と作業内容を見積もりする。 • 中途半端に作業してしまうと他の人に引き継げなくなる。 • コードは汚くても動けばよし。
• 反省は障害が落ち着いてからする。 • どんな暫定対応をしたか何か残す。(形式よりも伝わることが大切)