Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
障害対応で実施する3つのこと
Search
umemotoryo
April 24, 2019
Programming
0
570
障害対応で実施する3つのこと
umemotoryo
April 24, 2019
Tweet
Share
More Decks by umemotoryo
See All by umemotoryo
質問箱の負荷対策
umemotoryo
0
470
Other Decks in Programming
See All in Programming
Spring gRPC で始める gRPC 入門 / Introduction to gRPC with Spring gRPC
mackey0225
2
510
アンドパッドの Go 勉強会「 gopher 会」とその内容の紹介
andpad
0
220
Beyond Portability: Live Migration for Evolving WebAssembly Workloads
chikuwait
0
370
iOSアプリ開発で 関数型プログラミングを実現する The Composable Architectureの紹介
yimajo
2
210
Haskell でアルゴリズムを抽象化する / 関数型言語で競技プログラミング
naoya
17
4.7k
Prism.parseで 300本以上あるエンドポイントに 接続できる権限の一覧表を作ってみた
hatsu38
1
110
F#で自在につくる静的ブログサイト - 関数型まつり2025
pizzacat83
0
300
Java on Azure で LangGraph!
kohei3110
0
140
「ElixirでIoT!!」のこれまでとこれから
takasehideki
0
360
複数アプリケーションを育てていくための共通化戦略
irof
10
3.9k
TypeScript LSP の今までとこれから
quramy
1
500
レガシーシステムの機能調査・開発におけるAI利活用
takuya_ohtonari
0
600
Featured
See All Featured
Fantastic passwords and where to find them - at NoRuKo
philnash
51
3.3k
A Tale of Four Properties
chriscoyier
159
23k
Java REST API Framework Comparison - PWX 2021
mraible
31
8.6k
It's Worth the Effort
3n
184
28k
4 Signs Your Business is Dying
shpigford
184
22k
RailsConf 2023
tenderlove
30
1.1k
VelocityConf: Rendering Performance Case Studies
addyosmani
329
24k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
8
780
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
GraphQLの誤解/rethinking-graphql
sonatard
71
11k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
Transcript
障害対応で実施する3つのこと 株式会社 ジラフ 梅本稜
2 1. 質問箱の脆弱性の発生原因と対応 2. 障害対応で実施する3つのこと a. 前提 b. 異常に早く気づく方法 c.
落ち着くこと d. 対応を考える・実行する
3 質問箱の脆弱性の 発生原因とその対応
4 発生原因 • 確認・認識不足(すごく簡単にまとめています) 対応 • Rails側にはserializerを適用 • linterでto_json、as_jsonを禁止 •
DBに保持すべきでないデータの削除 • E2Eテストの導入 発生原因とその対応
5 障害対応で実施する3つのこと 1. 前提 2. 異常に早く気づくこと 3. 落ち着くこと 4. 対応を考える・実行する
6 前提 • 質問箱を自分の子供のように思っています。 • 終業後も週4日程度、土日はどちらか1日はパソコンを開いています。 • slackの通知はだいたい見ています。 • お酒はあんまり飲んでません。
• 何か問題があると通知が僕にきます。(人や機械から) ◦ これに普段から早いレスをするとよく連絡が来るようになります。(人に 限定される) • GAでリアルタイムの人数をたまに見ています。
7 異常に早く気付くこと • 自分が対応できなくても他の人に知らせることができる。 • 考える時間を作れる。 • エラーなどが発生しているときにアクセスしてきたユーザーは戻ってこないと 言われている。 ◦
数字を探したのですが見つけられなかったです。 • ダウンタイム等による金銭的な損害を短くできる。
8 落ち着くこと • 報告が上がっていない箇所でも同じ障害が発生していたりする。 • すぐに変更を加えない。(明らかなものを除く) • 現在発生している箇所を把握する。 • 今対応すべきか考える。(業務時間外の時)
• 例えばすでにメンテナンスモードになっており、アクセスできる状態であれば翌 日でも良かったりする時もあるのでPOや関係者と相談する。 • 早く対応できればそれがベストだが焦ってさらに何か発生する方が困る。
9 対応を考える・実行する • 何をしたら良いかわからなくなったらいろんな人に連絡して助けてもらう。 • 自分の動ける時間と作業内容を見積もりする。 • 中途半端に作業してしまうと他の人に引き継げなくなる。 • コードは汚くても動けばよし。
• 反省は障害が落ち着いてからする。 • どんな暫定対応をしたか何か残す。(形式よりも伝わることが大切)