Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
障害対応で実施する3つのこと
Search
umemotoryo
April 24, 2019
Programming
0
510
障害対応で実施する3つのこと
umemotoryo
April 24, 2019
Tweet
Share
More Decks by umemotoryo
See All by umemotoryo
質問箱の負荷対策
umemotoryo
0
440
Other Decks in Programming
See All in Programming
PHP でアセンブリ言語のように書く技術
memory1994
PRO
1
160
AWS IaCの注目アップデート 2024年10月版
konokenj
3
3.3k
OpenTelemetryでRailsのパフォーマンス分析を始めてみよう(KoR2024)
ymtdzzz
5
2k
GitHub Actionsのキャッシュと手を挙げることの大切さとそれに必要なこと
satoshi256kbyte
5
420
シールドクラスをはじめよう / Getting Started with Sealed Classes
mackey0225
3
430
3rd party scriptでもReactを使いたい! Preact + Reactのハイブリッド開発
righttouch
PRO
1
590
Macとオーディオ再生 2024/11/02
yusukeito
0
340
광고 소재 심사 과정에 AI를 도입하여 광고 서비스 생산성 향상시키기
kakao
PRO
0
170
Java ジェネリクス入門 2024
nagise
0
700
cXML という電子商取引の トランザクションを支える プロトコルと向きあっている話
phigasui
3
2.3k
Outline View in SwiftUI
1024jp
1
290
讓數據說話:用 Python、Prometheus 和 Grafana 講故事
eddie
0
390
Featured
See All Featured
A Tale of Four Properties
chriscoyier
156
23k
Code Reviewing Like a Champion
maltzj
520
39k
The Art of Programming - Codeland 2020
erikaheidi
52
13k
How to Think Like a Performance Engineer
csswizardry
20
1.1k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
7
560
No one is an island. Learnings from fostering a developers community.
thoeni
19
3k
How GitHub (no longer) Works
holman
310
140k
Fireside Chat
paigeccino
33
3k
What's new in Ruby 2.0
geeforr
343
31k
The Power of CSS Pseudo Elements
geoffreycrofte
73
5.3k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
109
49k
For a Future-Friendly Web
brad_frost
175
9.4k
Transcript
障害対応で実施する3つのこと 株式会社 ジラフ 梅本稜
2 1. 質問箱の脆弱性の発生原因と対応 2. 障害対応で実施する3つのこと a. 前提 b. 異常に早く気づく方法 c.
落ち着くこと d. 対応を考える・実行する
3 質問箱の脆弱性の 発生原因とその対応
4 発生原因 • 確認・認識不足(すごく簡単にまとめています) 対応 • Rails側にはserializerを適用 • linterでto_json、as_jsonを禁止 •
DBに保持すべきでないデータの削除 • E2Eテストの導入 発生原因とその対応
5 障害対応で実施する3つのこと 1. 前提 2. 異常に早く気づくこと 3. 落ち着くこと 4. 対応を考える・実行する
6 前提 • 質問箱を自分の子供のように思っています。 • 終業後も週4日程度、土日はどちらか1日はパソコンを開いています。 • slackの通知はだいたい見ています。 • お酒はあんまり飲んでません。
• 何か問題があると通知が僕にきます。(人や機械から) ◦ これに普段から早いレスをするとよく連絡が来るようになります。(人に 限定される) • GAでリアルタイムの人数をたまに見ています。
7 異常に早く気付くこと • 自分が対応できなくても他の人に知らせることができる。 • 考える時間を作れる。 • エラーなどが発生しているときにアクセスしてきたユーザーは戻ってこないと 言われている。 ◦
数字を探したのですが見つけられなかったです。 • ダウンタイム等による金銭的な損害を短くできる。
8 落ち着くこと • 報告が上がっていない箇所でも同じ障害が発生していたりする。 • すぐに変更を加えない。(明らかなものを除く) • 現在発生している箇所を把握する。 • 今対応すべきか考える。(業務時間外の時)
• 例えばすでにメンテナンスモードになっており、アクセスできる状態であれば翌 日でも良かったりする時もあるのでPOや関係者と相談する。 • 早く対応できればそれがベストだが焦ってさらに何か発生する方が困る。
9 対応を考える・実行する • 何をしたら良いかわからなくなったらいろんな人に連絡して助けてもらう。 • 自分の動ける時間と作業内容を見積もりする。 • 中途半端に作業してしまうと他の人に引き継げなくなる。 • コードは汚くても動けばよし。
• 反省は障害が落ち着いてからする。 • どんな暫定対応をしたか何か残す。(形式よりも伝わることが大切)