障害対応で実施する3つのこと

 障害対応で実施する3つのこと

0a5dadec1a85583c9637ccf8fa8215d2?s=128

umemotoryo

April 24, 2019
Tweet

Transcript

  1. 障害対応で実施する3つのこと 株式会社 ジラフ 梅本稜

  2. 2 1. 質問箱の脆弱性の発生原因と対応 2. 障害対応で実施する3つのこと a. 前提 b. 異常に早く気づく方法 c.

    落ち着くこと d. 対応を考える・実行する
  3. 3 質問箱の脆弱性の 発生原因とその対応

  4. 4 発生原因 • 確認・認識不足(すごく簡単にまとめています) 対応 • Rails側にはserializerを適用 • linterでto_json、as_jsonを禁止 •

    DBに保持すべきでないデータの削除 • E2Eテストの導入 発生原因とその対応
  5. 5 障害対応で実施する3つのこと 1. 前提 2. 異常に早く気づくこと 3. 落ち着くこと 4. 対応を考える・実行する

  6. 6 前提 • 質問箱を自分の子供のように思っています。 • 終業後も週4日程度、土日はどちらか1日はパソコンを開いています。 • slackの通知はだいたい見ています。 • お酒はあんまり飲んでません。

    • 何か問題があると通知が僕にきます。(人や機械から) ◦ これに普段から早いレスをするとよく連絡が来るようになります。(人に 限定される) • GAでリアルタイムの人数をたまに見ています。
  7. 7 異常に早く気付くこと • 自分が対応できなくても他の人に知らせることができる。 • 考える時間を作れる。 • エラーなどが発生しているときにアクセスしてきたユーザーは戻ってこないと 言われている。 ◦

    数字を探したのですが見つけられなかったです。 • ダウンタイム等による金銭的な損害を短くできる。
  8. 8 落ち着くこと • 報告が上がっていない箇所でも同じ障害が発生していたりする。 • すぐに変更を加えない。(明らかなものを除く) • 現在発生している箇所を把握する。 • 今対応すべきか考える。(業務時間外の時)

    • 例えばすでにメンテナンスモードになっており、アクセスできる状態であれば翌 日でも良かったりする時もあるのでPOや関係者と相談する。 • 早く対応できればそれがベストだが焦ってさらに何か発生する方が困る。
  9. 9 対応を考える・実行する • 何をしたら良いかわからなくなったらいろんな人に連絡して助けてもらう。 • 自分の動ける時間と作業内容を見積もりする。 • 中途半端に作業してしまうと他の人に引き継げなくなる。 • コードは汚くても動けばよし。

    • 反省は障害が落ち着いてからする。 • どんな暫定対応をしたか何か残す。(形式よりも伝わることが大切)