Upgrade to Pro — share decks privately, control downloads, hide ads and more …

障害ってだいたい有給取った日に起こるよね(あるいはドラッカーの真摯さについて考えさせられた失敗の話)

96c4c5d86c23e3b3623b709d75a8633d?s=47 sawarabi
April 20, 2022

 障害ってだいたい有給取った日に起こるよね(あるいはドラッカーの真摯さについて考えさせられた失敗の話)

https://rakus.connpass.com/event/241835/
エンジニアの失敗学 LT会 #失敗学LT

で発表した内容です。

96c4c5d86c23e3b3623b709d75a8633d?s=128

sawarabi

April 20, 2022
Tweet

More Decks by sawarabi

Other Decks in Business

Transcript

  1. 障害ってだいたい有給取った日に起こるよね (あるいはドラッカーの真摯さについて 考えさせられた失敗の話) エンジニアの失敗学 LT #失敗学LT 2022/04/20

  2. 直近やった失敗 暖かくなったから長袖しまった! 寒い!!! けどハワイ気分でお送りします!

  3. 名前:さわらび Twitter:@TSawarabi(質問などお気軽に!) 職業:バックエンドエンジニア 会社:株式会社 Viibar 最近読んだ本:「ハコヅメ」仕事論 最近気になってる映画:必殺!恐竜神父            チャンス!メイドの逆襲 最近の出来事:ほぼ月刊サメ映画、欲しさに        「エイリアンVSジョーズ」のDVDを購入

    自己紹介
  4. ほぼ月刊サメ映画、とサメ映画

  5. 自己紹介(ストレングスファインダー) ギャラップ認定ストレングスコーチ Top10の内訳 • 戦略的思考力:5個 • 影響力:3個 • 人間関係構築力:2個 実行力どこいった・・・(´・ω・`)

    (実行力:実行したい、完遂したい、という資質群) エニアグラムは Type 8w7(独立した人)
  6. 山ほどある失敗の話 • 印刷した地図を見ながら面接会場に向かっていたら駅に戻っていた話 • 本番DBのデータメンテ時にwhere句抜きでdelete文を実行した話 • PCのネジが何故か一本余った話 • スケープゴート的なアレで減給された話 •

    花粉症で鼻かみまくってたら客先に連れていってもらえなかった話 • オフショア先にマイクロマネジメントしてしまった話 • 障害対応時の報告をミスってお客様にめっちゃ怒られた話 • 失敗ではないけど、神になった話 • 開くとサーバが落ちる地雷みたいなページを踏んでサーバを止めた話 • 思い出せないだけで、多分まだある
  7. 山ほどある失敗の話 • 印刷した地図を見ながら面接会場に向かっていたら駅に戻っていた話 • 本番DBのデータメンテ時にwhere句抜きでdelete文を実行した話 • PCのネジが何故か一本余った話 • スケープゴート的なアレで減給された話 •

    花粉症で鼻かみまくってたら客先に連れていってもらえなかった話 • オフショア先にマイクロマネジメントしてしまった話 • 障害対応時の報告をミスってお客様にめっちゃ怒られた話 • 失敗ではないけど、神になった話 • 開くとサーバが落ちる地雷みたいなページを踏んでサーバを止めた話 • 思い出せないだけで、多分まだある
  8. 当時、私は青かった…(windowsっぽく) 当時の背景 • 社員数20-30人くらいの小さなSIer ◦ 一次請け • 新卒2年目(だったと思うけど、1年目かも) ◦ 4社くらいの保守と追加開発案件

    ◦ 扱っていたのは基幹システム • 体制としては、上司と自分の二人体制のモノがほとんど • システムもオンプレで、一つのサーバにアプリとDB両方載せてる感じ
  9. 障害ってだいたい有給… 1. その日、自分は珍しく有給を取っていた 2. 朝というか昼?、電話を取ったら会社からだった (映画館いってた気がする) 3. 「~さん(お客様)から、システム止まってるって!」 4. 一緒に担当している上司は別の客先で不在とのこと

    5. 出社!!
  10. とりあえず障害対応 1. とりあえず状況確認したら、サーバのHDD死んでた 2. 社内で余っていた普通のデスクトップPCを確保 3. そいつにアプリとDBをセットアップ 4. DBは取り急ぎ1日前のバックアップから復旧 5.

    タクシーでデータセンターへ。動いていないサーバと繋ぎ替え 6. 動作確認して、復旧連絡 7. 暫定対応完了
  11. 後日調査 • 原因は「RAIDコントローラーの故障」 • データのサルベージは不可 ◦ 単純に、お客様側で既に入れなおしているので不要だった、 というのもある • 誰が悪いとかではなく、運がなかったねー、みたいな会話

  12. お客様との月次定例 • めっちゃ怒られた • いつも一緒に来る上司は別件で不在 • 原因はRAIDコントロ―ラーの故障でした、の一言で流してしまった (正直、あんまり触れたくないっていう気持ちがあったかなーと) • お客様:それだけ?

    • お客様:契約切る? • お客様:データ入れなおした分の工賃、請求するけどいい? • 最終的に、別日に上司といったらあっさり解決
  13. 当時は理不尽だと思ったけど… 当時自分が思ったこと • 有給潰してまでスピード対応したのに… • そもそも自分、悪くないし お客様の不安 • これって再発するの?大丈夫? やるべきだったこと

    • ちゃんと説明をして、不安を取り除く
  14. 失敗から学んだこと • 相手(お客様)の目線で考える ◦ 基本、お客様は不安 ◦ そこをちゃんと取り除いてあげるのが大事 (こまめに報告入れるとか、影響範囲早めにとか  再発するのかとか、対応どうするのかとか) ◦

    誰が悪いとか、どうでもいい 当たり前のことだし、よく言ってることだけど、意外と難しい
  15. None