https://rakus.connpass.com/event/241835/ エンジニアの失敗学 LT会 #失敗学LT
で発表した内容です。
障害ってだいたい有給取った日に起こるよね(あるいはドラッカーの真摯さについて考えさせられた失敗の話)エンジニアの失敗学 LT #失敗学LT2022/04/20
View Slide
直近やった失敗暖かくなったから長袖しまった!寒い!!!けどハワイ気分でお送りします!
名前:さわらびTwitter:@TSawarabi(質問などお気軽に!)職業:バックエンドエンジニア会社:株式会社 Viibar最近読んだ本:「ハコヅメ」仕事論最近気になってる映画:必殺!恐竜神父 チャンス!メイドの逆襲最近の出来事:ほぼ月刊サメ映画、欲しさに 「エイリアンVSジョーズ」のDVDを購入自己紹介
ほぼ月刊サメ映画、とサメ映画
自己紹介(ストレングスファインダー)ギャラップ認定ストレングスコーチTop10の内訳● 戦略的思考力:5個● 影響力:3個● 人間関係構築力:2個実行力どこいった・・・(´・ω・`)(実行力:実行したい、完遂したい、という資質群)エニアグラムは Type 8w7(独立した人)
山ほどある失敗の話● 印刷した地図を見ながら面接会場に向かっていたら駅に戻っていた話● 本番DBのデータメンテ時にwhere句抜きでdelete文を実行した話● PCのネジが何故か一本余った話● スケープゴート的なアレで減給された話● 花粉症で鼻かみまくってたら客先に連れていってもらえなかった話● オフショア先にマイクロマネジメントしてしまった話● 障害対応時の報告をミスってお客様にめっちゃ怒られた話● 失敗ではないけど、神になった話● 開くとサーバが落ちる地雷みたいなページを踏んでサーバを止めた話● 思い出せないだけで、多分まだある
当時、私は青かった…(windowsっぽく)当時の背景● 社員数20-30人くらいの小さなSIer○ 一次請け● 新卒2年目(だったと思うけど、1年目かも)○ 4社くらいの保守と追加開発案件○ 扱っていたのは基幹システム● 体制としては、上司と自分の二人体制のモノがほとんど● システムもオンプレで、一つのサーバにアプリとDB両方載せてる感じ
障害ってだいたい有給…1. その日、自分は珍しく有給を取っていた2. 朝というか昼?、電話を取ったら会社からだった(映画館いってた気がする)3. 「~さん(お客様)から、システム止まってるって!」4. 一緒に担当している上司は別の客先で不在とのこと5. 出社!!
とりあえず障害対応1. とりあえず状況確認したら、サーバのHDD死んでた2. 社内で余っていた普通のデスクトップPCを確保3. そいつにアプリとDBをセットアップ4. DBは取り急ぎ1日前のバックアップから復旧5. タクシーでデータセンターへ。動いていないサーバと繋ぎ替え6. 動作確認して、復旧連絡7. 暫定対応完了
後日調査● 原因は「RAIDコントローラーの故障」● データのサルベージは不可○ 単純に、お客様側で既に入れなおしているので不要だった、というのもある● 誰が悪いとかではなく、運がなかったねー、みたいな会話
お客様との月次定例● めっちゃ怒られた● いつも一緒に来る上司は別件で不在● 原因はRAIDコントロ―ラーの故障でした、の一言で流してしまった(正直、あんまり触れたくないっていう気持ちがあったかなーと)● お客様:それだけ?● お客様:契約切る?● お客様:データ入れなおした分の工賃、請求するけどいい?● 最終的に、別日に上司といったらあっさり解決
当時は理不尽だと思ったけど…当時自分が思ったこと● 有給潰してまでスピード対応したのに…● そもそも自分、悪くないしお客様の不安● これって再発するの?大丈夫?やるべきだったこと● ちゃんと説明をして、不安を取り除く
失敗から学んだこと● 相手(お客様)の目線で考える○ 基本、お客様は不安○ そこをちゃんと取り除いてあげるのが大事(こまめに報告入れるとか、影響範囲早めにとか 再発するのかとか、対応どうするのかとか)○ 誰が悪いとか、どうでもいい当たり前のことだし、よく言ってることだけど、意外と難しい