Upgrade to Pro — share decks privately, control downloads, hide ads and more …

障害はチャンスだ! 障害を前向きに捉える

障害はチャンスだ! 障害を前向きに捉える

2020/11/04_ Data Engineering Study #4「データ分析基盤の障害対応事例LT祭り」での、山田の講演資料になります

Recruit Technologies

November 04, 2020
Tweet

More Decks by Recruit Technologies

Other Decks in Technology

Transcript

  1. 障害はチャンスだ!
      障害を前向きに捉える
    2020/11/04
    Data Engineering Study #4
    株式会社リクルート 山田 雄

    View full-size slide

  2. Hobby & Ability ビール/日本酒/ゴルフ/トミカ/子育て
    山田 雄(Yamada Yu)
    @nii_yan
    社会人歴 20年ぐらい
    データエンジニア
    (データ基盤の開発・運用)
    AWS/GCP/BigData/Mail/Hadoop...

    View full-size slide

  3. データ基盤は一度出来ると使えるのが当
    たり前になり、エンジニアは責められる
    事があっても褒められる事はなくなる

    View full-size slide

  4. なので
    障害対応は
    とても重要です!

    View full-size slide

  5. 障害対応
    によって得られる事もある

    View full-size slide

  6. 障害対応時に起きること
    モブプロ/ペアプロになり、他の人のコマンドを見られる
    その場にいる人での対応なので、知らないシステムでも仕様を知れる
    →障害対応は自身の能力を伸ばせるチャンス!!
     障害対応には率先してあたりましょう
     障害対応時のルールを事前に定めておくことも重要

    View full-size slide

  7. 障害は
    振り返りが
    とても大事

    View full-size slide

  8. ポストモーテム
    障害の事後検証報告書
    ポストモーテムを作る事によって障害復旧に携わった本人以外に、
    組織も成長出来る。
    googleで障害が起きた時などにも発表される
    ・BACKGROUND
    ・ISSUE SUMMARY
    ・ROOT CAUSE
    ・REMEDIATION AND PREVENTION
    ・DETAILED DESCRIPTION OF IMPACTなど・・・

    View full-size slide

  9. ポストモーテム例
    ▪概要
    ▪インパクト
    ▪根本原因
    ▪発生原因
      根本原因よりも深堀りした内容
    ▪対応
    ▪教訓
     ・うまくいったこと
     ・うまくいかなかったこと
     ・幸運だったこと
    ▪タイムライン
     ・yyyy-MM-dd HH:mm:ss
      など出来るだけ細かく
    ▪再発防止策

    View full-size slide

  10. まとめ
    ● 障害は起きないに越した事はない
    ○ ですが、障害の起きないシステムは存在しない
    ● 障害は、人も組織も成長出来るチャンスでもある
    ○ 障害対応の仕方によって基盤の価値が変わる

    View full-size slide