Upgrade to Pro — share decks privately, control downloads, hide ads and more …

障害はチャンスだ! 障害を前向きに捉える

障害はチャンスだ! 障害を前向きに捉える

2020/11/04_ Data Engineering Study #4「データ分析基盤の障害対応事例LT祭り」での、山田の講演資料になります

Recruit Technologies

November 04, 2020
Tweet

More Decks by Recruit Technologies

Other Decks in Technology

Transcript

  1. 障害はチャンスだ!
      障害を前向きに捉える
    2020/11/04
    Data Engineering Study #4
    株式会社リクルート 山田 雄

    View Slide

  2. Hobby & Ability ビール/日本酒/ゴルフ/トミカ/子育て
    山田 雄(Yamada Yu)
    @nii_yan
    社会人歴 20年ぐらい
    データエンジニア
    (データ基盤の開発・運用)
    AWS/GCP/BigData/Mail/Hadoop...

    View Slide

  3. View Slide

  4. View Slide

  5. View Slide

  6. データ基盤は一度出来ると使えるのが当
    たり前になり、エンジニアは責められる
    事があっても褒められる事はなくなる

    View Slide

  7. なので
    障害対応は
    とても重要です!

    View Slide

  8. 障害対応
    によって得られる事もある

    View Slide

  9. View Slide

  10. 障害対応時に起きること
    モブプロ/ペアプロになり、他の人のコマンドを見られる
    その場にいる人での対応なので、知らないシステムでも仕様を知れる
    →障害対応は自身の能力を伸ばせるチャンス!!
     障害対応には率先してあたりましょう
     障害対応時のルールを事前に定めておくことも重要

    View Slide

  11. 障害は
    振り返りが
    とても大事

    View Slide

  12. ポストモーテム
    障害の事後検証報告書
    ポストモーテムを作る事によって障害復旧に携わった本人以外に、
    組織も成長出来る。
    googleで障害が起きた時などにも発表される
    ・BACKGROUND
    ・ISSUE SUMMARY
    ・ROOT CAUSE
    ・REMEDIATION AND PREVENTION
    ・DETAILED DESCRIPTION OF IMPACTなど・・・

    View Slide

  13. ポストモーテム例
    ▪概要
    ▪インパクト
    ▪根本原因
    ▪発生原因
      根本原因よりも深堀りした内容
    ▪対応
    ▪教訓
     ・うまくいったこと
     ・うまくいかなかったこと
     ・幸運だったこと
    ▪タイムライン
     ・yyyy-MM-dd HH:mm:ss
      など出来るだけ細かく
    ▪再発防止策

    View Slide

  14. まとめ
    ● 障害は起きないに越した事はない
    ○ ですが、障害の起きないシステムは存在しない
    ● 障害は、人も組織も成長出来るチャンスでもある
    ○ 障害対応の仕方によって基盤の価値が変わる

    View Slide

  15. Fin.

    View Slide