障害はチャンスだ! 障害を前向きに捉える

障害はチャンスだ! 障害を前向きに捉える

2020/11/04_ Data Engineering Study #4「データ分析基盤の障害対応事例LT祭り」での、山田の講演資料になります

Eea9a05e6e222a3d50c73f54a49fadf4?s=128

Recruit Technologies

November 04, 2020
Tweet

Transcript

  1. 障害はチャンスだ!   障害を前向きに捉える 2020/11/04 Data Engineering Study #4 株式会社リクルート 山田 雄

  2. Hobby & Ability ビール/日本酒/ゴルフ/トミカ/子育て 山田 雄(Yamada Yu) @nii_yan 社会人歴 20年ぐらい データエンジニア

    (データ基盤の開発・運用) AWS/GCP/BigData/Mail/Hadoop...
  3. None
  4. None
  5. None
  6. データ基盤は一度出来ると使えるのが当 たり前になり、エンジニアは責められる 事があっても褒められる事はなくなる

  7. なので 障害対応は とても重要です!

  8. 障害対応 によって得られる事もある

  9. None
  10. 障害対応時に起きること モブプロ/ペアプロになり、他の人のコマンドを見られる その場にいる人での対応なので、知らないシステムでも仕様を知れる →障害対応は自身の能力を伸ばせるチャンス!!  障害対応には率先してあたりましょう  障害対応時のルールを事前に定めておくことも重要

  11. 障害は 振り返りが とても大事

  12. ポストモーテム 障害の事後検証報告書 ポストモーテムを作る事によって障害復旧に携わった本人以外に、 組織も成長出来る。 googleで障害が起きた時などにも発表される ・BACKGROUND ・ISSUE SUMMARY ・ROOT CAUSE

    ・REMEDIATION AND PREVENTION ・DETAILED DESCRIPTION OF IMPACTなど・・・
  13. ポストモーテム例 ▪概要 ▪インパクト ▪根本原因 ▪発生原因   根本原因よりも深堀りした内容 ▪対応 ▪教訓  ・うまくいったこと  ・うまくいかなかったこと

     ・幸運だったこと ▪タイムライン  ・yyyy-MM-dd HH:mm:ss   など出来るだけ細かく ▪再発防止策
  14. まとめ • 障害は起きないに越した事はない ◦ ですが、障害の起きないシステムは存在しない • 障害は、人も組織も成長出来るチャンスでもある ◦ 障害対応の仕方によって基盤の価値が変わる

  15. Fin.