基盤に障害はつきものですが、障害をどう乗り越えるかで基盤の価値は変わってきます。 障害対応で何が得られて、どう対応するのがいいのかを紹介させていただきます。
Data Engineering Study #4「データ分析基盤の障害対応事例LT祭り」
障害はチャンスだ! 障害を前向きに捉える2020/11/04Data Engineering Study #4株式会社リクルート 山田 雄
View Slide
Hobby & Ability ビール/日本酒/ゴルフ/トミカ/子育て山田 雄(Yamada Yu)@nii_yan社会人歴 20年ぐらいデータエンジニア(データ基盤の開発・運用)AWS/GCP/BigData/Mail/Hadoop...
データ基盤は一度出来ると使えるのが当たり前になり、エンジニアは責められる事があっても褒められる事はなくなる
なので障害対応はとても重要です!
障害対応によって得られる事もある
障害対応時に起きることモブプロ/ペアプロになり、他の人のコマンドを見られるその場にいる人での対応なので、知らないシステムでも仕様を知れる→障害対応は自身の能力を伸ばせるチャンス!! 障害対応には率先してあたりましょう 障害対応時のルールを事前に定めておくことも重要
障害は振り返りがとても大事
ポストモーテム障害の事後検証報告書ポストモーテムを作る事によって障害復旧に携わった本人以外に、組織も成長出来る。googleで障害が起きた時などにも発表される・BACKGROUND・ISSUE SUMMARY・ROOT CAUSE・REMEDIATION AND PREVENTION・DETAILED DESCRIPTION OF IMPACTなど・・・
ポストモーテム例▪概要▪インパクト▪根本原因▪発生原因 根本原因よりも深堀りした内容▪対応▪教訓 ・うまくいったこと ・うまくいかなかったこと ・幸運だったこと▪タイムライン ・yyyy-MM-dd HH:mm:ss など出来るだけ細かく▪再発防止策
まとめ● 障害は起きないに越した事はない○ ですが、障害の起きないシステムは存在しない● 障害は、人も組織も成長出来るチャンスでもある○ 障害対応の仕方によって基盤の価値が変わる
Fin.