Slide 7
Slide 7 text
❏ ある日、Elastic Search クラスタ全体が不安定になりレスポンスを返せず
サービスのコア機能に障害が発生
❏ Elastic Search 周りのオブザーバビリティを当初は十分に確保できていなかったのも
あり原因調査が難航
❏ 結局、数日後に障害対応を一旦クローズしてしまう
❏ 数ヶ月後、同様の障害が発生し短期間の間で繰り返しユーザーに
ご迷惑をかけてしまった
❏ 組織内で話し合った結果、明らかにユーザーに提供すべきサービス品質を十分に
満たしていないという意見が一致し、他タスクを一度停止して本障害調査/解決に
フルコミットすることに
❏ 前回の反省からオブザーバビリティの改善もしていた結果、
原因もわかり対応することができた
❏ アクションを起こす際の曖昧な判断軸