Slide 6
Slide 6 text
(C) Recruit Technologies Co.,Ltd. All rights reserved. 6
現状と解決の方向性(障害検知~通知の自動化)
現状
パトランプで
エラー検知
切り分けツールで
対応確認
運用担当者に連絡
自動化後
JP1から
エラーメール 切り分け
監視センター
Alchemist
人手による対応はベストエフォートの為、どれほど早くても10〜15分かかる
JP1ログを自動で切り分け~通知によって
発生から数十秒で担当者が検知
*現在は並行運用中!
10分後:電話
15分後:メール
1分以内:Slack
電話(検証中)
b..a..t..c..h..
監視センターの人にアラートを
読み上げられても分からない。
結局メールを確認。
電話がきた時点でslackを見て
状況把握。