2023-02-10 ENECHANGE Tech Talk (社内勉強会)
アラートの過不足をなくす2023-02-10ENECHANGE Tech Talk (社内勉強会)CTO室 岩本隆史 (@iwamot)
View Slide
現状の問題点不必要なアラートが多い必要なアラートが足りない
不必要なアラートが多い
不必要なアラートの例CPU使用率が高い不正なリクエストによって例外が発生している
アラートの定義深夜であっても即対応すべき事象を知らせるもの後日対応でよいならチケットで知らせればよい
不必要なアラートの問題点即対応すべき事象が埋もれてしまう無視が習慣化してしまう
不必要なアラートをなくすCPU使用率が高い → 削除する不正なリクエストによって例外が発生している → アプリ側でハンドリングして4xxエラーを返す
必要なアラートが足りない
必要なアラートの例サービスレベル (SLI) の悪化お客様に迷惑がかかる収益に悪影響があるディスク空き容量の急激な低下突然サービス不能になりかねない
必要なアラートを仕掛けるサービスレベル (SLI) の悪化 → 手段を検討中ディスク空き容量の急激な低下 → 一部実施済みだが改善する
おわりに
ご協力のお願い即対応が必要なアラートのみにしていきましょうサービスレベル目標 (SLO) を定義していきましょう
参考記事Google - Site Reliability Engineering訳書『SRE サイトリライアビリティエンジニアリング』クラウド環境でのアラートを考えてみよう監視疲れを起こさない工夫