Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
アラートの過不足をなくす 2023-02-10 ENECHANGE Tech Talk (社内勉強会) CTO室 岩本隆史 (@iwamot)
Slide 2
Slide 2 text
現状の問題点 不必要なアラートが多い 必要なアラートが足りない
Slide 3
Slide 3 text
不必要なアラートが多い
Slide 4
Slide 4 text
不必要なアラートの例 CPU使用率が高い 不正なリクエストによって例外が発生している
Slide 5
Slide 5 text
アラートの定義 深夜であっても即対応すべき事象を知らせるもの 後日対応でよいならチケットで知らせればよい
Slide 6
Slide 6 text
不必要なアラートの問題点 即対応すべき事象が埋もれてしまう 無視が習慣化してしまう
Slide 7
Slide 7 text
不必要なアラートをなくす CPU使用率が高い → 削除する 不正なリクエストによって例外が発生している → アプリ側でハンド リングして4xxエラーを返す
Slide 8
Slide 8 text
必要なアラートが足りない
Slide 9
Slide 9 text
必要なアラートの例 サービスレベル (SLI) の悪化 お客様に迷惑がかかる 収益に悪影響がある ディスク空き容量の急激な低下 突然サービス不能になりかねない
Slide 10
Slide 10 text
必要なアラートを仕掛ける サービスレベル (SLI) の悪化 → 手段を検討中 ディスク空き容量の急激な低下 → 一部実施済みだが改善する
Slide 11
Slide 11 text
おわりに
Slide 12
Slide 12 text
ご協力のお願い 即対応が必要なアラートのみにしていきましょう サービスレベル目標 (SLO) を定義していきましょう
Slide 13
Slide 13 text
参考記事 Google - Site Reliability Engineering 訳書『SRE サイトリライアビリティエンジニアリング』 クラウド環境でのアラートを考えてみよう 監視疲れを起こさない工夫