Slide 1

Slide 1 text

アラートの過不足をなくす 2023-02-10 ENECHANGE Tech Talk (社内勉強会) CTO室 岩本隆史 (@iwamot)

Slide 2

Slide 2 text

現状の問題点 不必要なアラートが多い 必要なアラートが足りない

Slide 3

Slide 3 text

不必要なアラートが多い

Slide 4

Slide 4 text

不必要なアラートの例 CPU使用率が高い 不正なリクエストによって例外が発生している

Slide 5

Slide 5 text

アラートの定義 深夜であっても即対応すべき事象を知らせるもの 後日対応でよいならチケットで知らせればよい

Slide 6

Slide 6 text

不必要なアラートの問題点 即対応すべき事象が埋もれてしまう 無視が習慣化してしまう

Slide 7

Slide 7 text

不必要なアラートをなくす CPU使用率が高い → 削除する 不正なリクエストによって例外が発生している → アプリ側でハンド リングして4xxエラーを返す

Slide 8

Slide 8 text

必要なアラートが足りない

Slide 9

Slide 9 text

必要なアラートの例 サービスレベル (SLI) の悪化 お客様に迷惑がかかる 収益に悪影響がある ディスク空き容量の急激な低下 突然サービス不能になりかねない

Slide 10

Slide 10 text

必要なアラートを仕掛ける サービスレベル (SLI) の悪化 → 手段を検討中 ディスク空き容量の急激な低下 → 一部実施済みだが改善する

Slide 11

Slide 11 text

おわりに

Slide 12

Slide 12 text

ご協力のお願い 即対応が必要なアラートのみにしていきましょう サービスレベル目標 (SLO) を定義していきましょう

Slide 13

Slide 13 text

参考記事 Google - Site Reliability Engineering 訳書『SRE サイトリライアビリティエンジニアリング』 クラウド環境でのアラートを考えてみよう 監視疲れを起こさない工夫