Upgrade to Pro — share decks privately, control downloads, hide ads and more …

アラートの過不足をなくす

iwamot
February 10, 2023

 アラートの過不足をなくす

2023-02-10
ENECHANGE Tech Talk (社内勉強会)

iwamot

February 10, 2023
Tweet

More Decks by iwamot

Other Decks in Technology

Transcript

  1. アラートの過不足をなくす
    2023-02-10
    ENECHANGE Tech Talk (社内勉強会)
    CTO室 岩本隆史 (@iwamot)

    View Slide

  2. 現状の問題点
    不必要なアラートが多い
    必要なアラートが足りない

    View Slide

  3. 不必要なアラートが多い

    View Slide

  4. 不必要なアラートの例
    CPU使用率が高い
    不正なリクエストによって例外が発生している

    View Slide

  5. アラートの定義
    深夜であっても即対応すべき事象を知らせるもの
    後日対応でよいならチケットで知らせればよい

    View Slide

  6. 不必要なアラートの問題点
    即対応すべき事象が埋もれてしまう
    無視が習慣化してしまう

    View Slide

  7. 不必要なアラートをなくす
    CPU使用率が高い → 削除する
    不正なリクエストによって例外が発生している → アプリ側でハンド
    リングして4xxエラーを返す

    View Slide

  8. 必要なアラートが足りない

    View Slide

  9. 必要なアラートの例
    サービスレベル (SLI) の悪化
    お客様に迷惑がかかる
    収益に悪影響がある
    ディスク空き容量の急激な低下
    突然サービス不能になりかねない

    View Slide

  10. 必要なアラートを仕掛ける
    サービスレベル (SLI) の悪化 → 手段を検討中
    ディスク空き容量の急激な低下 → 一部実施済みだが改善する

    View Slide

  11. おわりに

    View Slide

  12. ご協力のお願い
    即対応が必要なアラートのみにしていきましょう
    サービスレベル目標 (SLO) を定義していきましょう

    View Slide

  13. 参考記事
    Google - Site Reliability Engineering
    訳書『SRE サイトリライアビリティエンジニアリング』
    クラウド環境でのアラートを考えてみよう
    監視疲れを起こさない工夫

    View Slide