Upgrade to Pro — share decks privately, control downloads, hide ads and more …

効果的なアラートを再考する [メモリ使用率が80%になりました。] んで、どうすればいいん?

効果的なアラートを再考する [メモリ使用率が80%になりました。] んで、どうすればいいん?

Cloud Operator Days Tokyo 2022

Broadleaf Co., Ltd.

June 29, 2022
Tweet

More Decks by Broadleaf Co., Ltd.

Other Decks in Programming

Transcript

  1. 効果的なアラートを再考する
    [メモリ使用率が80%になりました。]
    んで、どうすればいいん?
    株式会社ブロードリーフ
    左近充 裕樹
    #CODT2022
    1

    View Slide

  2. Copyright © Broadleaf Co., Ltd. All Rights Reserved.
    # 自己紹介
    ## 名前
    左近充裕樹 _さこんじゅう ひろき_
    ## 所属
    - 株式会社 ブロードリーフ 
    - プロダクトインフラ課
    ## 役割
    - インフラエンジニア
    @Sakonju
    2

    View Slide

  3. Copyright © Broadleaf Co., Ltd. All Rights Reserved.
    会社紹介
    3

    View Slide

  4. Copyright © Broadleaf Co., Ltd. All Rights Reserved.
    とある日
    あなたは、運用担当者です。
    長い間システムの運用業務をしています。
    会社のslackのアラートチャンネルにメッセージが届きます。
    4

    View Slide

  5. Copyright © Broadleaf Co., Ltd. All Rights Reserved.
    頭の中
    そうだね、80%だね
    5

    View Slide

  6. Copyright © Broadleaf Co., Ltd. All Rights Reserved.
    頭の中
    多分、すぐ復旧するやつだ
    6

    View Slide

  7. Copyright © Broadleaf Co., Ltd. All Rights Reserved.
    頭の中
    やっぱりね
    7

    View Slide

  8. 無意味
    https://pixabay.com/images/id-1849404/ 8

    View Slide

  9. Copyright © Broadleaf Co., Ltd. All Rights Reserved.
    どこらへんが無意味なのか🤔
    ● 対応する必要がない状態でアラートが来る
    ● アラートに対して何をすればいいか分からない
    ● アラートが発報した原因が分からない
    ● どのような影響があるかが分からない
    9

    View Slide

  10. Copyright © Broadleaf Co., Ltd. All Rights Reserved.
    そもそも監視とは?
    “監視とは、あるシステムや
    そのシステムのコンポーネントの
    振る舞いや出力を観察し
    チェックしつづける行為である。”
    URL: https://www.oreilly.co.jp/books/9784873118642/
    出典: 日本語版『入門 監視』Mike Julian著、オライリー・ジャパン、 ISBN978-4-87311-864-2
    10

    View Slide

  11. Copyright © Broadleaf Co., Ltd. All Rights Reserved.
    アラートとは
    アラートは監視されている状態を維持するための
    手段の一つである。
    システムが正常に動作していないとき、
    または、システムが正常に動作しなくなることが明らかな場合
    にシステムを正常に動作させる対応を行うためのトリガーであ
    る。
    システムが正常に動作していない = ユーザーが不満がある状態
    11

    View Slide

  12. Copyright © Broadleaf Co., Ltd. All Rights Reserved.
    何を監視すべきか?
    The Four Golden Signals(4大シグナル)
    ● Latency
    ● Traffic
    ● Errors
    ● Saturation
    URL: https://www.oreilly.co.jp/books/9784873117911/
    出典: 日本語版『SRE サイトリライアビリティエンジニアリング』 Betsy Beyer、Chris Jones、Jennifer
    Petoff、Niall Richard Murphy編、オライリー・ジャパン、 ISBN978-4-87311-791-1
    12

    View Slide

  13. Copyright © Broadleaf Co., Ltd. All Rights Reserved.
    どういったときにアラートを出すべきか?
    システムが正常に動作していないとき、
    または、システムが正常に動作しなくなることが
    明らかな場合
    ex)
    ● 外部から疎通が出来ない
    ● 90パーセンタイルのレイテンシがいつもの2倍になっている
    ● エラーレートがいつもの2倍になっている
    ● ストレージの使用率が90%を超過している
    ● メモリの使用率が80%を超過している
    ○ ただし、80%以上が10分を超過するとレイテンシに影響するなど、明らか
    に正常に動作しないことが分かっている場合
    13

    View Slide

  14. Copyright © Broadleaf Co., Ltd. All Rights Reserved.
    アラートの条件を工夫する
    ● しきい値に達しない急な変化を気づきやすくる
    ○ 特定のしきい値だけではなく変化量も使う
    ■ ex) しきい値80%, 短時間30% -> 70% ではアラートが発報しない
    ● ユーザーの満足度を意識する
    ○ レイテンシは平均値ではなくパーセンタイルを使う
    ● 偽陽性となるアラートを減らす
    ○ アラートになるまでの継続時間を適切に設定する
    14

    View Slide

  15. Copyright © Broadleaf Co., Ltd. All Rights Reserved.
    通知方法を工夫する
    通知方法は重要度(severity)によって分ける
    ⚠メールはワークしづらい
    ● 誰が調べているかわからない
    ● ディスカッションが出来ない
    ● 無視されがち
    15

    View Slide

  16. Copyright © Broadleaf Co., Ltd. All Rights Reserved.
    手順書を作る
    アラートには必ずセットで手順書を作る
    ● 誰でも対応が出来る
    ○ オンコールのローテーションが組める
    ● プラクティスに再現性がある
    ● 安心して作業できる
    ● オンボーディングにも有益
    ○ どのような問題が発生するか事前に知ることが出来る
    16

    View Slide

  17. Copyright © Broadleaf Co., Ltd. All Rights Reserved.
    Playbook? Runbook?
    “Runbookがレシピや料理本
    だとしたら、Playbookはある
    ソーシャルイベント(例えば結
    婚式)を開催するためのガイド
    ブックとなる。料理本は、食事
    を効果的に作るために必要で
    すが、食事はイベント全体の
    一面に過ぎません。”
    出典: PagerDuty社のブログ
    URL: https://www.pagerduty.com/resources/learn/what-is-a-runbook/
    17

    View Slide

  18. Copyright © Broadleaf Co., Ltd. All Rights Reserved.
    Alert <-> Playbook <-> Runbook
    18

    View Slide

  19. Copyright © Broadleaf Co., Ltd. All Rights Reserved.
    Playbookに記述するもの
    ● ユーザーへの影響
    ● 他システムへの影響
    ● 推奨される実施者
    ● 制約事項
    ○ 必要な権限、必要なツール(環境)
    ● アラートの目的
    ● 何が発生しているか
    ● 調査方法・対応方法 -> Runbookへのリンク
    ● エスカレーション先
    ● 正常時の状態
    19

    View Slide

  20. Copyright © Broadleaf Co., Ltd. All Rights Reserved.
    アラートを減らすために
    アラート疲れが発生しないような対策
    ● 偽陽性のアラートを削除する
    ○ ユーザー影響のない盲目で形骸化したアラートを無くす
    ● 徹底的に復旧を自動化をする
    ○ 手順書に起こせるものは自動化出来る可能性が高い
    ● 定期的にチームでリソースの傾向を確認する
    20

    View Slide

  21. Copyright © Broadleaf Co., Ltd. All Rights Reserved.
    まとめ
    ● アラートは正常に動作させる対応を行うための
    トリガー
    ● 4大シグナルを監視する
    ● 通知方法は重要度で分ける
    ● アラートは減らしていく
    ● 運用手順書(Playbook,Runbook)を作る
    21

    View Slide

  22. WE’RE HIRING👐
    最後までご視聴いただき、ありがとうございました
    22

    View Slide