Slide 1

Slide 1 text

効果的なアラートを再考する [メモリ使用率が80%になりました。] んで、どうすればいいん? 株式会社ブロードリーフ 左近充 裕樹 #CODT2022 1

Slide 2

Slide 2 text

Copyright © Broadleaf Co., Ltd. All Rights Reserved. # 自己紹介 ## 名前 左近充裕樹 _さこんじゅう ひろき_ ## 所属 - 株式会社 ブロードリーフ  - プロダクトインフラ課 ## 役割 - インフラエンジニア @Sakonju 2

Slide 3

Slide 3 text

Copyright © Broadleaf Co., Ltd. All Rights Reserved. 会社紹介 3

Slide 4

Slide 4 text

Copyright © Broadleaf Co., Ltd. All Rights Reserved. とある日 あなたは、運用担当者です。 長い間システムの運用業務をしています。 会社のslackのアラートチャンネルにメッセージが届きます。 4

Slide 5

Slide 5 text

Copyright © Broadleaf Co., Ltd. All Rights Reserved. 頭の中 そうだね、80%だね 5

Slide 6

Slide 6 text

Copyright © Broadleaf Co., Ltd. All Rights Reserved. 頭の中 多分、すぐ復旧するやつだ 6

Slide 7

Slide 7 text

Copyright © Broadleaf Co., Ltd. All Rights Reserved. 頭の中 やっぱりね 7

Slide 8

Slide 8 text

無意味 https://pixabay.com/images/id-1849404/ 8

Slide 9

Slide 9 text

Copyright © Broadleaf Co., Ltd. All Rights Reserved. どこらへんが無意味なのか🤔 ● 対応する必要がない状態でアラートが来る ● アラートに対して何をすればいいか分からない ● アラートが発報した原因が分からない ● どのような影響があるかが分からない 9

Slide 10

Slide 10 text

Copyright © Broadleaf Co., Ltd. All Rights Reserved. そもそも監視とは? “監視とは、あるシステムや そのシステムのコンポーネントの 振る舞いや出力を観察し チェックしつづける行為である。” URL: https://www.oreilly.co.jp/books/9784873118642/ 出典: 日本語版『入門 監視』Mike Julian著、オライリー・ジャパン、 ISBN978-4-87311-864-2 10

Slide 11

Slide 11 text

Copyright © Broadleaf Co., Ltd. All Rights Reserved. アラートとは アラートは監視されている状態を維持するための 手段の一つである。 システムが正常に動作していないとき、 または、システムが正常に動作しなくなることが明らかな場合 にシステムを正常に動作させる対応を行うためのトリガーであ る。 システムが正常に動作していない = ユーザーが不満がある状態 11

Slide 12

Slide 12 text

Copyright © Broadleaf Co., Ltd. All Rights Reserved. 何を監視すべきか? The Four Golden Signals(4大シグナル) ● Latency ● Traffic ● Errors ● Saturation URL: https://www.oreilly.co.jp/books/9784873117911/ 出典: 日本語版『SRE サイトリライアビリティエンジニアリング』 Betsy Beyer、Chris Jones、Jennifer Petoff、Niall Richard Murphy編、オライリー・ジャパン、 ISBN978-4-87311-791-1 12

Slide 13

Slide 13 text

Copyright © Broadleaf Co., Ltd. All Rights Reserved. どういったときにアラートを出すべきか? システムが正常に動作していないとき、 または、システムが正常に動作しなくなることが 明らかな場合 ex) ● 外部から疎通が出来ない ● 90パーセンタイルのレイテンシがいつもの2倍になっている ● エラーレートがいつもの2倍になっている ● ストレージの使用率が90%を超過している ● メモリの使用率が80%を超過している ○ ただし、80%以上が10分を超過するとレイテンシに影響するなど、明らか に正常に動作しないことが分かっている場合 13

Slide 14

Slide 14 text

Copyright © Broadleaf Co., Ltd. All Rights Reserved. アラートの条件を工夫する ● しきい値に達しない急な変化を気づきやすくる ○ 特定のしきい値だけではなく変化量も使う ■ ex) しきい値80%, 短時間30% -> 70% ではアラートが発報しない ● ユーザーの満足度を意識する ○ レイテンシは平均値ではなくパーセンタイルを使う ● 偽陽性となるアラートを減らす ○ アラートになるまでの継続時間を適切に設定する 14

Slide 15

Slide 15 text

Copyright © Broadleaf Co., Ltd. All Rights Reserved. 通知方法を工夫する 通知方法は重要度(severity)によって分ける ⚠メールはワークしづらい ● 誰が調べているかわからない ● ディスカッションが出来ない ● 無視されがち 15

Slide 16

Slide 16 text

Copyright © Broadleaf Co., Ltd. All Rights Reserved. 手順書を作る アラートには必ずセットで手順書を作る ● 誰でも対応が出来る ○ オンコールのローテーションが組める ● プラクティスに再現性がある ● 安心して作業できる ● オンボーディングにも有益 ○ どのような問題が発生するか事前に知ることが出来る 16

Slide 17

Slide 17 text

Copyright © Broadleaf Co., Ltd. All Rights Reserved. Playbook? Runbook? “Runbookがレシピや料理本 だとしたら、Playbookはある ソーシャルイベント(例えば結 婚式)を開催するためのガイド ブックとなる。料理本は、食事 を効果的に作るために必要で すが、食事はイベント全体の 一面に過ぎません。” 出典: PagerDuty社のブログ URL: https://www.pagerduty.com/resources/learn/what-is-a-runbook/ 17

Slide 18

Slide 18 text

Copyright © Broadleaf Co., Ltd. All Rights Reserved. Alert <-> Playbook <-> Runbook 18

Slide 19

Slide 19 text

Copyright © Broadleaf Co., Ltd. All Rights Reserved. Playbookに記述するもの ● ユーザーへの影響 ● 他システムへの影響 ● 推奨される実施者 ● 制約事項 ○ 必要な権限、必要なツール(環境) ● アラートの目的 ● 何が発生しているか ● 調査方法・対応方法 -> Runbookへのリンク ● エスカレーション先 ● 正常時の状態 19

Slide 20

Slide 20 text

Copyright © Broadleaf Co., Ltd. All Rights Reserved. アラートを減らすために アラート疲れが発生しないような対策 ● 偽陽性のアラートを削除する ○ ユーザー影響のない盲目で形骸化したアラートを無くす ● 徹底的に復旧を自動化をする ○ 手順書に起こせるものは自動化出来る可能性が高い ● 定期的にチームでリソースの傾向を確認する 20

Slide 21

Slide 21 text

Copyright © Broadleaf Co., Ltd. All Rights Reserved. まとめ ● アラートは正常に動作させる対応を行うための トリガー ● 4大シグナルを監視する ● 通知方法は重要度で分ける ● アラートは減らしていく ● 運用手順書(Playbook,Runbook)を作る 21

Slide 22

Slide 22 text

WE’RE HIRING👐 最後までご視聴いただき、ありがとうございました 22