Cloud Operator Days Tokyo 2022
効果的なアラートを再考する[メモリ使用率が80%になりました。]んで、どうすればいいん?株式会社ブロードリーフ左近充 裕樹#CODT20221
View Slide
Copyright © Broadleaf Co., Ltd. All Rights Reserved.# 自己紹介## 名前左近充裕樹 _さこんじゅう ひろき_## 所属- 株式会社 ブロードリーフ - プロダクトインフラ課## 役割- インフラエンジニア@Sakonju2
Copyright © Broadleaf Co., Ltd. All Rights Reserved.会社紹介3
Copyright © Broadleaf Co., Ltd. All Rights Reserved.とある日あなたは、運用担当者です。長い間システムの運用業務をしています。会社のslackのアラートチャンネルにメッセージが届きます。4
Copyright © Broadleaf Co., Ltd. All Rights Reserved.頭の中そうだね、80%だね5
Copyright © Broadleaf Co., Ltd. All Rights Reserved.頭の中多分、すぐ復旧するやつだ6
Copyright © Broadleaf Co., Ltd. All Rights Reserved.頭の中やっぱりね7
無意味https://pixabay.com/images/id-1849404/ 8
Copyright © Broadleaf Co., Ltd. All Rights Reserved.どこらへんが無意味なのか🤔● 対応する必要がない状態でアラートが来る● アラートに対して何をすればいいか分からない● アラートが発報した原因が分からない● どのような影響があるかが分からない9
Copyright © Broadleaf Co., Ltd. All Rights Reserved.そもそも監視とは?“監視とは、あるシステムやそのシステムのコンポーネントの振る舞いや出力を観察しチェックしつづける行為である。”URL: https://www.oreilly.co.jp/books/9784873118642/出典: 日本語版『入門 監視』Mike Julian著、オライリー・ジャパン、 ISBN978-4-87311-864-210
Copyright © Broadleaf Co., Ltd. All Rights Reserved.アラートとはアラートは監視されている状態を維持するための手段の一つである。システムが正常に動作していないとき、または、システムが正常に動作しなくなることが明らかな場合にシステムを正常に動作させる対応を行うためのトリガーである。システムが正常に動作していない = ユーザーが不満がある状態11
Copyright © Broadleaf Co., Ltd. All Rights Reserved.何を監視すべきか?The Four Golden Signals(4大シグナル)● Latency● Traffic● Errors● SaturationURL: https://www.oreilly.co.jp/books/9784873117911/出典: 日本語版『SRE サイトリライアビリティエンジニアリング』 Betsy Beyer、Chris Jones、JenniferPetoff、Niall Richard Murphy編、オライリー・ジャパン、 ISBN978-4-87311-791-112
Copyright © Broadleaf Co., Ltd. All Rights Reserved.どういったときにアラートを出すべきか?システムが正常に動作していないとき、または、システムが正常に動作しなくなることが明らかな場合ex)● 外部から疎通が出来ない● 90パーセンタイルのレイテンシがいつもの2倍になっている● エラーレートがいつもの2倍になっている● ストレージの使用率が90%を超過している● メモリの使用率が80%を超過している○ ただし、80%以上が10分を超過するとレイテンシに影響するなど、明らかに正常に動作しないことが分かっている場合13
Copyright © Broadleaf Co., Ltd. All Rights Reserved.アラートの条件を工夫する● しきい値に達しない急な変化を気づきやすくる○ 特定のしきい値だけではなく変化量も使う■ ex) しきい値80%, 短時間30% -> 70% ではアラートが発報しない● ユーザーの満足度を意識する○ レイテンシは平均値ではなくパーセンタイルを使う● 偽陽性となるアラートを減らす○ アラートになるまでの継続時間を適切に設定する14
Copyright © Broadleaf Co., Ltd. All Rights Reserved.通知方法を工夫する通知方法は重要度(severity)によって分ける⚠メールはワークしづらい● 誰が調べているかわからない● ディスカッションが出来ない● 無視されがち15
Copyright © Broadleaf Co., Ltd. All Rights Reserved.手順書を作るアラートには必ずセットで手順書を作る● 誰でも対応が出来る○ オンコールのローテーションが組める● プラクティスに再現性がある● 安心して作業できる● オンボーディングにも有益○ どのような問題が発生するか事前に知ることが出来る16
Copyright © Broadleaf Co., Ltd. All Rights Reserved.Playbook? Runbook?“Runbookがレシピや料理本だとしたら、Playbookはあるソーシャルイベント(例えば結婚式)を開催するためのガイドブックとなる。料理本は、食事を効果的に作るために必要ですが、食事はイベント全体の一面に過ぎません。”出典: PagerDuty社のブログURL: https://www.pagerduty.com/resources/learn/what-is-a-runbook/17
Copyright © Broadleaf Co., Ltd. All Rights Reserved.Alert <-> Playbook <-> Runbook18
Copyright © Broadleaf Co., Ltd. All Rights Reserved.Playbookに記述するもの● ユーザーへの影響● 他システムへの影響● 推奨される実施者● 制約事項○ 必要な権限、必要なツール(環境)● アラートの目的● 何が発生しているか● 調査方法・対応方法 -> Runbookへのリンク● エスカレーション先● 正常時の状態19
Copyright © Broadleaf Co., Ltd. All Rights Reserved.アラートを減らすためにアラート疲れが発生しないような対策● 偽陽性のアラートを削除する○ ユーザー影響のない盲目で形骸化したアラートを無くす● 徹底的に復旧を自動化をする○ 手順書に起こせるものは自動化出来る可能性が高い● 定期的にチームでリソースの傾向を確認する20
Copyright © Broadleaf Co., Ltd. All Rights Reserved.まとめ● アラートは正常に動作させる対応を行うためのトリガー● 4大シグナルを監視する● 通知方法は重要度で分ける● アラートは減らしていく● 運用手順書(Playbook,Runbook)を作る21
WE’RE HIRING👐最後までご視聴いただき、ありがとうございました22