$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
効果的なアラートを再考する [メモリ使用率が80%になりました。] んで、どうすればいいん?
Search
Broadleaf Co., Ltd.
June 29, 2022
Programming
0
610
効果的なアラートを再考する [メモリ使用率が80%になりました。] んで、どうすればいいん?
Cloud Operator Days Tokyo 2022
Broadleaf Co., Ltd.
June 29, 2022
Tweet
Share
More Decks by Broadleaf Co., Ltd.
See All by Broadleaf Co., Ltd.
日常にバージョンアップを 〜 Kubernetes Operator で持続的な運用 〜
broadleaf
0
28
クラウドコスト管理の正攻法を知りたい〜FinOps Foundationに学ぶFinOpsの考え方〜
broadleaf
0
190
Elasticsearch_Community_in_Fukuoka_20240711
broadleaf
0
170
力が欲しいか!!力が欲しいのなら...最小権限をくれてやる!!
broadleaf
0
260
アンチパターンだらけ!?Cassandraを基盤とした大規模業務アプリケーションと2DX実現の裏側
broadleaf
0
570
Our60DaysWar-MigrationFromOn-premiseToCloud
broadleaf
0
2.6k
Infrastructure as Codeで インフラチームはもっと強くなる/developersummitsummer-iac
broadleaf
3
2.3k
Spring Bootでマイクロサービス作って苦労したお話 / DeveloperSummit2019-SpringBoot
broadleaf
12
10k
今どきのインフラはペットでは無かった / DeveloperSummit2019-IaC
broadleaf
0
1.9k
Other Decks in Programming
See All in Programming
仕様がそのままテストになる!Javaで始める振る舞い駆動開発
ohmori_yusuke
8
4.7k
[堅牢.py #1] テストを書かない研究者に送る、最初にテストを書く実験コード入門 / Let's start your ML project by writing tests
shunk031
11
6.2k
Promise.tryで実現する新しいエラーハンドリング New error handling with Promise try
bicstone
3
1.7k
Duke on CRaC with Jakarta EE
ivargrimstad
0
300
OSS開発者の憂鬱
yusukebe
14
12k
Phronetic Team with AI - Agile Japan 2025 closing
hiranabe
2
700
jakarta-security-jjug-ccc-2025-fall
tnagao7
0
100
しっかり学ぶ java.lang.*
nagise
1
460
UIデザインに役立つ 2025年の最新CSS / The Latest CSS for UI Design 2025
clockmaker
2
630
競馬で学ぶ機械学習の基本と実践 / Machine Learning with Horse Racing
shoheimitani
14
14k
flutter_kaigi_2025.pdf
kyoheig3
2
380
How Software Deployment tools have changed in the past 20 years
geshan
0
22k
Featured
See All Featured
GraphQLの誤解/rethinking-graphql
sonatard
73
11k
Unsuck your backbone
ammeep
671
58k
Art, The Web, and Tiny UX
lynnandtonic
303
21k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
285
14k
Balancing Empowerment & Direction
lara
5
770
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.5k
Code Reviewing Like a Champion
maltzj
527
40k
The Power of CSS Pseudo Elements
geoffreycrofte
80
6.1k
The Illustrated Children's Guide to Kubernetes
chrisshort
51
51k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.4k
[RailsConf 2023] Rails as a piece of cake
palkan
58
6.1k
Code Review Best Practice
trishagee
72
19k
Transcript
効果的なアラートを再考する [メモリ使用率が80%になりました。] んで、どうすればいいん? 株式会社ブロードリーフ 左近充 裕樹 #CODT2022 1
Copyright © Broadleaf Co., Ltd. All Rights Reserved. # 自己紹介
## 名前 左近充裕樹 _さこんじゅう ひろき_ ## 所属 - 株式会社 ブロードリーフ - プロダクトインフラ課 ## 役割 - インフラエンジニア @Sakonju 2
Copyright © Broadleaf Co., Ltd. All Rights Reserved. 会社紹介 3
Copyright © Broadleaf Co., Ltd. All Rights Reserved. とある日 あなたは、運用担当者です。
長い間システムの運用業務をしています。 会社のslackのアラートチャンネルにメッセージが届きます。 4
Copyright © Broadleaf Co., Ltd. All Rights Reserved. 頭の中 そうだね、80%だね
5
Copyright © Broadleaf Co., Ltd. All Rights Reserved. 頭の中 多分、すぐ復旧するやつだ
6
Copyright © Broadleaf Co., Ltd. All Rights Reserved. 頭の中 やっぱりね
7
無意味 https://pixabay.com/images/id-1849404/ 8
Copyright © Broadleaf Co., Ltd. All Rights Reserved. どこらへんが無意味なのか🤔 •
対応する必要がない状態でアラートが来る • アラートに対して何をすればいいか分からない • アラートが発報した原因が分からない • どのような影響があるかが分からない 9
Copyright © Broadleaf Co., Ltd. All Rights Reserved. そもそも監視とは? “監視とは、あるシステムや
そのシステムのコンポーネントの 振る舞いや出力を観察し チェックしつづける行為である。” URL: https://www.oreilly.co.jp/books/9784873118642/ 出典: 日本語版『入門 監視』Mike Julian著、オライリー・ジャパン、 ISBN978-4-87311-864-2 10
Copyright © Broadleaf Co., Ltd. All Rights Reserved. アラートとは アラートは監視されている状態を維持するための
手段の一つである。 システムが正常に動作していないとき、 または、システムが正常に動作しなくなることが明らかな場合 にシステムを正常に動作させる対応を行うためのトリガーであ る。 システムが正常に動作していない = ユーザーが不満がある状態 11
Copyright © Broadleaf Co., Ltd. All Rights Reserved. 何を監視すべきか? The
Four Golden Signals(4大シグナル) • Latency • Traffic • Errors • Saturation URL: https://www.oreilly.co.jp/books/9784873117911/ 出典: 日本語版『SRE サイトリライアビリティエンジニアリング』 Betsy Beyer、Chris Jones、Jennifer Petoff、Niall Richard Murphy編、オライリー・ジャパン、 ISBN978-4-87311-791-1 12
Copyright © Broadleaf Co., Ltd. All Rights Reserved. どういったときにアラートを出すべきか? システムが正常に動作していないとき、
または、システムが正常に動作しなくなることが 明らかな場合 ex) • 外部から疎通が出来ない • 90パーセンタイルのレイテンシがいつもの2倍になっている • エラーレートがいつもの2倍になっている • ストレージの使用率が90%を超過している • メモリの使用率が80%を超過している ◦ ただし、80%以上が10分を超過するとレイテンシに影響するなど、明らか に正常に動作しないことが分かっている場合 13
Copyright © Broadleaf Co., Ltd. All Rights Reserved. アラートの条件を工夫する •
しきい値に達しない急な変化を気づきやすくる ◦ 特定のしきい値だけではなく変化量も使う ▪ ex) しきい値80%, 短時間30% -> 70% ではアラートが発報しない • ユーザーの満足度を意識する ◦ レイテンシは平均値ではなくパーセンタイルを使う • 偽陽性となるアラートを減らす ◦ アラートになるまでの継続時間を適切に設定する 14
Copyright © Broadleaf Co., Ltd. All Rights Reserved. 通知方法を工夫する 通知方法は重要度(severity)によって分ける
⚠メールはワークしづらい • 誰が調べているかわからない • ディスカッションが出来ない • 無視されがち 15
Copyright © Broadleaf Co., Ltd. All Rights Reserved. 手順書を作る アラートには必ずセットで手順書を作る
• 誰でも対応が出来る ◦ オンコールのローテーションが組める • プラクティスに再現性がある • 安心して作業できる • オンボーディングにも有益 ◦ どのような問題が発生するか事前に知ることが出来る 16
Copyright © Broadleaf Co., Ltd. All Rights Reserved. Playbook? Runbook?
“Runbookがレシピや料理本 だとしたら、Playbookはある ソーシャルイベント(例えば結 婚式)を開催するためのガイド ブックとなる。料理本は、食事 を効果的に作るために必要で すが、食事はイベント全体の 一面に過ぎません。” 出典: PagerDuty社のブログ URL: https://www.pagerduty.com/resources/learn/what-is-a-runbook/ 17
Copyright © Broadleaf Co., Ltd. All Rights Reserved. Alert <->
Playbook <-> Runbook 18
Copyright © Broadleaf Co., Ltd. All Rights Reserved. Playbookに記述するもの •
ユーザーへの影響 • 他システムへの影響 • 推奨される実施者 • 制約事項 ◦ 必要な権限、必要なツール(環境) • アラートの目的 • 何が発生しているか • 調査方法・対応方法 -> Runbookへのリンク • エスカレーション先 • 正常時の状態 19
Copyright © Broadleaf Co., Ltd. All Rights Reserved. アラートを減らすために アラート疲れが発生しないような対策
• 偽陽性のアラートを削除する ◦ ユーザー影響のない盲目で形骸化したアラートを無くす • 徹底的に復旧を自動化をする ◦ 手順書に起こせるものは自動化出来る可能性が高い • 定期的にチームでリソースの傾向を確認する 20
Copyright © Broadleaf Co., Ltd. All Rights Reserved. まとめ •
アラートは正常に動作させる対応を行うための トリガー • 4大シグナルを監視する • 通知方法は重要度で分ける • アラートは減らしていく • 運用手順書(Playbook,Runbook)を作る 21
WE’RE HIRING👐 最後までご視聴いただき、ありがとうございました 22