Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
アラートの過不足をなくす
Search
iwamot
PRO
February 10, 2023
Technology
1
170
アラートの過不足をなくす
2023-02-10
ENECHANGE Tech Talk (社内勉強会)
iwamot
PRO
February 10, 2023
Tweet
Share
More Decks by iwamot
See All by iwamot
IPA&AWSダブル全冠が明かす、人生を変えた勉強法のすべて
iwamot
PRO
2
220
2年でここまで成長!AWSで育てたAI Slack botの軌跡
iwamot
PRO
4
930
名単体テスト 禁断の傀儡(モック)
iwamot
PRO
1
470
クォータ監視、AWS Organizations環境でも楽勝です✌️
iwamot
PRO
2
470
Cline、めっちゃ便利、お金が飛ぶ💸
iwamot
PRO
22
21k
開発組織を進化させる!AWSで実践するチームトポロジー
iwamot
PRO
3
1.2k
始めないともったいない!SLO運用で得られる3つのメリット
iwamot
PRO
1
140
あなたの人生も変わるかも?AWS認定2つで始まったウソみたいな話
iwamot
PRO
3
8k
効率的な技術組織が作れる!書籍『チームトポロジー』要点まとめ
iwamot
PRO
2
370
Other Decks in Technology
See All in Technology
TableauLangchainとは何か?
cielo1985
1
140
American airlines ®️ USA Contact Numbers: Complete 2025 Support Guide
airhelpsupport
0
390
【あのMCPって、どんな処理してるの?】 AWS CDKでの開発で便利なAWS MCP Servers特集
yoshimi0227
6
610
Delegating the chores of authenticating users to Keycloak
ahus1
0
170
DatabricksにOLTPデータベース『Lakebase』がやってきた!
inoutk
0
150
オフィスビルを監視しよう:フィジカル×デジタルにまたがるSLI/SLO設計と運用の難しさ / Monitoring Office Buildings: The Challenge of Physical-Digital SLI/SLO Design & Operation
bitkey
1
290
マルチプロダクト環境におけるSREの役割 / SRE NEXT 2025 lunch session
sugamasao
1
230
united airlines ™®️ USA Contact Numbers: Complete 2025 Support Guide
flyunitedhelp
1
470
「Chatwork」のEKS環境を支えるhelmfileを使用したマニフェスト管理術
hanayo04
1
210
推し書籍📚 / Books and a QA Engineer
ak1210
0
120
ビジネス職が分析も担う事業部制組織でのデータ活用の仕組みづくり / Enabling Data Analytics in Business-Led Divisional Organizations
zaimy
1
290
インフラ寄りSREの生存戦略
sansantech
PRO
8
3.3k
Featured
See All Featured
How to Think Like a Performance Engineer
csswizardry
25
1.7k
Being A Developer After 40
akosma
90
590k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
48
2.9k
Making Projects Easy
brettharned
116
6.3k
StorybookのUI Testing Handbookを読んだ
zakiyama
30
5.9k
Docker and Python
trallard
44
3.5k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
46
9.6k
A better future with KSS
kneath
238
17k
Into the Great Unknown - MozCon
thekraken
40
1.9k
We Have a Design System, Now What?
morganepeng
53
7.7k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
130
19k
Building Applications with DynamoDB
mza
95
6.5k
Transcript
アラートの過不足をなくす 2023-02-10 ENECHANGE Tech Talk (社内勉強会) CTO室 岩本隆史 (@iwamot)
現状の問題点 不必要なアラートが多い 必要なアラートが足りない
不必要なアラートが多い
不必要なアラートの例 CPU使用率が高い 不正なリクエストによって例外が発生している
アラートの定義 深夜であっても即対応すべき事象を知らせるもの 後日対応でよいならチケットで知らせればよい
不必要なアラートの問題点 即対応すべき事象が埋もれてしまう 無視が習慣化してしまう
不必要なアラートをなくす CPU使用率が高い → 削除する 不正なリクエストによって例外が発生している → アプリ側でハンド リングして4xxエラーを返す
必要なアラートが足りない
必要なアラートの例 サービスレベル (SLI) の悪化 お客様に迷惑がかかる 収益に悪影響がある ディスク空き容量の急激な低下 突然サービス不能になりかねない
必要なアラートを仕掛ける サービスレベル (SLI) の悪化 → 手段を検討中 ディスク空き容量の急激な低下 → 一部実施済みだが改善する
おわりに
ご協力のお願い 即対応が必要なアラートのみにしていきましょう サービスレベル目標 (SLO) を定義していきましょう
参考記事 Google - Site Reliability Engineering 訳書『SRE サイトリライアビリティエンジニアリング』 クラウド環境でのアラートを考えてみよう 監視疲れを起こさない工夫