Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
アラートの過不足をなくす
Search
iwamot
February 10, 2023
Technology
1
120
アラートの過不足をなくす
2023-02-10
ENECHANGE Tech Talk (社内勉強会)
iwamot
February 10, 2023
Tweet
Share
More Decks by iwamot
See All by iwamot
AWS Protonの概要
iwamot
0
46
ENECHANGEが実現した管理者の工数負担を削減しながらもAWSセキュリティを強化した方法とは
iwamot
0
100
Web APIのAWS Lambda移行で工夫したこと
iwamot
4
3k
ECS on FargateへのSeekable OCI導入レポート
iwamot
0
450
サービスクォータ、ちゃんと監視してますか?
iwamot
0
920
AWS Well-Architected Toolで信頼性をレビューした結果
iwamot
0
440
テックカンパニーとしてのENECHANGEの中期目標
iwamot
0
79
AIの活用状況と今後の展望
iwamot
0
62
ENECHANGE社のAWSセキュリティ改革ストーリー
iwamot
0
130
Other Decks in Technology
See All in Technology
【基調講演】変える、今ここから ― IoTとAIで紡ぐ未来
soracom
PRO
0
320
プレイドにおけるDatadog APMの活用方法
plaidtech
PRO
2
120
データベース研修 分析向けSQL入門【MIXI 24新卒技術研修】
mixi_engineers
PRO
0
110
推薦システムを本番導入する上で一番優先すべきだったこと~NewsPicks記事推薦機能の改善事例を元に~
morinota
0
130
Github Actions 로 Android 팀의 효율성 극대화
hadonghyun
0
160
スレットハンティングについて知っておきたいこと
hacket
0
130
dxd2024-生成AIに振り回された3か月間の成功と失敗/dxd2024-link-and-motivation
lmi
2
260
サービスの持続的な成長と技術負債について
siva_official
PRO
10
4.4k
ペパボのオブザーバビリティ研修2024 説明資料
kesompochy
0
1.1k
What is DRE? - Road to SRE NEXT@広島
chanyou0311
3
630
Android研修【MIXI 24新卒技術研修】
mixi_engineers
PRO
0
100
MySQLのロックの種類とその競合
yoku0825
6
1.6k
Featured
See All Featured
Debugging Ruby Performance
tmm1
71
11k
How to Think Like a Performance Engineer
csswizardry
4
590
How STYLIGHT went responsive
nonsquared
93
5k
Typedesign – Prime Four
hannesfritz
37
2.2k
The Illustrated Children's Guide to Kubernetes
chrisshort
39
47k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
24
1.8k
Fireside Chat
paigeccino
25
2.8k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
26
1.6k
RailsConf 2023
tenderlove
16
720
Automating Front-end Workflow
addyosmani
1362
200k
The World Runs on Bad Software
bkeepers
PRO
63
11k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
224
21k
Transcript
アラートの過不足をなくす 2023-02-10 ENECHANGE Tech Talk (社内勉強会) CTO室 岩本隆史 (@iwamot)
現状の問題点 不必要なアラートが多い 必要なアラートが足りない
不必要なアラートが多い
不必要なアラートの例 CPU使用率が高い 不正なリクエストによって例外が発生している
アラートの定義 深夜であっても即対応すべき事象を知らせるもの 後日対応でよいならチケットで知らせればよい
不必要なアラートの問題点 即対応すべき事象が埋もれてしまう 無視が習慣化してしまう
不必要なアラートをなくす CPU使用率が高い → 削除する 不正なリクエストによって例外が発生している → アプリ側でハンド リングして4xxエラーを返す
必要なアラートが足りない
必要なアラートの例 サービスレベル (SLI) の悪化 お客様に迷惑がかかる 収益に悪影響がある ディスク空き容量の急激な低下 突然サービス不能になりかねない
必要なアラートを仕掛ける サービスレベル (SLI) の悪化 → 手段を検討中 ディスク空き容量の急激な低下 → 一部実施済みだが改善する
おわりに
ご協力のお願い 即対応が必要なアラートのみにしていきましょう サービスレベル目標 (SLO) を定義していきましょう
参考記事 Google - Site Reliability Engineering 訳書『SRE サイトリライアビリティエンジニアリング』 クラウド環境でのアラートを考えてみよう 監視疲れを起こさない工夫