Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
アラートの過不足をなくす
Search
iwamot
February 10, 2023
Technology
1
140
アラートの過不足をなくす
2023-02-10
ENECHANGE Tech Talk (社内勉強会)
iwamot
February 10, 2023
Tweet
Share
More Decks by iwamot
See All by iwamot
40代後半で開発エンジニアからクラウドインフラエンジニアにキャリアチェンジし、生き残れる自信がようやく持てた話
iwamot
9
8.1k
DockerのマルチプラットフォームイメージをGitHub Actionsでビルドして公開する際に、参考にしたドキュメントと便利だったツール
iwamot
4
220
RAGもファインチューニングも使わない 素朴なAIチャットボットを職場に導入した結果
iwamot
1
110
Amazon CloudWatchでSLOを監視してみた CODT 2024 クロージングイベント版
iwamot
0
81
Cost-Effective SLO Error Budget Monitoring with Athena and CloudWatch
iwamot
0
850
Amazon CloudWatchでSLOを監視してみた
iwamot
0
55
AWS Protonの概要
iwamot
0
120
ENECHANGEが実現した管理者の工数負担を削減しながらもAWSセキュリティを強化した方法とは
iwamot
0
150
Web APIのAWS Lambda移行で工夫したこと
iwamot
4
3.3k
Other Decks in Technology
See All in Technology
Automated Tests Now and Future @ SQiP Workshop Special Lecture 2024
teyamagu
PRO
2
450
Rist_Meetup_Kaggleは業務の役にたつ - ビジネスコンテンツ情報を活用する BtoB 事業編 - / rist-meetup-20241012
taro_masuda
0
320
안드로이드 기술 이력서의 최소 조건
pluu
1
990
フェンリルの SwiftUI の研修を覗いてみる / Fenrir SwiftUI Training
studio_rookery
0
150
Amazon ECS & AWS Fargate 今昔物語 / past and present stories of Amazon ECS and AWS Fargate
iselegant
18
3.8k
v-modelの歩みを振り返る
bengo4com
5
1.9k
Bluesky 2019〜2022
yamarten
1
120
【㈱アイモバイル】エンジニア向け会社説明資料
imobile
0
480
パートナー企業のテクニカルサポートエンジニアとして気になる、より良い AWS サポートの利活用について
kazzpapa3
1
220
MobileActOsaka_241018.pdf
akaitadaaki
0
110
Vue.js、Nuxtの機能を使い、 大量のコピペコードをリファクタリングする
igayamaguchi
3
1k
XSS攻撃から考察するAWS設定不備の恐怖/20241012 Hironobu Otaki
shift_evolve
0
130
Featured
See All Featured
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
225
22k
Being A Developer After 40
akosma
85
590k
Facilitating Awesome Meetings
lara
49
6k
Optimising Largest Contentful Paint
csswizardry
31
2.9k
The Art of Programming - Codeland 2020
erikaheidi
51
13k
Fashionably flexible responsive web design (full day workshop)
malarkey
404
65k
Fantastic passwords and where to find them - at NoRuKo
philnash
50
2.8k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
231
17k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
26
4.1k
Build your cross-platform service in a week with App Engine
jlugia
229
18k
Building an army of robots
kneath
302
42k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
126
18k
Transcript
アラートの過不足をなくす 2023-02-10 ENECHANGE Tech Talk (社内勉強会) CTO室 岩本隆史 (@iwamot)
現状の問題点 不必要なアラートが多い 必要なアラートが足りない
不必要なアラートが多い
不必要なアラートの例 CPU使用率が高い 不正なリクエストによって例外が発生している
アラートの定義 深夜であっても即対応すべき事象を知らせるもの 後日対応でよいならチケットで知らせればよい
不必要なアラートの問題点 即対応すべき事象が埋もれてしまう 無視が習慣化してしまう
不必要なアラートをなくす CPU使用率が高い → 削除する 不正なリクエストによって例外が発生している → アプリ側でハンド リングして4xxエラーを返す
必要なアラートが足りない
必要なアラートの例 サービスレベル (SLI) の悪化 お客様に迷惑がかかる 収益に悪影響がある ディスク空き容量の急激な低下 突然サービス不能になりかねない
必要なアラートを仕掛ける サービスレベル (SLI) の悪化 → 手段を検討中 ディスク空き容量の急激な低下 → 一部実施済みだが改善する
おわりに
ご協力のお願い 即対応が必要なアラートのみにしていきましょう サービスレベル目標 (SLO) を定義していきましょう
参考記事 Google - Site Reliability Engineering 訳書『SRE サイトリライアビリティエンジニアリング』 クラウド環境でのアラートを考えてみよう 監視疲れを起こさない工夫