Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
アラートの過不足をなくす
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
iwamot
PRO
February 10, 2023
Technology
1
200
アラートの過不足をなくす
2023-02-10
ENECHANGE Tech Talk (社内勉強会)
iwamot
PRO
February 10, 2023
Tweet
Share
More Decks by iwamot
See All by iwamot
AIエージェント・マイクロサービス時代。AWSでの手軽な構築法を考えて試してみた
iwamot
PRO
1
45
これがLambdaレス時代のChatOpsだ!実例で学ぶAmazon Q Developerカスタムアクション活用法
iwamot
PRO
9
1.5k
Developer Certificate of Origin、よさそう
iwamot
PRO
0
38
復号できなくなると怖いので、AWS KMSキーの削除を「面倒」にしてみた CODT 2025 クロージングイベント版
iwamot
PRO
1
120
復号できなくなると怖いので、AWS KMSキーの削除を「面倒」にしてみた
iwamot
PRO
3
100
IPA&AWSダブル全冠が明かす、人生を変えた勉強法のすべて
iwamot
PRO
14
11k
2年でここまで成長!AWSで育てたAI Slack botの軌跡
iwamot
PRO
4
1.2k
名単体テスト 禁断の傀儡(モック)
iwamot
PRO
1
610
クォータ監視、AWS Organizations環境でも楽勝です✌️
iwamot
PRO
2
610
Other Decks in Technology
See All in Technology
30万人の同時アクセスに耐えたい!新サービスの盤石なリリースを支える負荷試験 / SRE Kaigi 2026
genda
1
140
ファインディの横断SREがTakumi byGMOと取り組む、セキュリティと開発スピードの両立
rvirus0817
1
960
SREのプラクティスを用いた3領域同時 マネジメントへの挑戦 〜SRE・情シス・セキュリティを統合した チーム運営術〜
coconala_engineer
2
530
予期せぬコストの急増を障害のように扱う――「コスト版ポストモーテム」の導入とその後の改善
muziyoshiz
1
900
~Everything as Codeを諦めない~ 後からCDK
mu7889yoon
3
220
Sansan Engineering Unit 紹介資料
sansan33
PRO
1
3.8k
Amazon S3 Vectorsを使って資格勉強用AIエージェントを構築してみた
usanchuu
3
410
プロダクト成長を支える開発基盤とスケールに伴う課題
yuu26
2
970
日本語テキストと音楽の対照学習の技術とその応用
lycorptech_jp
PRO
1
410
分析画面のクリック操作をそのままコード化 ! エンジニアとビジネスユーザーが共存するAI-ReadyなBI基盤
ikumi
0
130
Databricks Free Edition講座 データサイエンス編
taka_aki
0
280
フルカイテン株式会社 エンジニア向け採用資料
fullkaiten
0
10k
Featured
See All Featured
Tell your own story through comics
letsgokoyo
1
800
Exploring the relationship between traditional SERPs and Gen AI search
raygrieselhuber
PRO
2
3.6k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
61k
Building Adaptive Systems
keathley
44
2.9k
The Hidden Cost of Media on the Web [PixelPalooza 2025]
tammyeverts
2
170
Designing Experiences People Love
moore
144
24k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
3.3k
How To Stay Up To Date on Web Technology
chriscoyier
791
250k
Why Our Code Smells
bkeepers
PRO
340
58k
We Analyzed 250 Million AI Search Results: Here's What I Found
joshbly
1
640
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
910
Done Done
chrislema
186
16k
Transcript
アラートの過不足をなくす 2023-02-10 ENECHANGE Tech Talk (社内勉強会) CTO室 岩本隆史 (@iwamot)
現状の問題点 不必要なアラートが多い 必要なアラートが足りない
不必要なアラートが多い
不必要なアラートの例 CPU使用率が高い 不正なリクエストによって例外が発生している
アラートの定義 深夜であっても即対応すべき事象を知らせるもの 後日対応でよいならチケットで知らせればよい
不必要なアラートの問題点 即対応すべき事象が埋もれてしまう 無視が習慣化してしまう
不必要なアラートをなくす CPU使用率が高い → 削除する 不正なリクエストによって例外が発生している → アプリ側でハンド リングして4xxエラーを返す
必要なアラートが足りない
必要なアラートの例 サービスレベル (SLI) の悪化 お客様に迷惑がかかる 収益に悪影響がある ディスク空き容量の急激な低下 突然サービス不能になりかねない
必要なアラートを仕掛ける サービスレベル (SLI) の悪化 → 手段を検討中 ディスク空き容量の急激な低下 → 一部実施済みだが改善する
おわりに
ご協力のお願い 即対応が必要なアラートのみにしていきましょう サービスレベル目標 (SLO) を定義していきましょう
参考記事 Google - Site Reliability Engineering 訳書『SRE サイトリライアビリティエンジニアリング』 クラウド環境でのアラートを考えてみよう 監視疲れを起こさない工夫