Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
アラートの過不足をなくす
Search
iwamot
February 10, 2023
Technology
1
110
アラートの過不足をなくす
2023-02-10
ENECHANGE Tech Talk (社内勉強会)
iwamot
February 10, 2023
Tweet
Share
More Decks by iwamot
See All by iwamot
ECS on FargateへのSeekable OCI導入レポート
iwamot
0
330
サービスクォータ、ちゃんと監視してますか?
iwamot
0
610
AWS Well-Architected Toolで信頼性をレビューした結果
iwamot
0
310
テックカンパニーとしてのENECHANGEの中期目標
iwamot
0
54
AIの活用状況と今後の展望
iwamot
0
48
ENECHANGE社のAWSセキュリティ改革ストーリー
iwamot
0
120
ALBのアクセスログをAthenaで分析してSLOをゆるく決める
iwamot
2
1k
ChatGPT in SlackでAI Slackbotを楽しく運用する
iwamot
1
340
Function callingによるSlackbotの機能拡張
iwamot
2
150
Other Decks in Technology
See All in Technology
Python と Snowflake はズッ友だょ!~ Snowflake の Python 関連機能をふりかえる ~
__allllllllez__
1
120
MapLibreとAmazon Location Service
dayjournal
1
160
TechFeed Experts Night#27 〜 フロントエンドフレームワーク最前線 (Svelte)
baseballyama
1
540
ExaDB-D dbaascli で出来ること
oracle4engineer
PRO
0
2.1k
SIEMを用いて、セキュリティログ分析の可視化と分析を実現し、PDCAサイクルを回してみた
coconala_engineer
0
330
Azure Container Apps + Bicep 〜 こんな感じで運用しています
kaz29
2
480
ChatworkのSRE部って実は 半分くらいPlatform Engineering部かもしれない
saramune
0
160
Vertex AI を中心に 生成AIのアップデートを共有します
kaz1437
0
310
Azure犬駆動開発の記録/GlobalAzureFukuoka2024_20240420
nina01
1
220
GraphQL 成熟度モデルの紹介と、プロダクトに当てはめた事例 / GraphQL maturity model
mh4gf
7
1.3k
私が trocco を推す理由
__allllllllez__
1
250
VS CodeでAWSを操作しよう
smt7174
8
1.7k
Featured
See All Featured
A Modern Web Designer's Workflow
chriscoyier
689
190k
Agile that works and the tools we love
rasmusluckow
325
20k
Atom: Resistance is Futile
akmur
259
25k
Producing Creativity
orderedlist
PRO
337
39k
Practical Orchestrator
shlominoach
182
9.7k
The Straight Up "How To Draw Better" Workshop
denniskardys
227
130k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
7
1k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
34
8.9k
Become a Pro
speakerdeck
PRO
11
4.5k
Fontdeck: Realign not Redesign
paulrobertlloyd
76
4.9k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
116
18k
Building Effective Engineering Teams - LeadDev
addyosmani
28
1.8k
Transcript
アラートの過不足をなくす 2023-02-10 ENECHANGE Tech Talk (社内勉強会) CTO室 岩本隆史 (@iwamot)
現状の問題点 不必要なアラートが多い 必要なアラートが足りない
不必要なアラートが多い
不必要なアラートの例 CPU使用率が高い 不正なリクエストによって例外が発生している
アラートの定義 深夜であっても即対応すべき事象を知らせるもの 後日対応でよいならチケットで知らせればよい
不必要なアラートの問題点 即対応すべき事象が埋もれてしまう 無視が習慣化してしまう
不必要なアラートをなくす CPU使用率が高い → 削除する 不正なリクエストによって例外が発生している → アプリ側でハンド リングして4xxエラーを返す
必要なアラートが足りない
必要なアラートの例 サービスレベル (SLI) の悪化 お客様に迷惑がかかる 収益に悪影響がある ディスク空き容量の急激な低下 突然サービス不能になりかねない
必要なアラートを仕掛ける サービスレベル (SLI) の悪化 → 手段を検討中 ディスク空き容量の急激な低下 → 一部実施済みだが改善する
おわりに
ご協力のお願い 即対応が必要なアラートのみにしていきましょう サービスレベル目標 (SLO) を定義していきましょう
参考記事 Google - Site Reliability Engineering 訳書『SRE サイトリライアビリティエンジニアリング』 クラウド環境でのアラートを考えてみよう 監視疲れを起こさない工夫