Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
アラートの過不足をなくす
Search
iwamot
PRO
February 10, 2023
Technology
1
210
アラートの過不足をなくす
2023-02-10
ENECHANGE Tech Talk (社内勉強会)
iwamot
PRO
February 10, 2023
Tweet
Share
More Decks by iwamot
See All by iwamot
AIエージェント・マイクロサービス時代。AWSでの手軽な構築法を考えて試してみた
iwamot
PRO
1
48
これがLambdaレス時代のChatOpsだ!実例で学ぶAmazon Q Developerカスタムアクション活用法
iwamot
PRO
9
1.5k
Developer Certificate of Origin、よさそう
iwamot
PRO
0
42
復号できなくなると怖いので、AWS KMSキーの削除を「面倒」にしてみた CODT 2025 クロージングイベント版
iwamot
PRO
1
130
復号できなくなると怖いので、AWS KMSキーの削除を「面倒」にしてみた
iwamot
PRO
3
100
IPA&AWSダブル全冠が明かす、人生を変えた勉強法のすべて
iwamot
PRO
14
11k
2年でここまで成長!AWSで育てたAI Slack botの軌跡
iwamot
PRO
4
1.2k
名単体テスト 禁断の傀儡(モック)
iwamot
PRO
1
610
クォータ監視、AWS Organizations環境でも楽勝です✌️
iwamot
PRO
2
610
Other Decks in Technology
See All in Technology
GitHub Issue Templates + Coding Agentで簡単みんなでIaC/Easy IaC for Everyone with GitHub Issue Templates + Coding Agent
aeonpeople
1
230
Webhook best practices for rock solid and resilient deployments
glaforge
1
290
10Xにおける品質保証活動の全体像と改善 #no_more_wait_for_test
nihonbuson
PRO
2
290
顧客の言葉を、そのまま信じない勇気
yamatai1212
1
350
予期せぬコストの急増を障害のように扱う――「コスト版ポストモーテム」の導入とその後の改善
muziyoshiz
1
1.9k
仕様書駆動AI開発の実践: Issue→Skill→PRテンプレで 再現性を作る
knishioka
2
660
SREチームをどう作り、どう育てるか ― Findy横断SREのマネジメント
rvirus0817
0
270
FinTech SREのAWSサービス活用/Leveraging AWS Services in FinTech SRE
maaaato
0
130
ClickHouseはどのように大規模データを活用したAIエージェントを全社展開しているのか
mikimatsumoto
0
230
名刺メーカーDevグループ 紹介資料
sansan33
PRO
0
1k
GitLab Duo Agent Platform × AGENTS.md で実現するSpec-Driven Development / GitLab Duo Agent Platform × AGENTS.md
n11sh1
0
140
【Oracle Cloud ウェビナー】[Oracle AI Database + AWS] Oracle Database@AWSで広がるクラウドの新たな選択肢とAI時代のデータ戦略
oracle4engineer
PRO
2
150
Featured
See All Featured
Efficient Content Optimization with Google Search Console & Apps Script
katarinadahlin
PRO
1
320
Hiding What from Whom? A Critical Review of the History of Programming languages for Music
tomoyanonymous
2
420
Site-Speed That Sticks
csswizardry
13
1.1k
How to Think Like a Performance Engineer
csswizardry
28
2.4k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
3.3k
GitHub's CSS Performance
jonrohan
1032
470k
Tips & Tricks on How to Get Your First Job In Tech
honzajavorek
0
440
Accessibility Awareness
sabderemane
0
51
First, design no harm
axbom
PRO
2
1.1k
Chasing Engaging Ingredients in Design
codingconduct
0
110
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
61k
Neural Spatial Audio Processing for Sound Field Analysis and Control
skoyamalab
0
170
Transcript
アラートの過不足をなくす 2023-02-10 ENECHANGE Tech Talk (社内勉強会) CTO室 岩本隆史 (@iwamot)
現状の問題点 不必要なアラートが多い 必要なアラートが足りない
不必要なアラートが多い
不必要なアラートの例 CPU使用率が高い 不正なリクエストによって例外が発生している
アラートの定義 深夜であっても即対応すべき事象を知らせるもの 後日対応でよいならチケットで知らせればよい
不必要なアラートの問題点 即対応すべき事象が埋もれてしまう 無視が習慣化してしまう
不必要なアラートをなくす CPU使用率が高い → 削除する 不正なリクエストによって例外が発生している → アプリ側でハンド リングして4xxエラーを返す
必要なアラートが足りない
必要なアラートの例 サービスレベル (SLI) の悪化 お客様に迷惑がかかる 収益に悪影響がある ディスク空き容量の急激な低下 突然サービス不能になりかねない
必要なアラートを仕掛ける サービスレベル (SLI) の悪化 → 手段を検討中 ディスク空き容量の急激な低下 → 一部実施済みだが改善する
おわりに
ご協力のお願い 即対応が必要なアラートのみにしていきましょう サービスレベル目標 (SLO) を定義していきましょう
参考記事 Google - Site Reliability Engineering 訳書『SRE サイトリライアビリティエンジニアリング』 クラウド環境でのアラートを考えてみよう 監視疲れを起こさない工夫