Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
アラートの話 をしよう!
Search
akshimo
September 09, 2024
0
77
アラートの話 をしよう!
akshimo
September 09, 2024
Tweet
Share
More Decks by akshimo
See All by akshimo
私の推し技術(DERTA Gig #18)
shimomura
1
59
UPDATEがシステムを複雑にする? イミュータブルデータモデルのすすめ
shimomura
3
710
5分でわかる イミュータブル データモデル
shimomura
2
160
serverless
shimomura
1
200
機械翻訳との付き合い方
shimomura
0
240
Featured
See All Featured
Music & Morning Musume
bryan
46
6.8k
Gamification - CAS2011
davidbonilla
81
5.4k
Visualization
eitanlees
147
16k
4 Signs Your Business is Dying
shpigford
184
22k
Rails Girls Zürich Keynote
gr2m
95
14k
Reflections from 52 weeks, 52 projects
jeffersonlam
351
21k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
50k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
15
1.6k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
31
2.2k
Site-Speed That Sticks
csswizardry
10
810
Designing Experiences People Love
moore
142
24k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
11
1.1k
Transcript
アラートの話 をしよう!
2 • akshimo(あくしも) ◦ X:@akshimo • 東京出身 ◦ 2021年〜新潟へ移住 •
好きなもの ◦ アジャイル/スクラム ◦ DDD/BDD/イベント駆動 ◦ ウイスキー、物理学、哲学
開発は綺麗事ばかりじゃない! 絶対にエラーは起こる。それにどう立ち向かうか? 3
Agenda ケース1: 某越境EC ▸ エラー監視のアンチパターン ▸ ログレベル ケース2:某FinTech ▸ アラートルールの設定
▸ 日々の運用 4
1. 越境ECの 大量エラー通知 オオカミ少年と 化した通知に 立ち向かう
エラー通知 - Bugsnag - エラーはSlack通知 - warning以上も通知 利用技術 - Laravel/php
- DDD - イベント駆動 - Alibaba Cloud 前提 6
大量のエラー通知 が発生 Bugsnag経由で数十件/日のエラー通知が! エラー通知を見ないメンバーもではじめる 7
そもそも エラーって何? 8
“ ISTQB 『間違った結果を生み出す人間の行為』 9
“ ISTQB 『間違った結果を生み出す人間の行為』 => エラーならば必ず通知が必要、ということ ではないはず 10
緊急性 通知先 emergency 夜間休日でもすぐに対応が必要 #xxx-emergency alert 休日でも数時間以内に対応が必要 #xxx-alert critical 当日または翌営業日までに対応
#xxx-critical error 障害起票をし優先度決定 #xxx-error warning 毎営業日確認し問題あれば起票 #xxx-warning notice 緊急性はないが定期的に確認 #xxx-notice info なし CloudWatch的なやつ debug なし ローカルのログとか bugsnag 未知 #xxx-bugsnag 11 ログレベルごとの対応方針をチームで決定
▸ 通知がスッキリ! ▸ 各通知の緊急性判断を迷わない、間違わない 結果 12
2. FinTechでの エラー運用 リリースで 荒れたアラート を解消する
エラー通知 - Sentry - エラー通知 利用技術 - Ruby on Rails
- MVC - モノリス 前提 14
多くのエラー発生 ある部分を移行をしたタイミングからエラーが多く発生 毎日対応に追われるハメに 15
想定外のことが起きている 日々対応していくしかない 16
17 Before
18 After
▸ 特定のアラートはOpsチャンネルに通知するようSentry を設定 ▸ 各チャンネルに散らばったアラートなどはリアク字チャネ ラーで転送してOpsチャンネルに集約 ▸ アラートは朝会で即対応 & 不要なアラートは1日以内に
非通知に 改善したこと 19
Sentryでアラートルールを設定できる 指定したルールにあてはまるイベントの み、特定のチャンネルに通知するなど設 定できる。 特定の名前空間で発生したエラーのみ自 チームのOpsチャンネルに通知するよう設 定した。 https://sentry.io/resources/alert-rules / Sentryのアラート設定
20
Slackアプリ「リアク字チャンネラー」 指定の絵文字リアクションをメッセージに使 用したら、自動で指定のチャンネルにメッ セージをコピーしてくれる。 散らばった運用対応を、Opsチャンネルに集 約することができた。 https://slack.com/intl/ja-jp/help/article s/360000482666-Slack-%E7%94%A8%E3 %83%AA%E3%82%A2%E3%82%AF%E5%A D%97%E3%83%81%E3%83%A3%E3%83%B
3%E3%83%8D%E3%83%A9%E3%83%BC リアク字チャンネラーによる転送 21
放置されるアラートをゼロに 朝会でアラートは基本全てArchive or Resolveする。 バックログアイテム化して対応、アラートの抑 制(非通知 or Warning)など方針を決定しす ぐ対応する。 朝会での即対応
22
そして平和は訪れた 23
THANKS! Any questions? You can find me at @akshimo 24