エラーバジェットのアラートのタイミングを考える.pdf

JDDUG TOKYO エラーバジェットのアラートタイミングを考える 1

JDDUG Ryukyu (沖縄 ) 運営丸山　海理所属役職出身地
出身校趣味好きなAWS サービス SNS (株)サンエー情報システム部課長京都府琉球大学　法文学部　経済スポーツ観戦(サッカー/野球) KIRO cli ＠KairiM0kinawa 2

基幹システムを内製開発　　　　技術スタック 2026 Main Architecture Layers Design ＆ Frontend API ＆
Backend Database ＆ Auth Data Analytics Infrastructure DevEx ＆ Observability AI-Driven-DX Quality ＆Tools Ops ＆ Collab 5

やりたいこと SLI、SLO、エラーバジェットを定義した。次のアクションとして対応すべきインシデントにできるだけ早く気付き、かつ対応時間にゆとりがあり、ユーザー体験に影響が出る前に解決できるようにしたい。適切なアラートタイミングを決めたい。 6

google sre workbook  にベストプラクティス書いてるよ！今日の話は Chaptaer 5 の個人解釈の話です https://sre.google/workbook/table-of-contents/
7

アラートのタイミングで考慮すべきこと再現率（Recall）発生した重大な事象のうち、アラートが検知できた割合。100% に近いほど、見逃しがない。検知時間（Detection time）問題が発生してから通知が届くまでの時間リセット時間（Reset
time）問題が解決した後、アラートが停止するまでの時間。長すぎると混乱を招く。完了判断時間は適切か？適合率（Precision) 検知した事象のうち、実際に重大だったものの割合。100%に近いほど、不要な通知（ノイズ）が少ない。不要なキャッチはしていないか？見逃しはないか？検知は速いか？ 8

6つの通知方法のメリット・デメリット種類 ①ターゲットエラー率 ≧ SLO閾値 ②アラート期間（ウィンドウ）の延長 ③持続時間（ Duration）の追加
実装 10分などの短い時間枠（ウィンドウ）を指定し、その間の平均エラー率がSLOの許容閾値を超えた場合にアラートを設定する。判定する時間枠を36時間などの長期間に拡大し、その長期平均エラー率がSLOの許容閾値を超えた場合にアラートを設定する。短い時間枠（1分など）のエラー率を監視し、それが閾値を「1時間持続」した場合にのみ通知する設定にする。メリット実装が非常に簡単で、システムが完全に停止したような大規模障害を素早く検知できます。判定期間を長くすることでエラーが持続しているかを確認でき、方法1よりも誤報を抑えられます。閾値を超えた状態の継続を条件にできるため、短時間のノイズによる不要な通知をカットできます。デメリット適合率が低く、エラー予算に影響しない一時的なスパイクでも頻繁に誤報が発生します。障害が完全に復旧した後も、長期間（例：36時間）にわたってアラートが鳴り止まなくなります。深刻な全断が起きても設定時間まで通知されず、エラー率が瞬間的に下がるとタイマーがリセットされて検知できないリスクがあります。 9

6つの通知方法のメリット・デメリット種類 ④バーンレート（Burn Rate）に基づくアラート ⑤複数のバーンレートによるアラート ⑥マルチウィンドウ・マルチバーンレート実装
1時間などの固定枠を使い、エラー予算を消費する速度（バーンレート）が計算上の閾値を超えた場合にアラートを設定する。「1時間で2%消費」「3日間で10% 消費」など、複数の異なるバーンレートと時間枠のルールをそれぞれ独立してシステムに設定する。各バーンレートに対し、「長い窓（1時間）」と「短い窓（ 5分）」を AND条件で組み合わせ、両方の時間枠で閾値を超えた場合にのみ通知するよう設定する。メリットエラー予算の消費速度を監視するため、短い時間枠で高い検知速度と精度を両立できます。急激な予算消費には即時通知、緩やかな消費にはチケット起票といった、緊急度に応じた柔軟な運用が可能です。誤報が極めて少なく、障害が復旧した後は短い時間枠の判定によって数分でアラートが自動停止します。デメリット閾値をわずかに下回るような「じわじわ進むエラー」を見落とし、気づかぬうちに予算を使い果たす可能性があります。管理すべき閾値や時間枠の数が増えるほか、長期ウィンドウの影響で復旧後のリセット時間が長くなります。複数の時間枠と条件を複雑に組み合わせるため、監視ツールの設定やロジックの管理に手間がかかります。 10

前提条件・今回アラートを検討してたサービスは認証基盤・ユーザー体験として認証できないということを課題とするリクエストの中で認証エラーのものを設定単純な入力間違いなどは除外　※ここも議論の余地あり・・・・・リカバリーコードの登録・PWリセットなども同サービスに含まれる 11

Bits Chat (Bits Assistant) でやってみよう！！！ 1カ月で8時間のエラーバジェットを用意する。なのでSLIは98.89%。（全断でも8H就業時間内で仕事を終わらせたい・・・) 12

Bits Chat (Bits Assistant) でやってみよう！！！まずはhttps://sre.google/workbook/alerting-on-slos/ のサイトの内容をよく読んで理解してください。 1 2
3 4 5 6 申し訳ありませんが、私は外部のウェブサイトにアクセスしてコンテンツを読む機能を持っていません。 https: //sre.google/workbook/alerting-on-slos/ を直接閲覧することはできません。ただし、このページはGoogle SRE Workbookの**「Alerting on SLOs」**の章であり、私のトレーニングデータにその内容の知識があります。すでに知ってた！？！？！！？ 13

ダッシュボード作って！ 14

モニター作って！ 1 2 3 4 5 6 7 8 9
{ "name": "[SLO] api.auth.example.com - Critical (14.4x) - COMPOSITE", "type": "composite", "query": "00000000 && 00000000", "message": "## CRITICAL: Burn Rate 14.4x exceeded\n\nBOTH 1h AND 5m windows are above threshold.\nImmediate action required.\n\n[SLO Dashboard](/dashboard/xxxx-xxx-xxxx)\n\n@slack- your-channel-notification", "tags": ["service:api.auth.example.com", "env:prod", "slo:burn-rate", "severity:critical"], "priority": 1, "options": {"notify_no_data": false, "renotify_interval": 0} } 長・短と優先度順で8個のモニターとそれらを統合した実際にアラートさせるためのモニターを４つ作成 15

成果物と考え方重要度 BURN RATE 長期  Window 短期  Window Buget消費エラー率閾値
🔴 Critical (Page)  🟠 High (Page) 🟡 Medium (Ticket) 🔵 Low (Ticket) 14.4X 6X 3X 1X 1時間 6時間 1日 3日 5分 30分 2時間 6時間 2% 5% 10% 10% 16.0% 6.67% 3.33% 1.11% 2/5/10ルールに準拠：緊急度に応じ、エラーバジェットを『2%・5%・10%』消費した時点でアラートを発火させる SREのベストプラクティス 17

← ShortとLongの実際のモニター ← Short / Longを監視してどっちもエラーなら発報するモニター
Critical / High Short どっちもエラーなら OnCall Long Medium / Low Short どっちもエラーなら ticket Long 16

成果物と考え方重要度 🚨 全断 (エラー率100%継続) アラートタイミング約10分後エラー予算の枯渇約8時間後
アラートが止まるタイミング約5分後 🔴 Critical (エラー率16.0%継続) 1時間後 50時間後（約2日） 5分後 🟠 High (エラー率6.67%継続) 🟡 Medium (Ticket / 3.33%継続) 🔵 Low (Ticket / 1.11%継続) 6時間後 24時間（1日）後 72時間（3日）後 120時間後（5日後） 240時間後（10日後） 720時間後（30日後） 30分後 2時間後 6時間後 18

まとめ Datadogなら簡単にMulti-window, Multi- burn-rateのアラート戦略ができる！ 5分で説明できる分けもないのでZennに詳細書きました。よかったらどうぞ→ https://zenn.dev/kairim/articles/f8b393773aec56 19

エラーバジェットのアラートのタイミングを考える.pdf

エラーバジェットのアラートのタイミングを考える.pdf

KairiM

More Decks by KairiM

Other Decks in Technology

Featured

Transcript

JDDUG TOKYO エラーバジェットのアラートタイミングを考える 1

JDDUG Ryukyu (沖縄 ) 運営丸山　海理所属役職出身地

基幹システムを内製開発　　　　技術スタック 2026 Main Architecture Layers Design ＆ Frontend API ＆

google sre workbook  にベストプラクティス書いてるよ！今日の話は Chaptaer 5 の個人解釈の話です https://sre.google/workbook/table-of-contents/

6つの通知方法のメリット・デメリット種類 ①ターゲットエラー率 ≧ SLO閾値 ②アラート期間（ウィンドウ）の延長 ③持続時間（ Duration）の追加

6つの通知方法のメリット・デメリット種類 ④バーンレート（Burn Rate）に基づくアラート ⑤複数のバーンレートによるアラート ⑥マルチウィンドウ・マルチバーンレート実装

Bits Chat (Bits Assistant) でやってみよう！！！ 1カ月で8時間のエラーバジェットを用意する。なのでSLIは98.89%。（全断でも8H就業時間内で仕事を終わらせたい・・・) 12

Bits Chat (Bits Assistant) でやってみよう！！！まずはhttps://sre.google/workbook/alerting-on-slos/ のサイトの内容をよく読んで理解してください。 1 2

ダッシュボード作って！ 14

モニター作って！ 1 2 3 4 5 6 7 8 9

成果物と考え方重要度 BURN RATE 長期  Window 短期  Window Buget消費エラー率閾値

← ShortとLongの実際のモニター ← Short / Longを監視してどっちもエラーなら発報するモニター

成果物と考え方重要度 🚨 全断 (エラー率100%継続) アラートタイミング約10分後エラー予算の枯渇約8時間後

まとめ Datadogなら簡単にMulti-window, Multi- burn-rateのアラート戦略ができる！ 5分で説明できる分けもないのでZennに詳細書きました。よかったらどうぞ→ https://zenn.dev/kairim/articles/f8b393773aec56 19