Upgrade to Pro — share decks privately, control downloads, hide ads and more …

通知再考 ~ 最高のアラート通知を今改めて考える ~

Avatar for Ryo Takaishi Ryo Takaishi
May 15, 2026
280

通知再考 ~ 最高のアラート通知を今改めて考える ~

Avatar for Ryo Takaishi

Ryo Takaishi

May 15, 2026

More Decks by Ryo Takaishi

Transcript

  1. 髙石 諒 / @r_takaishi • ソフトウェアエンジニア ◦ 株式会社フライル • OSS開発

    ◦ https://github.com/takaishi/tfclean ◦ apply済みのimport/moved/removed blockを一掃できます • 過去登壇 ◦ SRE Kaigi 2025 / どうやればインシデント対応能力を鍛えられ るのか?
  2. アジェンダ 1. 通知の3タイプ と メソッドの歴史 2. 通知の難しさ — flyle の現場から

    3. 通知を改善する スピーカーの経験をベースに調べた・考えたことを話し ます
  3. 通知には3タイプありそう • Event-based ◦ 例外・スタックトレース・ログ。1 イベント単位 ◦ コードの異常に気づきたい • Metric-based

    ◦ 時系列の数値が閾値超え。CPU / Memory / Error 率 ◦ リソース・サービスの異常に気づきたい • Symptom-based ◦ ユーザーが体験する 症状 で発火。SLO バーンレート ◦ ユーザーの困りごとに気づきたい
  4. メソッドの系譜 • 〜2010 OK / WARNING / CRITICAL — 外形監視・死活・メトリクス

    • 2012 USE Method(Brendan Gregg)— リソース指向 (Utilization / Saturation / Errors) • 2016 Four Golden Signals(Google SRE Book)— Latency / Traffic / Errors / Saturation • 2018 RED Method(Tom Wilkie)— サービス指向 (Rate / Errors / Duration) • 2018 SLO バーンレート(SRE Workbook)— どう判定するか:時間軸を加 味した許容量の消費速度 • 2022〜 Beyond SLO — Desai 2σ / Rethinking SLOs
  5. 通知先も変遷がありそう • Email / ポケベル / 任意のスクリプト • オンコール SaaS(2009〜)—

    PagerDuty ◦ Severity・ローテーション・エスカレーションを SaaS 化 ◦ SMSや電話、スマホアプリのプッシュ通知 • 業務チャット(2010s〜)— IRC → 中略 → Slack/Teams ◦ Hubot (2011) で「ChatOps」が定着 ◦ スマホアプリでプッシュ通知 • AIOps / LLM トリアージ(2023〜)— 通知そのものではないが通知前 後で活用 → 通知は「届ける手段」だけでなく「誰がいつ受け取るか」の設計対象に
  6. flyleの通知史 • 2020 創業 — 素朴なエラー通知 (CloudWatch → Slack) •

    2023 SLO 導入を検討したが中止 • 2024 Datadog導入、監視対象のメトリクス増加 • 2024 コンポーネント毎の通知チャンネル整備 • 2025 マルチプロダクト化、緊急度毎のチャンネル整備 • 未来 AIOpsやオンコールSaaSの導入?
  7. アプリエラー通知、難しい • 「正常」「異常」の境界が曖昧 ◦ 例:404 Not Found は単発なら正常、特定 URL で頻発なら異常

    • コンテキスト依存性が高い ◦ 同じ TimeoutError でも、情報取得 API なら軽い、決済 API なら重い • 新種が常に現れる ◦ リリースごとに新しい例外型 • あまり把握していない領域からのエラーは調査自体が難し い
  8. 参考文献 (1/2) • Rob Ewaschuk「My Philosophy on Alerting」(2013) ◦ https://docs.google.com/document/d/199PqyG3UsyXlwieHaqbGiWVa8eMWi8zz

    An0YfcApr8Q/edit • Google『Site Reliability Engineering / The Site Reliability Workbook』(2016 / 2018) ◦ https://sre.google/ • Brendan Gregg「The USE Method」(2012) ◦ https://www.brendangregg.com/usemethod.html • Tom Wilkie「The RED Method」(Grafana, 2018) ◦ https://grafana.com/blog/2018/08/02/the-red-method-how-to-instrument-yo ur-services/
  9. 参考文献 (2/2) • Narayan Desai「Principled Performance Analytics」(SREcon22 Americas) ◦ https://www.usenix.org/conference/srecon22americas/presentation/desai

    • Google SRE Prodcast「Rethinking SLOs」(S1E4, 2022) ◦ https://sre.google/prodcast/transcripts/sre-prodcast-01-04/ • iwamot「SLOベースの監視は廃れるのか」(SRE Magazine 12号, 2026) ◦ https://sre-magazine.net/articles/12/iwamot/ • jacopen「間違いだらけのポストモーテム」(CloudNative Days Winter 2024) • https://speakerdeck.com/jacopen/jian-wei-itarakenohosutomotemu-hontoniyi-li-turehiyuhakouta • Mackerel ブログ ◦ https://mackerel.io/ja/blog/