Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ウォンテッドリーのアラート設計と Datadog 移行での知見
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
Kazuki Obata
August 20, 2025
Technology
690
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
ウォンテッドリーのアラート設計と Datadog 移行での知見
Japan Datadog User Group Meetup#12@東京
https://datadog-jp.connpass.com/event/360923/
Kazuki Obata
August 20, 2025
More Decks by Kazuki Obata
See All by Kazuki Obata
KubeCon + CloudNativeCon Japan 2025 Recap
donkomura
0
840
計装を見直してアプリケーションパフォーマンスを改善させた話
donkomura
2
490
自分だけの仮想クラスタを高速かつ効率的に作る kubefork
donkomura
0
320
散らばったトレースを繋げる技術
donkomura
1
870
ウォンテッドリーのインフラチームに加わってみて
donkomura
0
270
AWS CLI で気軽にコスト改善やってみた
donkomura
1
300
入門 KRR
donkomura
0
390
Other Decks in Technology
See All in Technology
テスト設計の本質を改めて考えてみる~生成AIを活用する時代だからこそ、作ったテストの説明性を高めよう~
yamasaki696
1
120
AIペネトレーションテスト・ セキュリティ検証「AgenticSec」紹介資料
laysakura
2
7.7k
Lightning近況報告
kozy4324
0
230
攻撃者がいなくてもAIエージェントはインシデントを起こす
nomizone
0
120
[AWS Summit Japan 2026]迷っているあなたへ_小さな一歩が、やがて自分を助けてくれる
sh_fk2
2
430
Flow 不死:AI 時代 DevOps 的不變本質
cheng_wei_chen
2
550
AWS Security Hub CSPMの成功・失敗体験
cmusudakeisuke
0
580
PostgreSQL 19 新機能概要 OSC Hokkaido 2026
nori_shinoda
0
260
toB プロダクトから見たWAF
tokai235
0
240
組織における AI-DLC 実践
askul
0
140
4人目のSREはAgent
tanimuyk
0
270
AI 不只幫你寫 Code: 當專案從 300 暴增到 1500, 我們如何撐住 DevOps
appleboy
0
280
Featured
See All Featured
Evolving SEO for Evolving Search Engines
ryanjones
0
230
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.4k
Building Better People: How to give real-time feedback that sticks.
wjessup
370
20k
Jess Joyce - The Pitfalls of Following Frameworks
techseoconnect
PRO
1
170
Designing Powerful Visuals for Engaging Learning
tmiket
1
430
The Language of Interfaces
destraynor
162
27k
Raft: Consensus for Rubyists
vanstee
141
7.6k
Efficient Content Optimization with Google Search Console & Apps Script
katarinadahlin
PRO
1
640
Product Roadmaps are Hard
iamctodd
PRO
55
12k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
49
10k
How to Ace a Technical Interview
jacobian
281
24k
Tell your own story through comics
letsgokoyo
1
980
Transcript
© 2025 Wantedly, Inc. ウォンテッドリーのアラート設計と Datadog 移行での知見 Japan Datadog User
Group Meetup#12 Aug.20 2025 - Kazuki Obata (@donkomura)
© 2025 Wantedly, Inc. ⾃⼰紹介 • Wantedly, inc (2024-09 ~)
• Infra Squad #k8s #分散システム #ストレージ #ボルダリング 巨畠 和樹 (Obata Kazuki)
© 2025 Wantedly, Inc. 話すこと • アラート運⽤を設計しておく ◦ アラート移⾏‧棚卸しがスムーズに •
移⾏は実装を⾒直すチャンス ◦ 細かな調整が効く Datadog の良いところ‧つまづきポイント
© 2025 Wantedly, Inc. 01 ウォンテッドリーの監視・アラート運用の変遷 02 アラートの指針 03 New
Relic → Datadog 移行中の問題とその対応 04 まとめ 目次
© 2025 Wantedly, Inc. ウォンテッドリーの監視・アラート運用 の変遷 01
© 2025 Wantedly, Inc. ウォンテッドリーの監視‧アラート運⽤の変遷 2012 Heroku から AWS に移⾏
Datadog の利⽤を開始 サービス開始 インフラは Heroku 2014 2016 2018 2020 2022 2024 マイクロサービス化 Kubernetes の運⽤を開始 全サービスが Kubernetes 上に デバッグの難しさ解消のため APM を導⼊ Amazon EKS に移⾏ サービスの集約検討を開始 SLO 基盤と APM を Datadog に移⾏ APM の利⽤を拡⼤ Logs による SLO 基盤検証 「Wantedly での Datadog 活用事例」p10
© 2025 Wantedly, Inc. • New Relic でアプリケーションを監視 • 2014年:Datadog
をインフラ監視に採⽤ • 2018〜2023年:アプリケーション監視基盤の混在期 ◦ 2018年:APM の導⼊、分散トレーシングの整備 ◦ 2020年:Logs による SLO 基盤の検証 ◦ 2021年:アラート疲れ問題が顕在化、改善プロジェクト始動 i. 後述のアラート設計‧運⽤ポリシーを定めた ◦ 2022年:モニタリング‧オブザーバビリティ基盤の⾒直し • 2024年:Datadogに統⼀移⾏、アプリ‧インフラ監視の⼀元化 ウォンテッドリーの監視・アラート運用の変遷 アラート設計の起点
© 2025 Wantedly, Inc. アラートの指針 02
© 2025 Wantedly, Inc. アラートの指針 アラートの分類 • PagerDuty で通知、#war_room で緊急対応
• エンドユーザーに直接影響が出るもの • アラートチャンネルに通知、各チームで対応 • 事業を継続するための社内業務に著しく影響が出るもの • 対応が必要なアプリケーションメトリクス • 対応が必要なインフラストラクチャメトリクス • 参考程度のアラート • 対応が必要ないインフラメトリクス
© 2025 Wantedly, Inc. アラートの指針 • Runbook の整備‧影響範囲の可視化 ◦ GitHub
repository で⼀括管理 i. 急ぎのものや対応が定まっていないものはアラートに直接書いている ii. coverage で拡充できているかの評価 ◦ APM の Service Map を活⽤して関連するサービスの可視化 • PagerDuty の Open/Close で計測、記録 ◦ MTTR が計測可能に • アラート対応の振り返りはポストモーテムで実施 アラートそのもの以外の仕組み化
© 2025 Wantedly, Inc. Datadog 移行でうまくいったこと・いか なかったこと 03
© 2025 Wantedly, Inc. Datadog 移⾏でうまくいったこと‧いかなかったこと 2012 Heroku から AWS
に移⾏ Datadog の利⽤を開始 サービス開始 インフラは Heroku 2014 2016 2018 2020 2022 2024 マイクロサービス化 Kubernetes の運⽤を開始 全サービスが Kubernetes 上に デバッグの難しさ解消のため APM を導⼊ Amazon EKS に移⾏ サービスの集約検討を開始 SLO 基盤と APM を Datadog に移⾏ APM の利⽤を拡⼤ Logs による SLO 基盤検証 New Relic → Datadog 移⾏
© 2025 Wantedly, Inc. Datadog 移⾏でうまくいったこと‧いかなかったこと • エンドユーザーに直接影響が出るものは優先度⾼く移⾏ ◦ 重要サービスのメトリクス
• Datadog と New Relic で重複していたものは廃⽌ ◦ SLO Burn rate alert に移⾏したものもある 👍 ポリシーの再確認、アラートの整理
© 2025 Wantedly, Inc. Datadog 移⾏でうまくいったこと‧いかなかったこと • 👎 New Relic
のアラートと同じものを Datadog で実装できない ◦ e.g. エラーレート‧レイテンシアラート ◦ APM ベースのアラートではサンプリングされてしまう • 👎 設定ミスもあった ◦ Datadog では設定が前提なので New Relic のようにレールに乗れない 移⾏で⾒えてきた問題
© 2025 Wantedly, Inc. Datadog 移⾏でうまくいったこと‧いかなかったこと • サンプリングされていないメトリクスで評価することができた ✅トレースメトリクスなどを駆使してアラートを設定
© 2025 Wantedly, Inc. 設定ミスへの対応 • 平均値での閾値設定 ◦ ⼀部の異常が埋もれる ◦
対策:最⼩値(min)集計でフラッピング抑制 • as_count() + avg() 使⽤で平滑化 ◦ 本来のピークを検知できない ◦ 対策:as_rate() による評価を使う ✅ うるさい‧静かなアラートへの対応 https://docs.datadoghq.com/ja/monitors/guide/as-count-in-monitor-evaluations/
© 2025 Wantedly, Inc. まとめ 04
© 2025 Wantedly, Inc. まとめ • アラート運⽤を設計しておく ◦ アラートの棚卸しがスムーズになる ◦
通知先、対応フローを仕組み化‧可視化 • 移⾏は実装を⾒直すチャンス ◦ 細かな調整がしやすい ◦ 誤ると正常に監視できなくなるので注意
© 2025 Wantedly, Inc. 宣伝 We are hiring! https://www.wantedly.com/projects/522096
© 2025 Wantedly, Inc. 宣伝 ⽣成AIのイベントやります [09-17(⽔)] #wantedly_tn