Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ウォンテッドリーのアラート設計と Datadog 移行での知見
Search
Kazuki Obata
August 20, 2025
Technology
0
530
ウォンテッドリーのアラート設計と Datadog 移行での知見
Japan Datadog User Group Meetup#12@東京
https://datadog-jp.connpass.com/event/360923/
Kazuki Obata
August 20, 2025
Tweet
Share
More Decks by Kazuki Obata
See All by Kazuki Obata
KubeCon + CloudNativeCon Japan 2025 Recap
donkomura
0
450
計装を見直してアプリケーションパフォーマンスを改善させた話
donkomura
2
440
自分だけの仮想クラスタを高速かつ効率的に作る kubefork
donkomura
0
250
散らばったトレースを繋げる技術
donkomura
1
790
ウォンテッドリーのインフラチームに加わってみて
donkomura
0
230
AWS CLI で気軽にコスト改善やってみた
donkomura
1
230
入門 KRR
donkomura
0
330
Other Decks in Technology
See All in Technology
セキュリティAIエージェントの現在と未来 / PSS #2 Takumi Session
flatt_security
3
1.4k
Oracle Cloud Infrastructure:2025年11月度サービス・アップデート
oracle4engineer
PRO
1
120
freeeにおけるファンクションを超えた一気通貫でのAI活用
jaxx2104
3
620
タグ付きユニオン型を便利に使うテクニックとその注意点
uhyo
2
640
【5分でわかる】セーフィー エンジニア向け会社紹介
safie_recruit
0
37k
Oracle Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
0
640
あなたの知らないDateのひみつ / The Secret of "Date" You Haven't known #tqrk16
expajp
0
110
useEffectってなんで非推奨みたいなこと言われてるの?
maguroalternative
9
6.2k
Data Hubグループ 紹介資料
sansan33
PRO
0
2.3k
M5UnifiedとPicoRubyで楽しむM5シリーズ
kishima
0
110
会社紹介資料 / Sansan Company Profile
sansan33
PRO
11
390k
一億総業務改善を支える社内AIエージェント基盤の要諦
yukukotani
8
2.8k
Featured
See All Featured
Leading Effective Engineering Teams in the AI Era
addyosmani
8
1.2k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
1.8k
Why Our Code Smells
bkeepers
PRO
340
57k
Build The Right Thing And Hit Your Dates
maggiecrowley
38
3k
Agile that works and the tools we love
rasmusluckow
331
21k
How to Ace a Technical Interview
jacobian
280
24k
jQuery: Nuts, Bolts and Bling
dougneiner
65
8.1k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.1k
Documentation Writing (for coders)
carmenintech
76
5.2k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
31
2.7k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.5k
How STYLIGHT went responsive
nonsquared
100
5.9k
Transcript
© 2025 Wantedly, Inc. ウォンテッドリーのアラート設計と Datadog 移行での知見 Japan Datadog User
Group Meetup#12 Aug.20 2025 - Kazuki Obata (@donkomura)
© 2025 Wantedly, Inc. ⾃⼰紹介 • Wantedly, inc (2024-09 ~)
• Infra Squad #k8s #分散システム #ストレージ #ボルダリング 巨畠 和樹 (Obata Kazuki)
© 2025 Wantedly, Inc. 話すこと • アラート運⽤を設計しておく ◦ アラート移⾏‧棚卸しがスムーズに •
移⾏は実装を⾒直すチャンス ◦ 細かな調整が効く Datadog の良いところ‧つまづきポイント
© 2025 Wantedly, Inc. 01 ウォンテッドリーの監視・アラート運用の変遷 02 アラートの指針 03 New
Relic → Datadog 移行中の問題とその対応 04 まとめ 目次
© 2025 Wantedly, Inc. ウォンテッドリーの監視・アラート運用 の変遷 01
© 2025 Wantedly, Inc. ウォンテッドリーの監視‧アラート運⽤の変遷 2012 Heroku から AWS に移⾏
Datadog の利⽤を開始 サービス開始 インフラは Heroku 2014 2016 2018 2020 2022 2024 マイクロサービス化 Kubernetes の運⽤を開始 全サービスが Kubernetes 上に デバッグの難しさ解消のため APM を導⼊ Amazon EKS に移⾏ サービスの集約検討を開始 SLO 基盤と APM を Datadog に移⾏ APM の利⽤を拡⼤ Logs による SLO 基盤検証 「Wantedly での Datadog 活用事例」p10
© 2025 Wantedly, Inc. • New Relic でアプリケーションを監視 • 2014年:Datadog
をインフラ監視に採⽤ • 2018〜2023年:アプリケーション監視基盤の混在期 ◦ 2018年:APM の導⼊、分散トレーシングの整備 ◦ 2020年:Logs による SLO 基盤の検証 ◦ 2021年:アラート疲れ問題が顕在化、改善プロジェクト始動 i. 後述のアラート設計‧運⽤ポリシーを定めた ◦ 2022年:モニタリング‧オブザーバビリティ基盤の⾒直し • 2024年:Datadogに統⼀移⾏、アプリ‧インフラ監視の⼀元化 ウォンテッドリーの監視・アラート運用の変遷 アラート設計の起点
© 2025 Wantedly, Inc. アラートの指針 02
© 2025 Wantedly, Inc. アラートの指針 アラートの分類 • PagerDuty で通知、#war_room で緊急対応
• エンドユーザーに直接影響が出るもの • アラートチャンネルに通知、各チームで対応 • 事業を継続するための社内業務に著しく影響が出るもの • 対応が必要なアプリケーションメトリクス • 対応が必要なインフラストラクチャメトリクス • 参考程度のアラート • 対応が必要ないインフラメトリクス
© 2025 Wantedly, Inc. アラートの指針 • Runbook の整備‧影響範囲の可視化 ◦ GitHub
repository で⼀括管理 i. 急ぎのものや対応が定まっていないものはアラートに直接書いている ii. coverage で拡充できているかの評価 ◦ APM の Service Map を活⽤して関連するサービスの可視化 • PagerDuty の Open/Close で計測、記録 ◦ MTTR が計測可能に • アラート対応の振り返りはポストモーテムで実施 アラートそのもの以外の仕組み化
© 2025 Wantedly, Inc. Datadog 移行でうまくいったこと・いか なかったこと 03
© 2025 Wantedly, Inc. Datadog 移⾏でうまくいったこと‧いかなかったこと 2012 Heroku から AWS
に移⾏ Datadog の利⽤を開始 サービス開始 インフラは Heroku 2014 2016 2018 2020 2022 2024 マイクロサービス化 Kubernetes の運⽤を開始 全サービスが Kubernetes 上に デバッグの難しさ解消のため APM を導⼊ Amazon EKS に移⾏ サービスの集約検討を開始 SLO 基盤と APM を Datadog に移⾏ APM の利⽤を拡⼤ Logs による SLO 基盤検証 New Relic → Datadog 移⾏
© 2025 Wantedly, Inc. Datadog 移⾏でうまくいったこと‧いかなかったこと • エンドユーザーに直接影響が出るものは優先度⾼く移⾏ ◦ 重要サービスのメトリクス
• Datadog と New Relic で重複していたものは廃⽌ ◦ SLO Burn rate alert に移⾏したものもある 👍 ポリシーの再確認、アラートの整理
© 2025 Wantedly, Inc. Datadog 移⾏でうまくいったこと‧いかなかったこと • 👎 New Relic
のアラートと同じものを Datadog で実装できない ◦ e.g. エラーレート‧レイテンシアラート ◦ APM ベースのアラートではサンプリングされてしまう • 👎 設定ミスもあった ◦ Datadog では設定が前提なので New Relic のようにレールに乗れない 移⾏で⾒えてきた問題
© 2025 Wantedly, Inc. Datadog 移⾏でうまくいったこと‧いかなかったこと • サンプリングされていないメトリクスで評価することができた ✅トレースメトリクスなどを駆使してアラートを設定
© 2025 Wantedly, Inc. 設定ミスへの対応 • 平均値での閾値設定 ◦ ⼀部の異常が埋もれる ◦
対策:最⼩値(min)集計でフラッピング抑制 • as_count() + avg() 使⽤で平滑化 ◦ 本来のピークを検知できない ◦ 対策:as_rate() による評価を使う ✅ うるさい‧静かなアラートへの対応 https://docs.datadoghq.com/ja/monitors/guide/as-count-in-monitor-evaluations/
© 2025 Wantedly, Inc. まとめ 04
© 2025 Wantedly, Inc. まとめ • アラート運⽤を設計しておく ◦ アラートの棚卸しがスムーズになる ◦
通知先、対応フローを仕組み化‧可視化 • 移⾏は実装を⾒直すチャンス ◦ 細かな調整がしやすい ◦ 誤ると正常に監視できなくなるので注意
© 2025 Wantedly, Inc. 宣伝 We are hiring! https://www.wantedly.com/projects/522096
© 2025 Wantedly, Inc. 宣伝 ⽣成AIのイベントやります [09-17(⽔)] #wantedly_tn