Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ウォンテッドリーのアラート設計と Datadog 移行での知見
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
Kazuki Obata
August 20, 2025
Technology
0
580
ウォンテッドリーのアラート設計と Datadog 移行での知見
Japan Datadog User Group Meetup#12@東京
https://datadog-jp.connpass.com/event/360923/
Kazuki Obata
August 20, 2025
Tweet
Share
More Decks by Kazuki Obata
See All by Kazuki Obata
KubeCon + CloudNativeCon Japan 2025 Recap
donkomura
0
580
計装を見直してアプリケーションパフォーマンスを改善させた話
donkomura
2
450
自分だけの仮想クラスタを高速かつ効率的に作る kubefork
donkomura
0
280
散らばったトレースを繋げる技術
donkomura
1
810
ウォンテッドリーのインフラチームに加わってみて
donkomura
0
240
AWS CLI で気軽にコスト改善やってみた
donkomura
1
260
入門 KRR
donkomura
0
350
Other Decks in Technology
See All in Technology
We Built for Predictability; The Workloads Didn’t Care
stahnma
0
130
Frontier Agents (Kiro autonomous agent / AWS Security Agent / AWS DevOps Agent) の紹介
msysh
3
140
Claude_CodeでSEOを最適化する_AI_Ops_Community_Vol.2__マーケティングx_AIはここまで進化した.pdf
riku_423
2
420
usermode linux without MMU - fosdem2026 kernel devroom
thehajime
0
210
Bill One急成長の舞台裏 開発組織が直面した失敗と教訓
sansantech
PRO
1
270
仕様書駆動AI開発の実践: Issue→Skill→PRテンプレで 再現性を作る
knishioka
2
580
なぜ今、コスト最適化(倹約)が必要なのか? ~AWSでのコスト最適化の進め方「目的編」~
htan
1
110
2人で作ったAIダッシュボードが、開発組織の次の一手を照らした話― Cursor × SpecKit × 可視化の実践 ― Qiita AI Summit
noalisaai
1
370
SREのプラクティスを用いた3領域同時 マネジメントへの挑戦 〜SRE・情シス・セキュリティを統合した チーム運営術〜
coconala_engineer
2
570
AzureでのIaC - Bicep? Terraform? それ早く言ってよ会議
torumakabe
1
170
オープンウェイトのLLMリランカーを契約書で評価する / searchtechjp
sansan_randd
3
650
データの整合性を保ちたいだけなんだ
shoheimitani
7
2.9k
Featured
See All Featured
Fashionably flexible responsive web design (full day workshop)
malarkey
408
66k
Applied NLP in the Age of Generative AI
inesmontani
PRO
4
2k
Rebuilding a faster, lazier Slack
samanthasiow
85
9.4k
[RailsConf 2023] Rails as a piece of cake
palkan
59
6.3k
Ecommerce SEO: The Keys for Success Now & Beyond - #SERPConf2024
aleyda
1
1.8k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
320
Primal Persuasion: How to Engage the Brain for Learning That Lasts
tmiket
0
240
We Have a Design System, Now What?
morganepeng
54
8k
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
60
42k
HDC tutorial
michielstock
1
350
Embracing the Ebb and Flow
colly
88
5k
Transcript
© 2025 Wantedly, Inc. ウォンテッドリーのアラート設計と Datadog 移行での知見 Japan Datadog User
Group Meetup#12 Aug.20 2025 - Kazuki Obata (@donkomura)
© 2025 Wantedly, Inc. ⾃⼰紹介 • Wantedly, inc (2024-09 ~)
• Infra Squad #k8s #分散システム #ストレージ #ボルダリング 巨畠 和樹 (Obata Kazuki)
© 2025 Wantedly, Inc. 話すこと • アラート運⽤を設計しておく ◦ アラート移⾏‧棚卸しがスムーズに •
移⾏は実装を⾒直すチャンス ◦ 細かな調整が効く Datadog の良いところ‧つまづきポイント
© 2025 Wantedly, Inc. 01 ウォンテッドリーの監視・アラート運用の変遷 02 アラートの指針 03 New
Relic → Datadog 移行中の問題とその対応 04 まとめ 目次
© 2025 Wantedly, Inc. ウォンテッドリーの監視・アラート運用 の変遷 01
© 2025 Wantedly, Inc. ウォンテッドリーの監視‧アラート運⽤の変遷 2012 Heroku から AWS に移⾏
Datadog の利⽤を開始 サービス開始 インフラは Heroku 2014 2016 2018 2020 2022 2024 マイクロサービス化 Kubernetes の運⽤を開始 全サービスが Kubernetes 上に デバッグの難しさ解消のため APM を導⼊ Amazon EKS に移⾏ サービスの集約検討を開始 SLO 基盤と APM を Datadog に移⾏ APM の利⽤を拡⼤ Logs による SLO 基盤検証 「Wantedly での Datadog 活用事例」p10
© 2025 Wantedly, Inc. • New Relic でアプリケーションを監視 • 2014年:Datadog
をインフラ監視に採⽤ • 2018〜2023年:アプリケーション監視基盤の混在期 ◦ 2018年:APM の導⼊、分散トレーシングの整備 ◦ 2020年:Logs による SLO 基盤の検証 ◦ 2021年:アラート疲れ問題が顕在化、改善プロジェクト始動 i. 後述のアラート設計‧運⽤ポリシーを定めた ◦ 2022年:モニタリング‧オブザーバビリティ基盤の⾒直し • 2024年:Datadogに統⼀移⾏、アプリ‧インフラ監視の⼀元化 ウォンテッドリーの監視・アラート運用の変遷 アラート設計の起点
© 2025 Wantedly, Inc. アラートの指針 02
© 2025 Wantedly, Inc. アラートの指針 アラートの分類 • PagerDuty で通知、#war_room で緊急対応
• エンドユーザーに直接影響が出るもの • アラートチャンネルに通知、各チームで対応 • 事業を継続するための社内業務に著しく影響が出るもの • 対応が必要なアプリケーションメトリクス • 対応が必要なインフラストラクチャメトリクス • 参考程度のアラート • 対応が必要ないインフラメトリクス
© 2025 Wantedly, Inc. アラートの指針 • Runbook の整備‧影響範囲の可視化 ◦ GitHub
repository で⼀括管理 i. 急ぎのものや対応が定まっていないものはアラートに直接書いている ii. coverage で拡充できているかの評価 ◦ APM の Service Map を活⽤して関連するサービスの可視化 • PagerDuty の Open/Close で計測、記録 ◦ MTTR が計測可能に • アラート対応の振り返りはポストモーテムで実施 アラートそのもの以外の仕組み化
© 2025 Wantedly, Inc. Datadog 移行でうまくいったこと・いか なかったこと 03
© 2025 Wantedly, Inc. Datadog 移⾏でうまくいったこと‧いかなかったこと 2012 Heroku から AWS
に移⾏ Datadog の利⽤を開始 サービス開始 インフラは Heroku 2014 2016 2018 2020 2022 2024 マイクロサービス化 Kubernetes の運⽤を開始 全サービスが Kubernetes 上に デバッグの難しさ解消のため APM を導⼊ Amazon EKS に移⾏ サービスの集約検討を開始 SLO 基盤と APM を Datadog に移⾏ APM の利⽤を拡⼤ Logs による SLO 基盤検証 New Relic → Datadog 移⾏
© 2025 Wantedly, Inc. Datadog 移⾏でうまくいったこと‧いかなかったこと • エンドユーザーに直接影響が出るものは優先度⾼く移⾏ ◦ 重要サービスのメトリクス
• Datadog と New Relic で重複していたものは廃⽌ ◦ SLO Burn rate alert に移⾏したものもある 👍 ポリシーの再確認、アラートの整理
© 2025 Wantedly, Inc. Datadog 移⾏でうまくいったこと‧いかなかったこと • 👎 New Relic
のアラートと同じものを Datadog で実装できない ◦ e.g. エラーレート‧レイテンシアラート ◦ APM ベースのアラートではサンプリングされてしまう • 👎 設定ミスもあった ◦ Datadog では設定が前提なので New Relic のようにレールに乗れない 移⾏で⾒えてきた問題
© 2025 Wantedly, Inc. Datadog 移⾏でうまくいったこと‧いかなかったこと • サンプリングされていないメトリクスで評価することができた ✅トレースメトリクスなどを駆使してアラートを設定
© 2025 Wantedly, Inc. 設定ミスへの対応 • 平均値での閾値設定 ◦ ⼀部の異常が埋もれる ◦
対策:最⼩値(min)集計でフラッピング抑制 • as_count() + avg() 使⽤で平滑化 ◦ 本来のピークを検知できない ◦ 対策:as_rate() による評価を使う ✅ うるさい‧静かなアラートへの対応 https://docs.datadoghq.com/ja/monitors/guide/as-count-in-monitor-evaluations/
© 2025 Wantedly, Inc. まとめ 04
© 2025 Wantedly, Inc. まとめ • アラート運⽤を設計しておく ◦ アラートの棚卸しがスムーズになる ◦
通知先、対応フローを仕組み化‧可視化 • 移⾏は実装を⾒直すチャンス ◦ 細かな調整がしやすい ◦ 誤ると正常に監視できなくなるので注意
© 2025 Wantedly, Inc. 宣伝 We are hiring! https://www.wantedly.com/projects/522096
© 2025 Wantedly, Inc. 宣伝 ⽣成AIのイベントやります [09-17(⽔)] #wantedly_tn