Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
リクルートのサービスが動くオンプレミス環境の監視をDatadogへ刷新した話
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Recruit Technologies
January 22, 2019
Technology
1.3k
0
Share
リクルートのサービスが動くオンプレミス環境の監視をDatadogへ刷新した話
20190122 Datadogはじめました!での、北野の講演資料になります
Recruit Technologies
January 22, 2019
More Decks by Recruit Technologies
See All by Recruit Technologies
障害はチャンスだ! 障害を前向きに捉える
rtechkouhou
1
770
Flutter移行の苦労と、乗り越えた先に得られたもの
rtechkouhou
3
12k
ここ数年間のタウンワークiOSアプリのエンジニアのチャレンジ
rtechkouhou
1
1.6k
大規模環境をAWS Transit Gatewayで設計/移行する前に考える3つのポイントと移行への挑戦
rtechkouhou
1
2k
【61期 新人BootCamp】TOC入門
rtechkouhou
3
42k
【RTC新人研修 】 TPS
rtechkouhou
1
42k
Android Boot Camp 2020
rtechkouhou
0
42k
HTML/CSS
rtechkouhou
10
52k
TypeScript Bootcamp 2020
rtechkouhou
9
46k
Other Decks in Technology
See All in Technology
20260515 OpenIDファウンデーション・ジャパンご紹介
oidfj
0
130
20260515 ⾃分のアカウントとプライバシーを守る認証と認可の話〜利⽤者向け〜
oidfj
0
660
20260515 ID管理は会社を守る大切な砦!〜🔰情シス向け〜
oidfj
0
600
Tachikawa.any 運営挨拶
daitasu
0
180
"スキルファースト"で作る、AIの自走環境
subroh0508
0
570
クラウドからエッジまで ~ 1,700台を支える監視設計~
optfit
0
110
ESP32 IoTを動かしながらメモリ使用量を観測してみた話
zozotech
PRO
0
140
PdM・Eng・QAで進めるAI駆動開発の現在地/aidd-with-pdm-eng-qa
shota_kusaba
0
250
「背中を見て育て」からの卒業 〜専門技術としてのテスト設計を軸に、品質保証のバトンを繋ぐ〜 #genda_tech_talk
nihonbuson
PRO
3
1.5k
ECSのTerraformモジュールにコントリビュートした話
harukasakihara
0
220
How to learn AWS Well-Architected with AWS BuilderCards: Security Edition
coosuke
PRO
0
150
Databricks 月刊サービスアップデートまとめ 2026年04月号
tyosi1212
0
130
Featured
See All Featured
WENDY [Excerpt]
tessaabrams
10
37k
What's in a price? How to price your products and services
michaelherold
247
13k
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.5k
SEO in 2025: How to Prepare for the Future of Search
ipullrank
3
3.4k
The Anti-SEO Checklist Checklist. Pubcon Cyber Week
ryanjones
0
140
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
16k
The Spectacular Lies of Maps
axbom
PRO
1
740
Mozcon NYC 2025: Stop Losing SEO Traffic
samtorres
0
230
Skip the Path - Find Your Career Trail
mkilby
1
120
Faster Mobile Websites
deanohume
310
31k
HTML-Aware ERB: The Path to Reactive Rendering @ RubyCon 2026, Rimini, Italy
marcoroth
1
49
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
Transcript
リクルートのサービスが動く オンプレミス環境の監視を Datadogへ刷新した話 リクルートテクノロジーズ 北野太郎
自己紹介 北野 太郎 • 会社 リクルートテクノロジーズ ITエンジニアリング本部 SRE部 所属 •
業務 リクルートインフラでSREやってます • 著書 DevOps導入指南 Apache Solr入門(旧版) @ITでも何個か書いてます
創業 1960年3月31日 「大学新聞広告社」としてスタート グループ 従業員数 40,152名 (2018年3月31日時点) 連結売上高 21,733億円 (2017年4月1日~2018年3月31日)
連結経常利益 1,917億円 (2017年4月1日~2018年3月31日) グループ 関連企業数 361社 (連結対象子会社・2018年3月31日時点) 目指す世界観 「あなた」を支える存在でありたい リクルートグループについて
リクルートの事業内容について ライフイベント領域 進学 就職 結婚 転職 住宅購入 車購入 出産/育児 旅行
ビジネス支援 生活/地域情報 グルメ・美容 ライフスタイル領域 選択・意思決定を支援する情報サービスを提供し、 「まだ、ここにない、出会い。」を実現する。
リクルート ホールディングス リクルートキャリア リクルート住まいカンパニー リクルートライフスタイル リクルートジョブズ リクルートマーケティングパートナーズ リクルートテクノロジーズ リクルートスタッフィング スタッフサービス・ホールディングス
リクルートコミュニケーションズ メディア & ソリューション事業 (株)リクルート 人材派遣事業 Recruit Global Staffing B.V. HRテクノロジ― 事業 RGF OHR USA, Inc. その他海外派遣グループ会社 Indeed,Inc. リクルートテクノロジーズは、リクルートグループの IT・ネットマーケティング領域のテクノロジー開発を担う会社です。 リクルートグループにおけるリクルートについて
リクルートのサービスを支える オンプレミス基盤 • リクルートが提供する主要なWebサービスの大半は オンプレミス基盤上で稼働 • 監視・モニタリングは全サービスで5年以上、 全サービスで共通の仕組みを利用 このインフラの監視を1年でDatadogへ刷新したお話をします
従来の監視の問題点 • 人力でのアラート検知と通知(最大6h遅延) • 粒度の粗いモニタリング(5分間隔) • メトリクスによっては1日後になるものも • 毎回手作業での監視設定 •
設計と設定の乖離 • Excel管理と実機にズレ • 個別カスタマイズ不可 • 全サービス共通設定により管理コストは下がったが新しいミドルウェアの 監視に対応できない …というか、問題だらけだった
Datadogに注目したポイント (先述の問題の解消を前提として) • グローバルでシェアがトレンドにある • SaaS (監視そのものに注力したくない) • 今後の様々な変化に自動で追従してくれそう •
SlackなどIntegrationも豊富 他にも様々な理由でDatadogを選定
切り替えた結果どうだったか? • PagerDutyと繋げることでアラートを即通知 • Datadogが自動的に粒度の細かいメトリクスを取得 • カスタマイズもIntegrationと組み合わせて実現可能 • Terraformと組み合わせて監視設定のコード化、展開可能に 当初の問題を全てDatadog+αが解決してくれた
一方で大変だったこと: ログ監視 Log Managementの利用を(一旦)諦め、独自開発のdogstreamを dd-agent v5で利用しています 従来の複雑すぎる要件をDatadogに持っていけない 1. ◯◯という文字列を監視 2.
××という文字列があれば除外 3. 条件は正規表現で記載 4. 平日だけ監視。土日は監視しない 5. △△という文字列があればどの監視であっても無条件に除外 6. monitor条件を上から評価し、合致したところで終了 7. 1行最大40万文字のログ監視
一方で大変だったこと: 温かみのある監 視からの脱却 そもそもそれを是とする風潮と徹底的に戦った • その監視で担保できるものは本当にあるのか • 代わりの監視でなんとかならないか 切り替えを期に、一部監視を見直した 人間が介在し、よしなに判断してくれる監視を
そのままDatadogで実現できない • 不意のアラートでも「とりあえず無視しておいてください」で済んだ → 今は容赦なく電話がかかってくる • 「エラー発生後n分以内に復旧報が来たら連絡なし、来なかったら連絡」 という要件 → compositeでできなくはないが…
まとめ • 従来の監視/モニタリングの負が軒並み払拭できた • まだまだ気になる(使っていない)機能はたくさんあるので、監 視はもっと良くなりそう • APM/Log Management/Anomaly, Forecast…
• 切り替え優先で、監視の見直しや再定義は行えていないので、 より効率化していきたい Datadogの導入により、監視のレベルは大幅アップ!