Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
リクルートのサービスが動くオンプレミス環境の監視をDatadogへ刷新した話
Search
Recruit Technologies
January 22, 2019
Technology
0
1.3k
リクルートのサービスが動くオンプレミス環境の監視をDatadogへ刷新した話
20190122 Datadogはじめました!での、北野の講演資料になります
Recruit Technologies
January 22, 2019
Tweet
Share
More Decks by Recruit Technologies
See All by Recruit Technologies
障害はチャンスだ! 障害を前向きに捉える
rtechkouhou
1
720
Flutter移行の苦労と、乗り越えた先に得られたもの
rtechkouhou
3
12k
ここ数年間のタウンワークiOSアプリのエンジニアのチャレンジ
rtechkouhou
1
1.5k
大規模環境をAWS Transit Gatewayで設計/移行する前に考える3つのポイントと移行への挑戦
rtechkouhou
1
1.9k
【61期 新人BootCamp】TOC入門
rtechkouhou
3
42k
【RTC新人研修 】 TPS
rtechkouhou
1
41k
Android Boot Camp 2020
rtechkouhou
0
41k
HTML/CSS
rtechkouhou
10
51k
TypeScript Bootcamp 2020
rtechkouhou
9
46k
Other Decks in Technology
See All in Technology
Sansan Engineering Unit 紹介資料
sansan33
PRO
1
3k
Performance Insights 廃止から Database Insights 利用へ/transition-from-performance-insights-to-database-insights
emiki
0
320
Bill One 開発エンジニア 紹介資料
sansan33
PRO
4
14k
AI Agent Dojo #2 watsonx Orchestrateフローの作成
oniak3ibm
PRO
0
130
React19.2のuseEffectEventを追う
maguroalternative
2
520
WEBサービスを成り立たせるAWSサービス
takano0131
1
180
プレーリーカードを活用しよう❗❗デジタル名刺交換からはじまるイベント会場交流のススメ
tsukaman
0
190
事業開発におけるDify活用事例
kentarofujii
3
710
リセラー企業のテクサポ担当が考える、生成 AI 時代のトラブルシュート 2025
kazzpapa3
1
370
これがLambdaレス時代のChatOpsだ!実例で学ぶAmazon Q Developerカスタムアクション活用法
iwamot
PRO
8
1.1k
Claude Code Subagents 再入門 ~cc-sddの実装で学んだこと~
gotalab555
10
16k
ソースを読むプロセスの例
sat
PRO
15
9.4k
Featured
See All Featured
Code Reviewing Like a Champion
maltzj
526
40k
How To Stay Up To Date on Web Technology
chriscoyier
791
250k
Building Better People: How to give real-time feedback that sticks.
wjessup
369
20k
Building a Modern Day E-commerce SEO Strategy
aleyda
44
7.8k
How to Ace a Technical Interview
jacobian
280
24k
BBQ
matthewcrist
89
9.8k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.4k
Mobile First: as difficult as doing things right
swwweet
225
10k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
620
Java REST API Framework Comparison - PWX 2021
mraible
34
8.9k
What's in a price? How to price your products and services
michaelherold
246
12k
Git: the NoSQL Database
bkeepers
PRO
431
66k
Transcript
リクルートのサービスが動く オンプレミス環境の監視を Datadogへ刷新した話 リクルートテクノロジーズ 北野太郎
自己紹介 北野 太郎 • 会社 リクルートテクノロジーズ ITエンジニアリング本部 SRE部 所属 •
業務 リクルートインフラでSREやってます • 著書 DevOps導入指南 Apache Solr入門(旧版) @ITでも何個か書いてます
創業 1960年3月31日 「大学新聞広告社」としてスタート グループ 従業員数 40,152名 (2018年3月31日時点) 連結売上高 21,733億円 (2017年4月1日~2018年3月31日)
連結経常利益 1,917億円 (2017年4月1日~2018年3月31日) グループ 関連企業数 361社 (連結対象子会社・2018年3月31日時点) 目指す世界観 「あなた」を支える存在でありたい リクルートグループについて
リクルートの事業内容について ライフイベント領域 進学 就職 結婚 転職 住宅購入 車購入 出産/育児 旅行
ビジネス支援 生活/地域情報 グルメ・美容 ライフスタイル領域 選択・意思決定を支援する情報サービスを提供し、 「まだ、ここにない、出会い。」を実現する。
リクルート ホールディングス リクルートキャリア リクルート住まいカンパニー リクルートライフスタイル リクルートジョブズ リクルートマーケティングパートナーズ リクルートテクノロジーズ リクルートスタッフィング スタッフサービス・ホールディングス
リクルートコミュニケーションズ メディア & ソリューション事業 (株)リクルート 人材派遣事業 Recruit Global Staffing B.V. HRテクノロジ― 事業 RGF OHR USA, Inc. その他海外派遣グループ会社 Indeed,Inc. リクルートテクノロジーズは、リクルートグループの IT・ネットマーケティング領域のテクノロジー開発を担う会社です。 リクルートグループにおけるリクルートについて
リクルートのサービスを支える オンプレミス基盤 • リクルートが提供する主要なWebサービスの大半は オンプレミス基盤上で稼働 • 監視・モニタリングは全サービスで5年以上、 全サービスで共通の仕組みを利用 このインフラの監視を1年でDatadogへ刷新したお話をします
従来の監視の問題点 • 人力でのアラート検知と通知(最大6h遅延) • 粒度の粗いモニタリング(5分間隔) • メトリクスによっては1日後になるものも • 毎回手作業での監視設定 •
設計と設定の乖離 • Excel管理と実機にズレ • 個別カスタマイズ不可 • 全サービス共通設定により管理コストは下がったが新しいミドルウェアの 監視に対応できない …というか、問題だらけだった
Datadogに注目したポイント (先述の問題の解消を前提として) • グローバルでシェアがトレンドにある • SaaS (監視そのものに注力したくない) • 今後の様々な変化に自動で追従してくれそう •
SlackなどIntegrationも豊富 他にも様々な理由でDatadogを選定
切り替えた結果どうだったか? • PagerDutyと繋げることでアラートを即通知 • Datadogが自動的に粒度の細かいメトリクスを取得 • カスタマイズもIntegrationと組み合わせて実現可能 • Terraformと組み合わせて監視設定のコード化、展開可能に 当初の問題を全てDatadog+αが解決してくれた
一方で大変だったこと: ログ監視 Log Managementの利用を(一旦)諦め、独自開発のdogstreamを dd-agent v5で利用しています 従来の複雑すぎる要件をDatadogに持っていけない 1. ◯◯という文字列を監視 2.
××という文字列があれば除外 3. 条件は正規表現で記載 4. 平日だけ監視。土日は監視しない 5. △△という文字列があればどの監視であっても無条件に除外 6. monitor条件を上から評価し、合致したところで終了 7. 1行最大40万文字のログ監視
一方で大変だったこと: 温かみのある監 視からの脱却 そもそもそれを是とする風潮と徹底的に戦った • その監視で担保できるものは本当にあるのか • 代わりの監視でなんとかならないか 切り替えを期に、一部監視を見直した 人間が介在し、よしなに判断してくれる監視を
そのままDatadogで実現できない • 不意のアラートでも「とりあえず無視しておいてください」で済んだ → 今は容赦なく電話がかかってくる • 「エラー発生後n分以内に復旧報が来たら連絡なし、来なかったら連絡」 という要件 → compositeでできなくはないが…
まとめ • 従来の監視/モニタリングの負が軒並み払拭できた • まだまだ気になる(使っていない)機能はたくさんあるので、監 視はもっと良くなりそう • APM/Log Management/Anomaly, Forecast…
• 切り替え優先で、監視の見直しや再定義は行えていないので、 より効率化していきたい Datadogの導入により、監視のレベルは大幅アップ!