Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
リクルートのサービスが動くオンプレミス環境の監視をDatadogへ刷新した話
Search
Recruit Technologies
January 22, 2019
Technology
0
1.2k
リクルートのサービスが動くオンプレミス環境の監視をDatadogへ刷新した話
20190122 Datadogはじめました!での、北野の講演資料になります
Recruit Technologies
January 22, 2019
Tweet
Share
More Decks by Recruit Technologies
See All by Recruit Technologies
障害はチャンスだ! 障害を前向きに捉える
rtechkouhou
1
640
Flutter移行の苦労と、乗り越えた先に得られたもの
rtechkouhou
3
11k
ここ数年間のタウンワークiOSアプリのエンジニアのチャレンジ
rtechkouhou
1
1.5k
大規模環境をAWS Transit Gatewayで設計/移行する前に考える3つのポイントと移行への挑戦
rtechkouhou
1
1.9k
【61期 新人BootCamp】TOC入門
rtechkouhou
3
41k
【RTC新人研修 】 TPS
rtechkouhou
1
41k
Android Boot Camp 2020
rtechkouhou
0
41k
HTML/CSS
rtechkouhou
10
50k
TypeScript Bootcamp 2020
rtechkouhou
9
45k
Other Decks in Technology
See All in Technology
【Pycon mini 東海 2024】Google Colaboratoryで試すVLM
kazuhitotakahashi
2
530
Adopting Jetpack Compose in Your Existing Project - GDG DevFest Bangkok 2024
akexorcist
0
110
B2B SaaSから見た最近のC#/.NETの進化
sansantech
PRO
0
880
Application Development WG Intro at AppDeveloperCon
salaboy
0
190
CysharpのOSS群から見るModern C#の現在地
neuecc
2
3.5k
EventHub Startup CTO of the year 2024 ピッチ資料
eventhub
0
120
Shopifyアプリ開発における Shopifyの機能活用
sonatard
4
250
Platform Engineering for Software Developers and Architects
syntasso
1
520
Python(PYNQ)がテーマのAMD主催のFPGAコンテストに参加してきた
iotengineer22
0
500
CDCL による厳密解法を採用した MILP ソルバー
imai448
3
110
これまでの計測・開発・デプロイ方法全部見せます! / Findy ISUCON 2024-11-14
tohutohu
3
370
いざ、BSC討伐の旅
nikinusu
2
780
Featured
See All Featured
Side Projects
sachag
452
42k
Bash Introduction
62gerente
608
210k
Done Done
chrislema
181
16k
The Art of Programming - Codeland 2020
erikaheidi
52
13k
Fantastic passwords and where to find them - at NoRuKo
philnash
50
2.9k
How to Ace a Technical Interview
jacobian
276
23k
Java REST API Framework Comparison - PWX 2021
mraible
PRO
28
8.2k
Why Our Code Smells
bkeepers
PRO
334
57k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
280
13k
How to train your dragon (web standard)
notwaldorf
88
5.7k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.1k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
0
97
Transcript
リクルートのサービスが動く オンプレミス環境の監視を Datadogへ刷新した話 リクルートテクノロジーズ 北野太郎
自己紹介 北野 太郎 • 会社 リクルートテクノロジーズ ITエンジニアリング本部 SRE部 所属 •
業務 リクルートインフラでSREやってます • 著書 DevOps導入指南 Apache Solr入門(旧版) @ITでも何個か書いてます
創業 1960年3月31日 「大学新聞広告社」としてスタート グループ 従業員数 40,152名 (2018年3月31日時点) 連結売上高 21,733億円 (2017年4月1日~2018年3月31日)
連結経常利益 1,917億円 (2017年4月1日~2018年3月31日) グループ 関連企業数 361社 (連結対象子会社・2018年3月31日時点) 目指す世界観 「あなた」を支える存在でありたい リクルートグループについて
リクルートの事業内容について ライフイベント領域 進学 就職 結婚 転職 住宅購入 車購入 出産/育児 旅行
ビジネス支援 生活/地域情報 グルメ・美容 ライフスタイル領域 選択・意思決定を支援する情報サービスを提供し、 「まだ、ここにない、出会い。」を実現する。
リクルート ホールディングス リクルートキャリア リクルート住まいカンパニー リクルートライフスタイル リクルートジョブズ リクルートマーケティングパートナーズ リクルートテクノロジーズ リクルートスタッフィング スタッフサービス・ホールディングス
リクルートコミュニケーションズ メディア & ソリューション事業 (株)リクルート 人材派遣事業 Recruit Global Staffing B.V. HRテクノロジ― 事業 RGF OHR USA, Inc. その他海外派遣グループ会社 Indeed,Inc. リクルートテクノロジーズは、リクルートグループの IT・ネットマーケティング領域のテクノロジー開発を担う会社です。 リクルートグループにおけるリクルートについて
リクルートのサービスを支える オンプレミス基盤 • リクルートが提供する主要なWebサービスの大半は オンプレミス基盤上で稼働 • 監視・モニタリングは全サービスで5年以上、 全サービスで共通の仕組みを利用 このインフラの監視を1年でDatadogへ刷新したお話をします
従来の監視の問題点 • 人力でのアラート検知と通知(最大6h遅延) • 粒度の粗いモニタリング(5分間隔) • メトリクスによっては1日後になるものも • 毎回手作業での監視設定 •
設計と設定の乖離 • Excel管理と実機にズレ • 個別カスタマイズ不可 • 全サービス共通設定により管理コストは下がったが新しいミドルウェアの 監視に対応できない …というか、問題だらけだった
Datadogに注目したポイント (先述の問題の解消を前提として) • グローバルでシェアがトレンドにある • SaaS (監視そのものに注力したくない) • 今後の様々な変化に自動で追従してくれそう •
SlackなどIntegrationも豊富 他にも様々な理由でDatadogを選定
切り替えた結果どうだったか? • PagerDutyと繋げることでアラートを即通知 • Datadogが自動的に粒度の細かいメトリクスを取得 • カスタマイズもIntegrationと組み合わせて実現可能 • Terraformと組み合わせて監視設定のコード化、展開可能に 当初の問題を全てDatadog+αが解決してくれた
一方で大変だったこと: ログ監視 Log Managementの利用を(一旦)諦め、独自開発のdogstreamを dd-agent v5で利用しています 従来の複雑すぎる要件をDatadogに持っていけない 1. ◯◯という文字列を監視 2.
××という文字列があれば除外 3. 条件は正規表現で記載 4. 平日だけ監視。土日は監視しない 5. △△という文字列があればどの監視であっても無条件に除外 6. monitor条件を上から評価し、合致したところで終了 7. 1行最大40万文字のログ監視
一方で大変だったこと: 温かみのある監 視からの脱却 そもそもそれを是とする風潮と徹底的に戦った • その監視で担保できるものは本当にあるのか • 代わりの監視でなんとかならないか 切り替えを期に、一部監視を見直した 人間が介在し、よしなに判断してくれる監視を
そのままDatadogで実現できない • 不意のアラートでも「とりあえず無視しておいてください」で済んだ → 今は容赦なく電話がかかってくる • 「エラー発生後n分以内に復旧報が来たら連絡なし、来なかったら連絡」 という要件 → compositeでできなくはないが…
まとめ • 従来の監視/モニタリングの負が軒並み払拭できた • まだまだ気になる(使っていない)機能はたくさんあるので、監 視はもっと良くなりそう • APM/Log Management/Anomaly, Forecast…
• 切り替え優先で、監視の見直しや再定義は行えていないので、 より効率化していきたい Datadogの導入により、監視のレベルは大幅アップ!