Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
リクルートのサービスが動くオンプレミス環境の監視をDatadogへ刷新した話
Search
Recruit Technologies
January 22, 2019
Technology
0
1.3k
リクルートのサービスが動くオンプレミス環境の監視をDatadogへ刷新した話
20190122 Datadogはじめました!での、北野の講演資料になります
Recruit Technologies
January 22, 2019
Tweet
Share
More Decks by Recruit Technologies
See All by Recruit Technologies
障害はチャンスだ! 障害を前向きに捉える
rtechkouhou
1
730
Flutter移行の苦労と、乗り越えた先に得られたもの
rtechkouhou
3
12k
ここ数年間のタウンワークiOSアプリのエンジニアのチャレンジ
rtechkouhou
1
1.6k
大規模環境をAWS Transit Gatewayで設計/移行する前に考える3つのポイントと移行への挑戦
rtechkouhou
1
1.9k
【61期 新人BootCamp】TOC入門
rtechkouhou
3
42k
【RTC新人研修 】 TPS
rtechkouhou
1
41k
Android Boot Camp 2020
rtechkouhou
0
41k
HTML/CSS
rtechkouhou
10
51k
TypeScript Bootcamp 2020
rtechkouhou
9
46k
Other Decks in Technology
See All in Technology
日本Rubyの会: これまでとこれから
snoozer05
PRO
3
150
文字列の並び順 / Unicode Collation
tmtms
3
610
会社紹介資料 / Sansan Company Profile
sansan33
PRO
11
390k
ActiveJobUpdates
igaiga
1
140
AWSを使う上で最低限知っておきたいセキュリティ研修を社内で実施した話 ~みんなでやるセキュリティ~
maimyyym
2
1.8k
Bedrock AgentCore Memoryの新機能 (Episode) を試してみた / try Bedrock AgentCore Memory Episodic functionarity
hoshi7_n
0
190
[デモです] NotebookLM で作ったスライドの例
kongmingstrap
0
160
生成AIを利用するだけでなく、投資できる組織へ / Becoming an Organization That Invests in GenAI
kaminashi
0
110
ExpoのインダストリーブースでみたAWSが見せる製造業の未来
hamadakoji
0
150
GitHub Copilotを使いこなす 実例に学ぶAIコーディング活用術
74th
3
3.5k
Identity Management for Agentic AI 解説
fujie
0
110
Lookerで実現するセキュアな外部データ提供
zozotech
PRO
0
170
Featured
See All Featured
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
128
54k
Navigating Weather and Climate Data
rabernat
0
42
Statistics for Hackers
jakevdp
799
230k
Tell your own story through comics
letsgokoyo
0
740
Believing is Seeing
oripsolob
0
8
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3k
Agile that works and the tools we love
rasmusluckow
331
21k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
32
2.8k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3.2k
The Illustrated Children's Guide to Kubernetes
chrisshort
51
51k
Building Applications with DynamoDB
mza
96
6.8k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
231
22k
Transcript
リクルートのサービスが動く オンプレミス環境の監視を Datadogへ刷新した話 リクルートテクノロジーズ 北野太郎
自己紹介 北野 太郎 • 会社 リクルートテクノロジーズ ITエンジニアリング本部 SRE部 所属 •
業務 リクルートインフラでSREやってます • 著書 DevOps導入指南 Apache Solr入門(旧版) @ITでも何個か書いてます
創業 1960年3月31日 「大学新聞広告社」としてスタート グループ 従業員数 40,152名 (2018年3月31日時点) 連結売上高 21,733億円 (2017年4月1日~2018年3月31日)
連結経常利益 1,917億円 (2017年4月1日~2018年3月31日) グループ 関連企業数 361社 (連結対象子会社・2018年3月31日時点) 目指す世界観 「あなた」を支える存在でありたい リクルートグループについて
リクルートの事業内容について ライフイベント領域 進学 就職 結婚 転職 住宅購入 車購入 出産/育児 旅行
ビジネス支援 生活/地域情報 グルメ・美容 ライフスタイル領域 選択・意思決定を支援する情報サービスを提供し、 「まだ、ここにない、出会い。」を実現する。
リクルート ホールディングス リクルートキャリア リクルート住まいカンパニー リクルートライフスタイル リクルートジョブズ リクルートマーケティングパートナーズ リクルートテクノロジーズ リクルートスタッフィング スタッフサービス・ホールディングス
リクルートコミュニケーションズ メディア & ソリューション事業 (株)リクルート 人材派遣事業 Recruit Global Staffing B.V. HRテクノロジ― 事業 RGF OHR USA, Inc. その他海外派遣グループ会社 Indeed,Inc. リクルートテクノロジーズは、リクルートグループの IT・ネットマーケティング領域のテクノロジー開発を担う会社です。 リクルートグループにおけるリクルートについて
リクルートのサービスを支える オンプレミス基盤 • リクルートが提供する主要なWebサービスの大半は オンプレミス基盤上で稼働 • 監視・モニタリングは全サービスで5年以上、 全サービスで共通の仕組みを利用 このインフラの監視を1年でDatadogへ刷新したお話をします
従来の監視の問題点 • 人力でのアラート検知と通知(最大6h遅延) • 粒度の粗いモニタリング(5分間隔) • メトリクスによっては1日後になるものも • 毎回手作業での監視設定 •
設計と設定の乖離 • Excel管理と実機にズレ • 個別カスタマイズ不可 • 全サービス共通設定により管理コストは下がったが新しいミドルウェアの 監視に対応できない …というか、問題だらけだった
Datadogに注目したポイント (先述の問題の解消を前提として) • グローバルでシェアがトレンドにある • SaaS (監視そのものに注力したくない) • 今後の様々な変化に自動で追従してくれそう •
SlackなどIntegrationも豊富 他にも様々な理由でDatadogを選定
切り替えた結果どうだったか? • PagerDutyと繋げることでアラートを即通知 • Datadogが自動的に粒度の細かいメトリクスを取得 • カスタマイズもIntegrationと組み合わせて実現可能 • Terraformと組み合わせて監視設定のコード化、展開可能に 当初の問題を全てDatadog+αが解決してくれた
一方で大変だったこと: ログ監視 Log Managementの利用を(一旦)諦め、独自開発のdogstreamを dd-agent v5で利用しています 従来の複雑すぎる要件をDatadogに持っていけない 1. ◯◯という文字列を監視 2.
××という文字列があれば除外 3. 条件は正規表現で記載 4. 平日だけ監視。土日は監視しない 5. △△という文字列があればどの監視であっても無条件に除外 6. monitor条件を上から評価し、合致したところで終了 7. 1行最大40万文字のログ監視
一方で大変だったこと: 温かみのある監 視からの脱却 そもそもそれを是とする風潮と徹底的に戦った • その監視で担保できるものは本当にあるのか • 代わりの監視でなんとかならないか 切り替えを期に、一部監視を見直した 人間が介在し、よしなに判断してくれる監視を
そのままDatadogで実現できない • 不意のアラートでも「とりあえず無視しておいてください」で済んだ → 今は容赦なく電話がかかってくる • 「エラー発生後n分以内に復旧報が来たら連絡なし、来なかったら連絡」 という要件 → compositeでできなくはないが…
まとめ • 従来の監視/モニタリングの負が軒並み払拭できた • まだまだ気になる(使っていない)機能はたくさんあるので、監 視はもっと良くなりそう • APM/Log Management/Anomaly, Forecast…
• 切り替え優先で、監視の見直しや再定義は行えていないので、 より効率化していきたい Datadogの導入により、監視のレベルは大幅アップ!