Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
リクルートのサービスが動くオンプレミス環境の監視をDatadogへ刷新した話
Search
Recruit Technologies
January 22, 2019
Technology
0
1.1k
リクルートのサービスが動くオンプレミス環境の監視をDatadogへ刷新した話
20190122 Datadogはじめました!での、北野の講演資料になります
Recruit Technologies
January 22, 2019
Tweet
Share
More Decks by Recruit Technologies
See All by Recruit Technologies
障害はチャンスだ! 障害を前向きに捉える
rtechkouhou
1
560
Flutter移行の苦労と、乗り越えた先に得られたもの
rtechkouhou
3
10k
ここ数年間のタウンワークiOSアプリのエンジニアのチャレンジ
rtechkouhou
1
1.4k
大規模環境をAWS Transit Gatewayで設計/移行する前に考える3つのポイントと移行への挑戦
rtechkouhou
1
1.8k
【61期 新人BootCamp】TOC入門
rtechkouhou
3
40k
【RTC新人研修 】 TPS
rtechkouhou
1
39k
Android Boot Camp 2020
rtechkouhou
0
40k
HTML/CSS
rtechkouhou
10
48k
TypeScript Bootcamp 2020
rtechkouhou
9
44k
Other Decks in Technology
See All in Technology
WebアプリケーションにおけるPDOの使い方入門 / phpcon odawara 2024
meihei3
2
430
Discord とビルダー&チャットボットの使い方 / How to use Discord and Builder & Chatbots
ks91
PRO
0
130
元インフラエンジニアに成る / Human Resources to Human Relations
bobtani
3
810
SPI原点回帰論:事業課題とFour Keysの結節点を見出す実践的ソフトウェアプロセス改善 / DevOpsDays Tokyo 2024
visional_engineering_and_design
4
1.6k
NgRx Signal Store
rainerhahnekamp
0
120
入社後初めてのタスクでk8sアップグレードした話.pdf
kkato1
1
380
Autonomous Database Cloud 技術詳細 / adb-s_technical_detail_jp
oracle4engineer
PRO
14
35k
"好き"との生活/Regularly update profile with GitHub Actions
judeeeee
0
150
AIQ株式会社 エンジニア向け会社紹介資料
aiqlab
0
370
キャラクター制御のためのプロンプト術 for LINE Bot
uezo
0
520
巨大なテーブルのテーブル定義を無停止で安全に誰でも変更できるようにする / Table-definitions-for-huge-tables-can-be-modified-by-anyone-safely-and-non-disruptively
freee
1
740
アプリがつくるNOT A HOTELブランド
hokuts
1
450
Featured
See All Featured
Ruby is Unlike a Banana
tanoku
96
10k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
60
14k
The Illustrated Children's Guide to Kubernetes
chrisshort
29
46k
Typedesign – Prime Four
hannesfritz
36
2.1k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
15
1.4k
Infographics Made Easy
chrislema
237
18k
What's in a price? How to price your products and services
michaelherold
237
11k
Gamification - CAS2011
davidbonilla
76
4.6k
The Art of Programming - Codeland 2020
erikaheidi
41
12k
RailsConf 2023
tenderlove
2
530
Debugging Ruby Performance
tmm1
70
11k
Optimizing for Happiness
mojombo
370
69k
Transcript
リクルートのサービスが動く オンプレミス環境の監視を Datadogへ刷新した話 リクルートテクノロジーズ 北野太郎
自己紹介 北野 太郎 • 会社 リクルートテクノロジーズ ITエンジニアリング本部 SRE部 所属 •
業務 リクルートインフラでSREやってます • 著書 DevOps導入指南 Apache Solr入門(旧版) @ITでも何個か書いてます
創業 1960年3月31日 「大学新聞広告社」としてスタート グループ 従業員数 40,152名 (2018年3月31日時点) 連結売上高 21,733億円 (2017年4月1日~2018年3月31日)
連結経常利益 1,917億円 (2017年4月1日~2018年3月31日) グループ 関連企業数 361社 (連結対象子会社・2018年3月31日時点) 目指す世界観 「あなた」を支える存在でありたい リクルートグループについて
リクルートの事業内容について ライフイベント領域 進学 就職 結婚 転職 住宅購入 車購入 出産/育児 旅行
ビジネス支援 生活/地域情報 グルメ・美容 ライフスタイル領域 選択・意思決定を支援する情報サービスを提供し、 「まだ、ここにない、出会い。」を実現する。
リクルート ホールディングス リクルートキャリア リクルート住まいカンパニー リクルートライフスタイル リクルートジョブズ リクルートマーケティングパートナーズ リクルートテクノロジーズ リクルートスタッフィング スタッフサービス・ホールディングス
リクルートコミュニケーションズ メディア & ソリューション事業 (株)リクルート 人材派遣事業 Recruit Global Staffing B.V. HRテクノロジ― 事業 RGF OHR USA, Inc. その他海外派遣グループ会社 Indeed,Inc. リクルートテクノロジーズは、リクルートグループの IT・ネットマーケティング領域のテクノロジー開発を担う会社です。 リクルートグループにおけるリクルートについて
リクルートのサービスを支える オンプレミス基盤 • リクルートが提供する主要なWebサービスの大半は オンプレミス基盤上で稼働 • 監視・モニタリングは全サービスで5年以上、 全サービスで共通の仕組みを利用 このインフラの監視を1年でDatadogへ刷新したお話をします
従来の監視の問題点 • 人力でのアラート検知と通知(最大6h遅延) • 粒度の粗いモニタリング(5分間隔) • メトリクスによっては1日後になるものも • 毎回手作業での監視設定 •
設計と設定の乖離 • Excel管理と実機にズレ • 個別カスタマイズ不可 • 全サービス共通設定により管理コストは下がったが新しいミドルウェアの 監視に対応できない …というか、問題だらけだった
Datadogに注目したポイント (先述の問題の解消を前提として) • グローバルでシェアがトレンドにある • SaaS (監視そのものに注力したくない) • 今後の様々な変化に自動で追従してくれそう •
SlackなどIntegrationも豊富 他にも様々な理由でDatadogを選定
切り替えた結果どうだったか? • PagerDutyと繋げることでアラートを即通知 • Datadogが自動的に粒度の細かいメトリクスを取得 • カスタマイズもIntegrationと組み合わせて実現可能 • Terraformと組み合わせて監視設定のコード化、展開可能に 当初の問題を全てDatadog+αが解決してくれた
一方で大変だったこと: ログ監視 Log Managementの利用を(一旦)諦め、独自開発のdogstreamを dd-agent v5で利用しています 従来の複雑すぎる要件をDatadogに持っていけない 1. ◯◯という文字列を監視 2.
××という文字列があれば除外 3. 条件は正規表現で記載 4. 平日だけ監視。土日は監視しない 5. △△という文字列があればどの監視であっても無条件に除外 6. monitor条件を上から評価し、合致したところで終了 7. 1行最大40万文字のログ監視
一方で大変だったこと: 温かみのある監 視からの脱却 そもそもそれを是とする風潮と徹底的に戦った • その監視で担保できるものは本当にあるのか • 代わりの監視でなんとかならないか 切り替えを期に、一部監視を見直した 人間が介在し、よしなに判断してくれる監視を
そのままDatadogで実現できない • 不意のアラートでも「とりあえず無視しておいてください」で済んだ → 今は容赦なく電話がかかってくる • 「エラー発生後n分以内に復旧報が来たら連絡なし、来なかったら連絡」 という要件 → compositeでできなくはないが…
まとめ • 従来の監視/モニタリングの負が軒並み払拭できた • まだまだ気になる(使っていない)機能はたくさんあるので、監 視はもっと良くなりそう • APM/Log Management/Anomaly, Forecast…
• 切り替え優先で、監視の見直しや再定義は行えていないので、 より効率化していきたい Datadogの導入により、監視のレベルは大幅アップ!