Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Datadogとともにオブザーバビリティを布教しよう
Search
mego2221
February 11, 2025
Technology
0
200
Datadogとともにオブザーバビリティを布教しよう
システムの可視化と最適化をDatadogと学ぶ
https://rosca.connpass.com/event/344126/
mego2221
February 11, 2025
Tweet
Share
More Decks by mego2221
See All by mego2221
とっさのサーバトラブルもこれで大丈夫! Linuxコマンドの使い方とポイント ~入門編~
mego2221
0
130
インフラエンジニアのはじめかた
mego2221
0
150
Other Decks in Technology
See All in Technology
CDK CLIで使ってたあの機能、CDK Toolkit Libraryではどうやるの?
smt7174
4
190
20250913_JAWS_sysad_kobe
takuyay0ne
2
250
データ分析エージェント Socrates の育て方
na0
6
2.2k
企業の生成AIガバナンスにおけるエージェントとセキュリティ
lycorptech_jp
PRO
2
190
まずはマネコンでちゃちゃっと作ってから、それをCDKにしてみよか。
yamada_r
2
120
DroidKaigi 2025 Androidエンジニアとしてのキャリア
mhidaka
2
380
株式会社ログラス - 会社説明資料【エンジニア】/ Loglass Engineer
loglass2019
4
65k
ブロックテーマ時代における、テーマの CSS について考える Toro_Unit / 2025.09.13 @ Shinshu WordPress Meetup
torounit
0
130
会社紹介資料 / Sansan Company Profile
sansan33
PRO
6
380k
初めてAWSを使うときのセキュリティ覚書〜初心者支部編〜
cmusudakeisuke
1
280
フルカイテン株式会社 エンジニア向け採用資料
fullkaiten
0
8.8k
2025/09/16 仕様駆動開発とAI-DLCが導くAI駆動開発の新フェーズ
masahiro_okamura
0
130
Featured
See All Featured
Code Reviewing Like a Champion
maltzj
525
40k
Embracing the Ebb and Flow
colly
87
4.8k
A better future with KSS
kneath
239
17k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.1k
VelocityConf: Rendering Performance Case Studies
addyosmani
332
24k
Building Better People: How to give real-time feedback that sticks.
wjessup
368
19k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
48
9.7k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
7
850
Building a Modern Day E-commerce SEO Strategy
aleyda
43
7.6k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
GitHub's CSS Performance
jonrohan
1032
460k
Building Adaptive Systems
keathley
43
2.7k
Transcript
Datadogでオブザーバビリティを布教しよう
2 © iCARE Co., Ltd. 自己紹介 • めぐろ(id: mego2221) •
株式会社iCARE SREチーム • 経歴 ◦ MSPの会社でサーバ監視/運用/構築を経験 ▪ インフラエンジニア 10年 ◦ 昨年iCAREにジョイン ▪ SRE 2年
3 © iCARE Co., Ltd. 今日話すこと • どうやってDatadogに関して学んだか • どうやってオブザーバビリティを布教したか
モニタリングツールとの関わり
5 © iCARE Co., Ltd. モニタリングツールとの関わり • 前職のMSPでは案件ごとにツールが違う • 現職ではDatadogを中心にした構成
◦ 2022年にDatadogを導入 ▪ Logs/APM/Monitors/Metrics/etc..
6 © iCARE Co., Ltd. Nagios CloudWatch Datadog サーバへSSH CloudWatchLogs
S3 Datadog ログ メトリクス Grafana CloudWatch Datadog 監視 前職 現職 ツールの比較
7 © iCARE Co., Ltd. Datadogに関するキャッチアップ • 各種設定を確認 ◦ Monitors(監視)はすべての項目を確認
• Monitorsの見直し ◦ 不要な監視の削除 ◦ Priorityの見直し ◦ 対応フロー(ドキュメント)の整備 • Datadog Learning Centerを利用
8 © iCARE Co., Ltd. Datadog Learning Centerについて • Datadogの機能をハンズオンで学べるサービス
• なんと無料
9 © iCARE Co., Ltd. 社内での使われ方の調査 • アンケート • Datadogに関する社内ドキュメントの分析
• Datadogダッシュボードの利用状況 ◦ POPULARITYを参考
10 © iCARE Co., Ltd. 見えてきた課題 • Datadogの使われ方がまちまち ◦ 使いこなしている人/ほぼ使わない人で分かれる
• ダッシュボードが利用されていない ◦ インフラのリソース確認がほとんど ◦ 開発チームに適したダッシュボードが少ない • オブザーバビリティに対する理解度も個人に依存している ダッシュボードを活用してオブザーバビリティを浸透させたい
オブザーバビリティについて
12 © iCARE Co., Ltd. なぜオブザーバビリティ? • システム・サービスの状況把握に必要不可欠 • 障害の影響範囲をすぐに把握できる
• 開発チームもパフォーマンス改善の判断がしやすくなる • Dickersonの信頼性の階層構造で最も強固であると説明
13 © iCARE Co., Ltd. Dickersonの信頼性の階層構造 • システムの信頼性を支える要素をピラミッド構造で表したもの • 下の層が脆弱だと、上の層も崩れやすい
• 最も強固な基盤が「オブザーバビリティ」 ◦ 観測できなければ改善もできない ※引用元: O'Reilly Japan SREをはじめよう
実施したこと
15 © iCARE Co., Ltd. ドキュメントの整備 • 社内のDatadogの仕様をドキュメント化 ◦ 有効にしている機能/よく使う機能の手順
• 過去にSREチームへ相談をもらったことをドキュメント化 ◦ ログ/Traceの調査方法 ◦ ボトルネックの調査方法 ◦ APMの使い方/見方
16 © iCARE Co., Ltd. Datadog勉強会の開催 • Datadogの概要からダッシュボード作りのハンズオンを実施 • ダッシュボードは今後も作ってもらうためにテンプレートを用意
17 © iCARE Co., Ltd. リリース時のサポート • 大規模なリリースが控えていたのでSREチームがサポート ◦ 負荷テスト時のパフォーマンス確認
◦ リリース手順のレビュー ◦ ダッシュボードの作成 • ダッシュボード ◦ リリース前後で比較しやすいような構成 ◦ 見るべきところや参考リンクなどをダッシュボードに記載
18 © iCARE Co., Ltd. 効果 取り組み 効果 ドキュメントの整備 SREチームへの依存度を減らし、属人化を解消
Datadog勉強会の開催 Datadogの理解が広がり、会社全体で活用できるようになった Datadogに対する苦手意識の解消 リリース時のサポート 🚀安定したリリースを実現し、トラブル発生時の対応スピードを向上 📊客観的なデータをもとに「安全なリリース」であることを説明できる
今後
20 © iCARE Co., Ltd. SLI/SLOの見直し • 過去に設定しており、現状にあっていない ◦ 長期的に見直しが行えておらず形骸化している
• CUJ(クリティカルユーザージャニー)をもとにSLI/SLOの見直しを行いたい ◦ CUJはユーザーがサービスを利用する際の最も重要で頻繁に行われる一連の操作や体験の こと • CUJ自体の見直しも必要なので、チームの垣根を超えて策定する必要がある
21 © iCARE Co., Ltd. Datadog SLOの活用 • Datadogから提供されている •
比較的容易に設定可能 ◦ SLO達成率の可視化 ◦ SLO違反時のアラート設定 ◦ エラーバジェットの管理
22 © iCARE Co., Ltd. さいごに • iCARE入社とSREエンジニアのキャリアがちょうど1年経過したのでDatadogの活用方法とオブ ザーバビリティの布教活動を紹介しました •
発表で気になることがあれば、お気軽にXや勉強会で声をかけてくれると嬉しいです! ◦ 直近の勉強会: 2/26 Japan Datadog User Group Meetup#7 ▪ https://datadog-jp.connpass.com/event/343144/ ◦ X: mego2221 ▪ https://x.com/mego2221
Thank You