Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Datadogとともにオブザーバビリティを布教しよう
Search
mego2221
February 11, 2025
Technology
0
200
Datadogとともにオブザーバビリティを布教しよう
システムの可視化と最適化をDatadogと学ぶ
https://rosca.connpass.com/event/344126/
mego2221
February 11, 2025
Tweet
Share
More Decks by mego2221
See All by mego2221
とっさのサーバトラブルもこれで大丈夫! Linuxコマンドの使い方とポイント ~入門編~
mego2221
0
130
インフラエンジニアのはじめかた
mego2221
0
150
Other Decks in Technology
See All in Technology
AIエージェントは「使う」だけじゃなくて「作る」時代! 〜最新フレームワークで楽しく開発入門しよう〜
minorun365
PRO
5
870
kotlin-lsp の開発開始に触発されて、Emacs で Kotlin 開発に挑戦した記録 / kotlin‑lsp as a Catalyst: My Journey to Kotlin Development in Emacs
nabeo
2
330
AWS re:Invent 2025事前勉強会資料 / AWS re:Invent 2025 pre study meetup
kinunori
0
1.1k
AIでデータ活用を加速させる取り組み / Leveraging AI to accelerate data utilization
okiyuki99
6
1.8k
Copilotの精度を上げる!カスタムプロンプト入門.pdf
ismk
3
560
プロダクト開発と社内データ活用での、BI×AIの現在地 / Data_Findy
sansan_randd
1
820
[Journal club] Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces
keio_smilab
PRO
0
120
InsightX 会社説明資料/ Company deck
insightx
0
200
触れるけど壊れないWordPressの作り方
masakawai
0
680
abema-trace-sampling-observability-cost-optimization
tetsuya28
0
480
Spec Driven Development入門/spec_driven_development_for_learners
hanhan1978
1
660
[AWS 秋のオブザーバビリティ祭り 2025 〜最新アップデートと生成 AI × オブザーバビリティ〜] Amazon Bedrock AgentCore で実現!お手軽 AI エージェントオブザーバビリティ
0nihajim
1
360
Featured
See All Featured
Practical Orchestrator
shlominoach
190
11k
Visualization
eitanlees
150
16k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
130k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
127
54k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
10
640
The Illustrated Children's Guide to Kubernetes
chrisshort
51
51k
Code Review Best Practice
trishagee
72
19k
Building Adaptive Systems
keathley
44
2.8k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
34
2.3k
Building a Modern Day E-commerce SEO Strategy
aleyda
44
8k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.1k
What's in a price? How to price your products and services
michaelherold
246
12k
Transcript
Datadogでオブザーバビリティを布教しよう
2 © iCARE Co., Ltd. 自己紹介 • めぐろ(id: mego2221) •
株式会社iCARE SREチーム • 経歴 ◦ MSPの会社でサーバ監視/運用/構築を経験 ▪ インフラエンジニア 10年 ◦ 昨年iCAREにジョイン ▪ SRE 2年
3 © iCARE Co., Ltd. 今日話すこと • どうやってDatadogに関して学んだか • どうやってオブザーバビリティを布教したか
モニタリングツールとの関わり
5 © iCARE Co., Ltd. モニタリングツールとの関わり • 前職のMSPでは案件ごとにツールが違う • 現職ではDatadogを中心にした構成
◦ 2022年にDatadogを導入 ▪ Logs/APM/Monitors/Metrics/etc..
6 © iCARE Co., Ltd. Nagios CloudWatch Datadog サーバへSSH CloudWatchLogs
S3 Datadog ログ メトリクス Grafana CloudWatch Datadog 監視 前職 現職 ツールの比較
7 © iCARE Co., Ltd. Datadogに関するキャッチアップ • 各種設定を確認 ◦ Monitors(監視)はすべての項目を確認
• Monitorsの見直し ◦ 不要な監視の削除 ◦ Priorityの見直し ◦ 対応フロー(ドキュメント)の整備 • Datadog Learning Centerを利用
8 © iCARE Co., Ltd. Datadog Learning Centerについて • Datadogの機能をハンズオンで学べるサービス
• なんと無料
9 © iCARE Co., Ltd. 社内での使われ方の調査 • アンケート • Datadogに関する社内ドキュメントの分析
• Datadogダッシュボードの利用状況 ◦ POPULARITYを参考
10 © iCARE Co., Ltd. 見えてきた課題 • Datadogの使われ方がまちまち ◦ 使いこなしている人/ほぼ使わない人で分かれる
• ダッシュボードが利用されていない ◦ インフラのリソース確認がほとんど ◦ 開発チームに適したダッシュボードが少ない • オブザーバビリティに対する理解度も個人に依存している ダッシュボードを活用してオブザーバビリティを浸透させたい
オブザーバビリティについて
12 © iCARE Co., Ltd. なぜオブザーバビリティ? • システム・サービスの状況把握に必要不可欠 • 障害の影響範囲をすぐに把握できる
• 開発チームもパフォーマンス改善の判断がしやすくなる • Dickersonの信頼性の階層構造で最も強固であると説明
13 © iCARE Co., Ltd. Dickersonの信頼性の階層構造 • システムの信頼性を支える要素をピラミッド構造で表したもの • 下の層が脆弱だと、上の層も崩れやすい
• 最も強固な基盤が「オブザーバビリティ」 ◦ 観測できなければ改善もできない ※引用元: O'Reilly Japan SREをはじめよう
実施したこと
15 © iCARE Co., Ltd. ドキュメントの整備 • 社内のDatadogの仕様をドキュメント化 ◦ 有効にしている機能/よく使う機能の手順
• 過去にSREチームへ相談をもらったことをドキュメント化 ◦ ログ/Traceの調査方法 ◦ ボトルネックの調査方法 ◦ APMの使い方/見方
16 © iCARE Co., Ltd. Datadog勉強会の開催 • Datadogの概要からダッシュボード作りのハンズオンを実施 • ダッシュボードは今後も作ってもらうためにテンプレートを用意
17 © iCARE Co., Ltd. リリース時のサポート • 大規模なリリースが控えていたのでSREチームがサポート ◦ 負荷テスト時のパフォーマンス確認
◦ リリース手順のレビュー ◦ ダッシュボードの作成 • ダッシュボード ◦ リリース前後で比較しやすいような構成 ◦ 見るべきところや参考リンクなどをダッシュボードに記載
18 © iCARE Co., Ltd. 効果 取り組み 効果 ドキュメントの整備 SREチームへの依存度を減らし、属人化を解消
Datadog勉強会の開催 Datadogの理解が広がり、会社全体で活用できるようになった Datadogに対する苦手意識の解消 リリース時のサポート 🚀安定したリリースを実現し、トラブル発生時の対応スピードを向上 📊客観的なデータをもとに「安全なリリース」であることを説明できる
今後
20 © iCARE Co., Ltd. SLI/SLOの見直し • 過去に設定しており、現状にあっていない ◦ 長期的に見直しが行えておらず形骸化している
• CUJ(クリティカルユーザージャニー)をもとにSLI/SLOの見直しを行いたい ◦ CUJはユーザーがサービスを利用する際の最も重要で頻繁に行われる一連の操作や体験の こと • CUJ自体の見直しも必要なので、チームの垣根を超えて策定する必要がある
21 © iCARE Co., Ltd. Datadog SLOの活用 • Datadogから提供されている •
比較的容易に設定可能 ◦ SLO達成率の可視化 ◦ SLO違反時のアラート設定 ◦ エラーバジェットの管理
22 © iCARE Co., Ltd. さいごに • iCARE入社とSREエンジニアのキャリアがちょうど1年経過したのでDatadogの活用方法とオブ ザーバビリティの布教活動を紹介しました •
発表で気になることがあれば、お気軽にXや勉強会で声をかけてくれると嬉しいです! ◦ 直近の勉強会: 2/26 Japan Datadog User Group Meetup#7 ▪ https://datadog-jp.connpass.com/event/343144/ ◦ X: mego2221 ▪ https://x.com/mego2221
Thank You