Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Datadogとともにオブザーバビリティを布教しよう
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
mego2221
February 11, 2025
Technology
220
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Datadogとともにオブザーバビリティを布教しよう
システムの可視化と最適化をDatadogと学ぶ
https://rosca.connpass.com/event/344126/
mego2221
February 11, 2025
More Decks by mego2221
See All by mego2221
とっさのサーバトラブルもこれで大丈夫! Linuxコマンドの使い方とポイント ~入門編~
mego2221
0
140
インフラエンジニアのはじめかた
mego2221
0
160
Other Decks in Technology
See All in Technology
ルールやカスタム機能、どう活かす?ハンズオンで体感するIBM Bobの出力コントロール
muehara
1
170
2026年6月23日 Syncable Tech + Start Python Club にて
hamukazu
0
120
2026TECHFRESH畢業分享會 - Lightning Talk - E起 See See : 電商推薦讀心術? 數據說了算
line_developers_tw
PRO
0
1.1k
自宅LLMの話
jacopen
1
600
Snowflakeと仲良くなる第一歩
coco_se
4
480
2026 TECHFRESH 畢業分享會 - AI-Native 重塑軟體工程與虛擬講師
line_developers_tw
PRO
0
1.1k
【NRUG vol.18】KubernetesにおけるNew Relicデータ取得量削減の考え方
nrug_member
0
140
Bucharest Tech Week 2026 - Reinventing testing practices in the AI era
edeandrea
PRO
1
160
AIの性能が向上しても未解決な組織の重大問題は何か?/An Unsolved Organizational Problem in the Age of AI
moriyuya
4
680
2026 TECHFRESH 畢業分享會 - 開發日常大解密!從領域驅動到企業級上線
line_developers_tw
PRO
0
1.1k
AI駆動開発を通して感じた、 AI時代のデザイナーの役割変化
whisaiyo
3
2.2k
小さくはじめるSLI/SLO ~育てながら組織に定着させる実践知~ / Starting Small with SLI/SLOs: Building Adoption Through Continuous Growth
nari_ex
7
2k
Featured
See All Featured
The Hidden Cost of Media on the Web [PixelPalooza 2025]
tammyeverts
2
330
Mind Mapping
helmedeiros
PRO
1
250
Leveraging Curiosity to Care for An Aging Population
cassininazir
1
270
AI: The stuff that nobody shows you
jnunemaker
PRO
8
710
Optimising Largest Contentful Paint
csswizardry
37
3.7k
<Decoding/> the Language of Devs - We Love SEO 2024
nikkihalliwell
1
240
30 Presentation Tips
portentint
PRO
1
320
KATA
mclloyd
PRO
35
15k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
10
1.2k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
38
2.9k
Ecommerce SEO: The Keys for Success Now & Beyond - #SERPConf2024
aleyda
1
2k
How to Talk to Developers About Accessibility
jct
2
230
Transcript
Datadogでオブザーバビリティを布教しよう
2 © iCARE Co., Ltd. 自己紹介 • めぐろ(id: mego2221) •
株式会社iCARE SREチーム • 経歴 ◦ MSPの会社でサーバ監視/運用/構築を経験 ▪ インフラエンジニア 10年 ◦ 昨年iCAREにジョイン ▪ SRE 2年
3 © iCARE Co., Ltd. 今日話すこと • どうやってDatadogに関して学んだか • どうやってオブザーバビリティを布教したか
モニタリングツールとの関わり
5 © iCARE Co., Ltd. モニタリングツールとの関わり • 前職のMSPでは案件ごとにツールが違う • 現職ではDatadogを中心にした構成
◦ 2022年にDatadogを導入 ▪ Logs/APM/Monitors/Metrics/etc..
6 © iCARE Co., Ltd. Nagios CloudWatch Datadog サーバへSSH CloudWatchLogs
S3 Datadog ログ メトリクス Grafana CloudWatch Datadog 監視 前職 現職 ツールの比較
7 © iCARE Co., Ltd. Datadogに関するキャッチアップ • 各種設定を確認 ◦ Monitors(監視)はすべての項目を確認
• Monitorsの見直し ◦ 不要な監視の削除 ◦ Priorityの見直し ◦ 対応フロー(ドキュメント)の整備 • Datadog Learning Centerを利用
8 © iCARE Co., Ltd. Datadog Learning Centerについて • Datadogの機能をハンズオンで学べるサービス
• なんと無料
9 © iCARE Co., Ltd. 社内での使われ方の調査 • アンケート • Datadogに関する社内ドキュメントの分析
• Datadogダッシュボードの利用状況 ◦ POPULARITYを参考
10 © iCARE Co., Ltd. 見えてきた課題 • Datadogの使われ方がまちまち ◦ 使いこなしている人/ほぼ使わない人で分かれる
• ダッシュボードが利用されていない ◦ インフラのリソース確認がほとんど ◦ 開発チームに適したダッシュボードが少ない • オブザーバビリティに対する理解度も個人に依存している ダッシュボードを活用してオブザーバビリティを浸透させたい
オブザーバビリティについて
12 © iCARE Co., Ltd. なぜオブザーバビリティ? • システム・サービスの状況把握に必要不可欠 • 障害の影響範囲をすぐに把握できる
• 開発チームもパフォーマンス改善の判断がしやすくなる • Dickersonの信頼性の階層構造で最も強固であると説明
13 © iCARE Co., Ltd. Dickersonの信頼性の階層構造 • システムの信頼性を支える要素をピラミッド構造で表したもの • 下の層が脆弱だと、上の層も崩れやすい
• 最も強固な基盤が「オブザーバビリティ」 ◦ 観測できなければ改善もできない ※引用元: O'Reilly Japan SREをはじめよう
実施したこと
15 © iCARE Co., Ltd. ドキュメントの整備 • 社内のDatadogの仕様をドキュメント化 ◦ 有効にしている機能/よく使う機能の手順
• 過去にSREチームへ相談をもらったことをドキュメント化 ◦ ログ/Traceの調査方法 ◦ ボトルネックの調査方法 ◦ APMの使い方/見方
16 © iCARE Co., Ltd. Datadog勉強会の開催 • Datadogの概要からダッシュボード作りのハンズオンを実施 • ダッシュボードは今後も作ってもらうためにテンプレートを用意
17 © iCARE Co., Ltd. リリース時のサポート • 大規模なリリースが控えていたのでSREチームがサポート ◦ 負荷テスト時のパフォーマンス確認
◦ リリース手順のレビュー ◦ ダッシュボードの作成 • ダッシュボード ◦ リリース前後で比較しやすいような構成 ◦ 見るべきところや参考リンクなどをダッシュボードに記載
18 © iCARE Co., Ltd. 効果 取り組み 効果 ドキュメントの整備 SREチームへの依存度を減らし、属人化を解消
Datadog勉強会の開催 Datadogの理解が広がり、会社全体で活用できるようになった Datadogに対する苦手意識の解消 リリース時のサポート 🚀安定したリリースを実現し、トラブル発生時の対応スピードを向上 📊客観的なデータをもとに「安全なリリース」であることを説明できる
今後
20 © iCARE Co., Ltd. SLI/SLOの見直し • 過去に設定しており、現状にあっていない ◦ 長期的に見直しが行えておらず形骸化している
• CUJ(クリティカルユーザージャニー)をもとにSLI/SLOの見直しを行いたい ◦ CUJはユーザーがサービスを利用する際の最も重要で頻繁に行われる一連の操作や体験の こと • CUJ自体の見直しも必要なので、チームの垣根を超えて策定する必要がある
21 © iCARE Co., Ltd. Datadog SLOの活用 • Datadogから提供されている •
比較的容易に設定可能 ◦ SLO達成率の可視化 ◦ SLO違反時のアラート設定 ◦ エラーバジェットの管理
22 © iCARE Co., Ltd. さいごに • iCARE入社とSREエンジニアのキャリアがちょうど1年経過したのでDatadogの活用方法とオブ ザーバビリティの布教活動を紹介しました •
発表で気になることがあれば、お気軽にXや勉強会で声をかけてくれると嬉しいです! ◦ 直近の勉強会: 2/26 Japan Datadog User Group Meetup#7 ▪ https://datadog-jp.connpass.com/event/343144/ ◦ X: mego2221 ▪ https://x.com/mego2221
Thank You