Slide 1

Slide 1 text

Datadogでオブザーバビリティを布教しよう

Slide 2

Slide 2 text

2 © iCARE Co., Ltd.
 自己紹介 ● めぐろ(id: mego2221) ● 株式会社iCARE SREチーム ● 経歴 ○ MSPの会社でサーバ監視/運用/構築を経験 ■ インフラエンジニア 10年 ○ 昨年iCAREにジョイン ■ SRE 2年

Slide 3

Slide 3 text

3 © iCARE Co., Ltd.
 今日話すこと ● どうやってDatadogに関して学んだか ● どうやってオブザーバビリティを布教したか

Slide 4

Slide 4 text

モニタリングツールとの関わり

Slide 5

Slide 5 text

5 © iCARE Co., Ltd.
 モニタリングツールとの関わり ● 前職のMSPでは案件ごとにツールが違う ● 現職ではDatadogを中心にした構成 ○ 2022年にDatadogを導入 ■ Logs/APM/Monitors/Metrics/etc..

Slide 6

Slide 6 text

6 © iCARE Co., Ltd.
 Nagios CloudWatch Datadog サーバへSSH CloudWatchLogs S3 Datadog ログ メトリクス Grafana CloudWatch Datadog 監視 前職 現職 ツールの比較

Slide 7

Slide 7 text

7 © iCARE Co., Ltd.
 Datadogに関するキャッチアップ ● 各種設定を確認 ○ Monitors(監視)はすべての項目を確認 ● Monitorsの見直し ○ 不要な監視の削除 ○ Priorityの見直し ○ 対応フロー(ドキュメント)の整備 ● Datadog Learning Centerを利用

Slide 8

Slide 8 text

8 © iCARE Co., Ltd.
 Datadog Learning Centerについて ● Datadogの機能をハンズオンで学べるサービス ● なんと無料

Slide 9

Slide 9 text

9 © iCARE Co., Ltd.
 社内での使われ方の調査 ● アンケート ● Datadogに関する社内ドキュメントの分析 ● Datadogダッシュボードの利用状況 ○ POPULARITYを参考

Slide 10

Slide 10 text

10 © iCARE Co., Ltd.
 見えてきた課題 ● Datadogの使われ方がまちまち ○ 使いこなしている人/ほぼ使わない人で分かれる ● ダッシュボードが利用されていない ○ インフラのリソース確認がほとんど ○ 開発チームに適したダッシュボードが少ない ● オブザーバビリティに対する理解度も個人に依存している ダッシュボードを活用してオブザーバビリティを浸透させたい

Slide 11

Slide 11 text

オブザーバビリティについて

Slide 12

Slide 12 text

12 © iCARE Co., Ltd.
 なぜオブザーバビリティ? ● システム・サービスの状況把握に必要不可欠 ● 障害の影響範囲をすぐに把握できる ● 開発チームもパフォーマンス改善の判断がしやすくなる ● Dickersonの信頼性の階層構造で最も強固であると説明

Slide 13

Slide 13 text

13 © iCARE Co., Ltd.
 Dickersonの信頼性の階層構造 ● システムの信頼性を支える要素をピラミッド構造で表したもの ● 下の層が脆弱だと、上の層も崩れやすい ● 最も強固な基盤が「オブザーバビリティ」 ○ 観測できなければ改善もできない ※引用元: O'Reilly Japan SREをはじめよう

Slide 14

Slide 14 text

実施したこと

Slide 15

Slide 15 text

15 © iCARE Co., Ltd.
 ドキュメントの整備 ● 社内のDatadogの仕様をドキュメント化 ○ 有効にしている機能/よく使う機能の手順 ● 過去にSREチームへ相談をもらったことをドキュメント化 ○ ログ/Traceの調査方法 ○ ボトルネックの調査方法 ○ APMの使い方/見方

Slide 16

Slide 16 text

16 © iCARE Co., Ltd.
 Datadog勉強会の開催 ● Datadogの概要からダッシュボード作りのハンズオンを実施 ● ダッシュボードは今後も作ってもらうためにテンプレートを用意

Slide 17

Slide 17 text

17 © iCARE Co., Ltd.
 リリース時のサポート ● 大規模なリリースが控えていたのでSREチームがサポート ○ 負荷テスト時のパフォーマンス確認 ○ リリース手順のレビュー ○ ダッシュボードの作成 ● ダッシュボード ○ リリース前後で比較しやすいような構成 ○ 見るべきところや参考リンクなどをダッシュボードに記載

Slide 18

Slide 18 text

18 © iCARE Co., Ltd.
 効果 取り組み 効果 ドキュメントの整備 󰞵SREチームへの依存度を減らし、属人化を解消 Datadog勉強会の開催 󰞵Datadogの理解が広がり、会社全体で活用できるようになった 󰠁Datadogに対する苦手意識の解消 リリース時のサポート 🚀安定したリリースを実現し、トラブル発生時の対応スピードを向上 📊客観的なデータをもとに「安全なリリース」であることを説明できる

Slide 19

Slide 19 text

今後

Slide 20

Slide 20 text

20 © iCARE Co., Ltd.
 SLI/SLOの見直し ● 過去に設定しており、現状にあっていない ○ 長期的に見直しが行えておらず形骸化している ● CUJ(クリティカルユーザージャニー)をもとにSLI/SLOの見直しを行いたい ○ CUJはユーザーがサービスを利用する際の最も重要で頻繁に行われる一連の操作や体験の こと ● CUJ自体の見直しも必要なので、チームの垣根を超えて策定する必要がある

Slide 21

Slide 21 text

21 © iCARE Co., Ltd.
 Datadog SLOの活用 ● Datadogから提供されている ● 比較的容易に設定可能 ○ SLO達成率の可視化 ○ SLO違反時のアラート設定 ○ エラーバジェットの管理

Slide 22

Slide 22 text

22 © iCARE Co., Ltd.
 さいごに ● iCARE入社とSREエンジニアのキャリアがちょうど1年経過したのでDatadogの活用方法とオブ ザーバビリティの布教活動を紹介しました ● 発表で気になることがあれば、お気軽にXや勉強会で声をかけてくれると嬉しいです! ○ 直近の勉強会: 2/26 Japan Datadog User Group Meetup#7 ■ https://datadog-jp.connpass.com/event/343144/ ○ X: mego2221 ■ https://x.com/mego2221

Slide 23

Slide 23 text

Thank You