Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Datadogとともにオブザーバビリティを布教しよう

mego2221
February 11, 2025

 Datadogとともにオブザーバビリティを布教しよう

システムの可視化と最適化をDatadogと学ぶ
https://rosca.connpass.com/event/344126/

mego2221

February 11, 2025
Tweet

More Decks by mego2221

Other Decks in Technology

Transcript

  1. 2 © iCARE Co., Ltd.
 自己紹介 • めぐろ(id: mego2221) •

    株式会社iCARE SREチーム • 経歴 ◦ MSPの会社でサーバ監視/運用/構築を経験 ▪ インフラエンジニア 10年 ◦ 昨年iCAREにジョイン ▪ SRE 2年
  2. 6 © iCARE Co., Ltd.
 Nagios CloudWatch Datadog サーバへSSH CloudWatchLogs

    S3 Datadog ログ メトリクス Grafana CloudWatch Datadog 監視 前職 現職 ツールの比較
  3. 7 © iCARE Co., Ltd.
 Datadogに関するキャッチアップ • 各種設定を確認 ◦ Monitors(監視)はすべての項目を確認

    • Monitorsの見直し ◦ 不要な監視の削除 ◦ Priorityの見直し ◦ 対応フロー(ドキュメント)の整備 • Datadog Learning Centerを利用
  4. 10 © iCARE Co., Ltd.
 見えてきた課題 • Datadogの使われ方がまちまち ◦ 使いこなしている人/ほぼ使わない人で分かれる

    • ダッシュボードが利用されていない ◦ インフラのリソース確認がほとんど ◦ 開発チームに適したダッシュボードが少ない • オブザーバビリティに対する理解度も個人に依存している ダッシュボードを活用してオブザーバビリティを浸透させたい
  5. 12 © iCARE Co., Ltd.
 なぜオブザーバビリティ? • システム・サービスの状況把握に必要不可欠 • 障害の影響範囲をすぐに把握できる

    • 開発チームもパフォーマンス改善の判断がしやすくなる • Dickersonの信頼性の階層構造で最も強固であると説明
  6. 13 © iCARE Co., Ltd.
 Dickersonの信頼性の階層構造 • システムの信頼性を支える要素をピラミッド構造で表したもの • 下の層が脆弱だと、上の層も崩れやすい

    • 最も強固な基盤が「オブザーバビリティ」 ◦ 観測できなければ改善もできない ※引用元: O'Reilly Japan SREをはじめよう
  7. 15 © iCARE Co., Ltd.
 ドキュメントの整備 • 社内のDatadogの仕様をドキュメント化 ◦ 有効にしている機能/よく使う機能の手順

    • 過去にSREチームへ相談をもらったことをドキュメント化 ◦ ログ/Traceの調査方法 ◦ ボトルネックの調査方法 ◦ APMの使い方/見方
  8. 17 © iCARE Co., Ltd.
 リリース時のサポート • 大規模なリリースが控えていたのでSREチームがサポート ◦ 負荷テスト時のパフォーマンス確認

    ◦ リリース手順のレビュー ◦ ダッシュボードの作成 • ダッシュボード ◦ リリース前後で比較しやすいような構成 ◦ 見るべきところや参考リンクなどをダッシュボードに記載
  9. 18 © iCARE Co., Ltd.
 効果 取り組み 効果 ドキュメントの整備 󰞵SREチームへの依存度を減らし、属人化を解消

    Datadog勉強会の開催 󰞵Datadogの理解が広がり、会社全体で活用できるようになった 󰠁Datadogに対する苦手意識の解消 リリース時のサポート 🚀安定したリリースを実現し、トラブル発生時の対応スピードを向上 📊客観的なデータをもとに「安全なリリース」であることを説明できる
  10. 20 © iCARE Co., Ltd.
 SLI/SLOの見直し • 過去に設定しており、現状にあっていない ◦ 長期的に見直しが行えておらず形骸化している

    • CUJ(クリティカルユーザージャニー)をもとにSLI/SLOの見直しを行いたい ◦ CUJはユーザーがサービスを利用する際の最も重要で頻繁に行われる一連の操作や体験の こと • CUJ自体の見直しも必要なので、チームの垣根を超えて策定する必要がある
  11. 21 © iCARE Co., Ltd.
 Datadog SLOの活用 • Datadogから提供されている •

    比較的容易に設定可能 ◦ SLO達成率の可視化 ◦ SLO違反時のアラート設定 ◦ エラーバジェットの管理
  12. 22 © iCARE Co., Ltd.
 さいごに • iCARE入社とSREエンジニアのキャリアがちょうど1年経過したのでDatadogの活用方法とオブ ザーバビリティの布教活動を紹介しました •

    発表で気になることがあれば、お気軽にXや勉強会で声をかけてくれると嬉しいです! ◦ 直近の勉強会: 2/26 Japan Datadog User Group Meetup#7 ▪ https://datadog-jp.connpass.com/event/343144/ ◦ X: mego2221 ▪ https://x.com/mego2221