Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Datadog Live Tokyo 2025登壇資料

Datadog Live Tokyo 2025登壇資料

Avatar for 株式会社ヌーラボ

株式会社ヌーラボ PRO

February 18, 2026
Tweet

More Decks by 株式会社ヌーラボ

Other Decks in Technology

Transcript

  1. 3 本日の内容 監視ツールの乱立が もたらす「見えない壁」 Datadog 導入による 「情報の集約」と「体験の向上」 課題 解決 実現

    SRE との「共創」による 文化醸成 本セッションの構成: • 前半パート (吉岩): Datadog 導入前の課題と導入の判断軸について • 後半パート (二橋): Datadog 導入前後の具体的な変化と今後への展望 前半パートのポイント:
  2. 4 ヌーラボについて • 創業21周年 • NULL + LAB = NULAB

    ◦ 無の状態から有を創り出す「研究所」のような会社 • 福岡を拠点に世界へ広がるヌーラボオフィス ◦ リモートワーク / コアレスフレックス / 多様な労働スタイルに理解のある職場 ◦ General Meeting (社員総会) で集結することも
  3. 6 ヌーラボの開発組織 • サービス開発部 ◦ プロダクトの価値創造を担当 ◦ プロダクトの機能で分割された少人数の 開発チームの集合 •

    Reliability Engineering 部 ◦ 信頼性を軸にして顧客体験と開発者体験 の継続的な向上を担当 ◦ プロダクトごとの SRE チーム (少人数・ 分散) ◦ 横断的な Platform Engineering チ ーム ◦ 顧客接点の CRE チーム
  4. 11 開発者体験の悪化 学習・認知コストの深刻な問題: • 複数ツールの異なる UI・クエリ言語習得負担 • コンテキストスイッチによる認知負荷の増大 運用効率への継続的な影響: •

    問題調査時の情報収集に要する時間ロス • 本来の価値創造活動への集中阻害 課題: オブザーバビリティと開発者体験の「見えない壁」
  5. 12 まとめ: 分断した監視環境がもたらす組織への影響 根本原因からの連鎖的影響: • 分断した監視環境 → 情報のサイロ化 + 開発者体験の悪化

    → 組織全体の生産 性低下 • インシデント対応能力の限界による顧客満足度への懸念 • エンジニアのモチベーション低下リスク 解決の必要性: 根本原因である監視環境の分断を解決する統合的アプローチが必要 課題: オブザーバビリティと開発者体験の「見えない壁」
  6. 14 なぜ Datadog だったのか 解決への挑戦: Datadog 導入という選択 • 分散した監視情報を1つ のプラットフォームに集約

    • 組織全体の運用効率向上 とスケーラビリティ確保 • 複数ツール維持にかかる 運用工数、学習コスト、イ ンシデント対応遅延といっ た TCO (総保有コスト) を削減 • エンジニアの価値創造活 動への投資効果を最大化 統合性による 運用効率の向上 TCO 削減と ROI 最大化を 重視した判断 長期的な組織成長への対応 • 新ツール追加ではなく、1 つのプラットフォームでの 機能拡張 • 成長に伴う監視対象増加 への合理的なアプローチ
  7. 17 なぜ SRE との協働が不可欠だったのか 現場の専門知見の重要性: • 日々システムと向き合う SRE チームの課題感・ニーズが最も的確 トップダウンではない協働アプローチ:

    • Platform Engineering チームだけでは見えない課題の吸い上げ • 共に解決策を模索する「共創」による納得感と主体性の醸成 実現の鍵: SRE との「共創」
  8. 18 協働が生んだ「成果」と「学び」 共通理解の醸成: • トライアル初期の戸惑いを経て、目的・使い方に関する丁寧な共通理解形成の重 要性を再認識 持続可能な推進力の確立: • SRE チーム内に

    Datadog 活用を積極的に推進する「チャンピオン」が出現 • オブザーバビリティ文化浸透の大きな推進力に 実現の鍵: SRE との「共創」
  9. 19 協働の具体的なプロセス Platform Engineering チームの戦略的役割 導入計画策定と PoC (概念実証) のリード 標準ガイドライン作成とトレーニング提供

    実現の鍵: SRE との「共創」 SRE チームの実践的役割 現場ニーズの提供と実業務での機能評価 ユースケース発見と知見共有 継続的なコミュニケーション ミーティングでの継続的な情報交換 トライアル環境での主体的な検証促進 実効性のある導入の実現
  10. 20 導入から発展への取り組み 外部コミュニティとの連携 ユーザーコミュニティとの継続的な知見交換 ベストプラクティスの組織内展開による運用改善 実現の鍵: SRE との「共創」 ベンダーサポートの戦略的活用 ベンダートレーニング

    (Enablement+) による 組織的なスキル向上 継続的な学習サイクル 外部知見の内部プロセスへの統合 チーム間の知識格差解消と標準化推進 組織的な学習文化の醸成
  11. 22 まとめ ここまでの振り返り: • Platform Engineer の視点から見た導入背景と協働プロセス • なぜ Datadog

    を選び、どのように SRE と連携したか この先の内容: • 実際に Datadog を日常業務で活用している SRE の生の声 • 導入前後での具体的な変化と今後への期待 • Product SRE の二橋にバトンタッチ
  12. 二橋宣友 (@futahashi) Product SRE @ Nulab Inc. 趣味・関心 • Datadog

    / AWS / Infrastructure 称号 • 2022 & 2023 APN AWS Top Engineers (Software) • 2023 Japan AWS All Certifications Engineers
  13. 26 困難な状況 推進体制と私の状況 体制: • ヌーラボ製品基盤のProduct SREは1人 • 異動して1年未満 •

    Platform Engineering チームと密に連 携 兼務状況: • Tech Lead業務 • 30+のAWSアカウントの統制管理 • 複数のSMEの推進 (FinOps、Security Shift Left、CI/CD) • 別プロダクトのProduct SREのLead Platform Engineering ヌーラボの組織文化
  14. 29 実践と成果①Datadogの迅速な導入 • 19人日 で 11年 の長期運用プロダクトの監視システムの移行を実現 • 早さの要因 AWS/K8s連携

    1人日 APM 3人日 Metrics 8人日 Log 2人日 Dashboard 2人日 Monitor 3人日 Integration が秀逸 公式ドキュメント/サポート の質が高い Platform Engineering チームの支援
  15. 30 実践と成果②最適なオブザーバビリティへの期待と確信 ヌーラボのシステム特性: • Amazon EKS、クラウドネイティブ • プロダクト連携のエコシステム • セキュリティやコスト要件の高度化

    Datadogが適合する理由: • 専用画面でのK8sの深い洞察 • システム横断の高度な可観測性 • 多様な要件への包括的な対応 引用元: https://docs.datadoghq.com/
  16. 31 実践と成果③調査効率と技術的課題解決への貢献 調査プロセスの変革: • 調査プロセスが明確に定まっていない • 状況把握や調査に時間を要する • 複数のツールを使い分ける •

    サービスカタログ起点からのドリルダウン • 表現力の高いダッシュボードで効率化 • 単一のツールで完結 引用元: https://docs.datadoghq.com/ JDKのバージョンアップの影響調査: • パフォーマンスの比較 • エラーレートの比較
  17. 32 実践と成果④クラウド料金の最適化 • 年間 1532万円+ の削減を 3人日 で実現 ◦ Cloud

    Cost Managementの活用 ◦ K8sのコンピューティングリソース洞察 ◦ AWSリソースの最適化の提案 • FinOps推進への貢献を確信 普及しやすい操作性 と料金体系 容易な分析と可視化 AWSのマルチアカウント のコストを統制管理 引用元: https://docs.datadoghq.com/
  18. 34 • あらゆる情報が1箇所に 集約され横断的な調査が できる点が高評価 • (5.00/5.00点) • Error Trackingによる

    迅速な問題特定 • キャッシュ設定変更時の 傾向調査 • 膨大なログを迅速に調査 開発者の声 All-in-One の利便性の実感 積み重なる 成功体験 調査効率と品質向上 への強い期待 • システムの安定性・品質 向上 に「大いに貢献す る」と強い期待 • (4.25/5.00点)。