Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Datadog GPU Monitoring で実現する GPU 監視 / datadog-...

Datadog GPU Monitoring で実現する GPU 監視 / datadog-gpu-monitoring

Avatar for Annosuke Yokoo

Annosuke Yokoo

February 06, 2026
Tweet

More Decks by Annosuke Yokoo

Other Decks in Technology

Transcript

  1. 2 自己紹介 Annosuke Yokoo(横尾杏之介) Datadog - Sales Engineer X :

    @866mfs Awards : Google Cloud Partner Top Engineer 2025 Fellow Community : Jagu'e'r オブザーバビリティ分科会 Oraganizer Interest : Sauna 🧖 / Cloud Native 🚢 / SRE Agent 🔭 X で Datadog の最新情報を(気まぐれで)呟く Bot やってます Scan Me 👇
  2. ❏ 内容 ◦ GPU Monitoring がなぜ必要なのか ◦ Datadog GPU Monitoring

    でなにが出来るのか ❏ ゴール ◦ GPU Monitoring で見るべきメトリクスを知る ◦ Datadog GPU Monitoring で出来ることを知る 3 今日話すこと
  3. 4 GPU Monitoring が必要な背景 • Datadog's State of Cloud Costs

    2024 Report によると、GPU への平均支出はクラウド支 出全体の10% を占めており、前年比で40%増加⇧ • 多くの顧客は、今後数年で GPU 支出が2〜5倍に増加⇧すると予想しており、 これは機械学習ベースの機能を本番環境へ移行する動きが加速しているため • 「シンプルに GPU を Monitoring する環境を構成・運用するのが大変だよね」 というのもある...
  4. 5 なぜ GPU 監視が必要なのか? • 大前提!この半導体不足の時代において、 GPU は資産的価値がある 💵 ◦

    A100 80GB : 約 200万 〜 350万円 ◦ H100 80GB : 約 450万 〜 600万円 • GPU を使用したソフトウェア監視だけでなく、 GPU 自体のハードウェア監視も同様に重要(特にオンプレ環 境) • GPU の過熱や損傷を防ぎ、ハードウェア障害を減らしてハードウェアの寿命を延ばすことがインパクトの あるコスト最適化 になる • GPU のプロアクティブな監視により、コストのかかる交換やダウンタイムのリスクが軽減 ◦ GPU 交換のダウンタイムは長い ... ▪ 前職時代に オンプレ環境の GPU が過熱により死んで、数週間のダウンタイム発生したとき はつらかった...
  5. GPU 監視で見るべき項目 項目 メトリクス なぜ必要か / 効果 ❶ 利用率・リソース使用状況 ・GPU

    使用率 ・Memory 使用率 ・Memory 帯域幅の使用率 ・クロック速度( SM クロック) GPUがどの程度使われているかを把握する 👉ボトルネックの検出や GPU 未活用の把握が 可能となり、コスト効率のよい利用につながる ❷ スロットリング ・アイドルコスト ・ECC(エラーシグナル) ・高温による制限 ・ソフトウェアによる電力制限 パフォーマンス低下の原因 👉 ソフト、ハード共に制限をかけ GPU の過熱 や損傷を防ぐ ❸ 熱・電力・冷却 ・GPU 温度 ・現在の消費電力 ・ファン回転速度 ハードウェアの健全性維持と故障予防に必須 👉 GPU は高価な資産 . ハードウェア障害を未 然に防ぐ ❹ システム情報( Metadata) ・GPU モデル名 ・ドライバーバージョン トラブルシューティング・リソース管理
  6. Company Highlights 企業情報ハイライト 2010 ニューヨークにて創業 33 事業展開している国 6,500 グローバルの従業員数 non-GAAPベースの研究開発投資比率

    28% 30,000 エンタープライズのお客様社数 Datadogの統合基盤上で 提供されている製品群 23 Datadog 製品を製品以上に お使いのお客様 83% $2.68B (+26%) サブスクリプションの 年間経常売上 (ガイダンス) 2019年9月19日 NASDAQに上場 (DDOG) クラウド時代の モニタリング&セキュリティ プラットフォーム Datadogとは S&P 500 銘柄に追加! (2025/7/9)
  7. Secure Analyze Cloud Service Management Cloud Service Management • Incident

    Management • Case Management • Service Catalog • Resource Catalog • Workflow Automation • App Builder Monitor & Operate Optimize Software Delivery • RUM • RUM Heatmap/ Clickmap/ Scrollmap • Mobile App Testing • Session Replay • Cloud Security Mgmt • Application Security Mgmt • Cloud SIEM • Software Composition Analysis • Sensitive Data Scanner • Infra Monitoring • Network Monitoring • APM • Synthetics • Log Mgmt • Universal Service Monitoring • Observability Pipelines • LLM Observability • Continuous Profiler • Database Monitoring • Data Streams Monitoring • Cloud Cost Mgmt • Data Jobs Monitoring • CI Visibility • Intelligent Test Runner • Continuous Testing • Test Visibility Business Run Business Dev Monitor Operate Optimize Code Ship Test Understand Users Support Users Understand Business Run Secure 9 Datadog のオブザーバビリティ全体像
  8. ① GPU Fleet-Level View GPU デバイスが過小利用されている • GPU 使用率は高いけど、SM がうまく使われていない

    • つまり「ワークロードが非効率」 ◦ プロファイリング ◦ CUDAカーネルのチューニング ◦ 並列設計の改善 GPU デバイスが非効率 • GPU 動いているけど、効果的に使用されていない • SM の多くがアイドル状態となっている • つまり「コスト効率が悪い」 ◦ プロファイリング ◦ 計算処理中心のワークロードに再設計する
  9. 18 Datadog GPU Monitoring Setup Preview • 従来であれば、GPU Metrics の取得には

    NVIDIA DCGM Exporter を使用するのが一 般的だった • eBPF の仕組みを使用することで、Datadog Agent のみで GPU Metrics を取得可能 • Datadog Agent が取得できる GPU Metrics は公開されている https://github.com/DataDog/integrations-core/tree/master/gpu
  10. 19 Datadog GPU Monitoring Setup Preview • 従来であれば、GPU Metrics の取得には

    NVIDIA DCGM Exporter を使用するのが一 般的だった • eBPF の仕組みを使用することで、Datadog Agent のみで GPU Metrics を取得可能 • Datadog Agent が取得できる GPU Metrics は公開されている https://github.com/DataDog/integrations-core/tree/master/gpu GPU Monitoring が気になったら ぜひお近くの Datadog 担当者に🗣󰢧
  11. ❏ 内容 ◦ GPU Monitoring がなぜ必要なのか ▶ GPU は資産なので高価なものを早期に失わないためにも監視が大切 ◦

    Datadog GPU Monitoring でなにが出来るのか ▶ GPU メトリクスの監視だけでなく、その先の「どうすればよいか」のインサイ トまで見れる ▶ GPU 周辺リソースの監視まで Datadog で一元的に可能 20 まとめ