Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Datadog GPU Monitoring で実現する GPU 監視 / datadog-...
Search
Annosuke Yokoo
February 06, 2026
Technology
35
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Datadog GPU Monitoring で実現する GPU 監視 / datadog-gpu-monitoring
Annosuke Yokoo
February 06, 2026
More Decks by Annosuke Yokoo
See All by Annosuke Yokoo
Bits AI SRE と Datadog MCP Server による未来 / datadog-bits-ai-sre-and-mcp-server-feature
parupappa2929
0
260
Datadog による AI エージェント オブザーバビリティの最前線 / Datadog-AI-Agent-observability
parupappa2929
1
600
今日から始める CI/CD Observability / CICD Observability for Google Cloud
parupappa2929
0
61
Software Delivery Observability ~ CI・CD , DORA metrics も Datadog で可視化しよう ~ / datadog-ci-cd-observability
parupappa2929
0
760
Helm , Kustomize に代わる !? 次世代 k8s パッケージマネージャー Glasskube 入門 / glasskube-entry
parupappa2929
0
900
持続可能なプラットフォーム目指す、Platform Engineering 支援 / Enabling Platform Engineering
parupappa2929
0
140
Why adopt GitOps with ArgoCD ?
parupappa2929
0
210
Google Cloud Next Tokyo’24 勝手にRecap コンテナ最新アップデート紹介 / google-cloud-next-recap-gke-cloud-run
parupappa2929
0
140
迅速に叶える、GKE Autopilot によるユニバーサルモダンアーキテクチャの実践/Rapidly Achieve Universal Modern Architecture with GKE Autopilot in Practice
parupappa2929
0
220
Other Decks in Technology
See All in Technology
Snowflakeと仲良くなる第一歩
coco_se
2
230
LLMにもCAP定理があるという話
harukasakihara
0
220
AIにフローを作らせようとして挫折した話
hamatsutaichi
0
240
サイバーセキュリティ概論 / Introduction to Cybersecurity
ks91
PRO
0
170
EventBridge Connection
_kensh
5
660
【Gen-AX】20260530開催_JJUG CCC 2026 Spring
genax
0
440
Terraformモジュールは、なぜ「魔境」化するのか
hayama17
2
220
Claude code Orchestra
ozakiomumkj
3
1k
MIERUNE JCT 発表資料「宇宙から伊能忠敬ごっこ」
syuchimu
0
190
非定型業務をAI slackbotで自動化する ~ 社内要望を自動壁打ちするbotを作った ~/automating-ad-hoc-work-with-ai-slackbot
shibayu36
0
500
NAB Show 2026 動画技術関連レポート / NAB Show 2026 Report
cyberagentdevelopers
PRO
0
120
中期計画、2回作ってみた ~業務委託と正社員、両方の視点から~
demaecan
1
400
Featured
See All Featured
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.5k
Designing Powerful Visuals for Engaging Learning
tmiket
1
400
Building the Perfect Custom Keyboard
takai
2
790
The Curse of the Amulet
leimatthew05
1
13k
New Earth Scene 8
popppiees
3
2.3k
Mozcon NYC 2025: Stop Losing SEO Traffic
samtorres
1
250
Side Projects
sachag
455
43k
Google's AI Overviews - The New Search
badams
0
1k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
jQuery: Nuts, Bolts and Bling
dougneiner
66
8.5k
Deep Space Network (abreviated)
tonyrice
0
170
Between Models and Reality
mayunak
4
330
Transcript
Datadog GPU Monitoring で実現する GPU 監視 2026/02/06 GPU UNITE 勉強会
- Annosuke Yokoo (@866mfs)
2 自己紹介 Annosuke Yokoo(横尾杏之介) Datadog - Sales Engineer X :
@866mfs Awards : Google Cloud Partner Top Engineer 2025 Fellow Community : Jagu'e'r オブザーバビリティ分科会 Oraganizer Interest : Sauna 🧖 / Cloud Native 🚢 / SRE Agent 🔭 X で Datadog の最新情報を(気まぐれで)呟く Bot やってます Scan Me 👇
❏ 内容 ◦ GPU Monitoring がなぜ必要なのか ◦ Datadog GPU Monitoring
でなにが出来るのか ❏ ゴール ◦ GPU Monitoring で見るべきメトリクスを知る ◦ Datadog GPU Monitoring で出来ることを知る 3 今日話すこと
4 GPU Monitoring が必要な背景 • Datadog's State of Cloud Costs
2024 Report によると、GPU への平均支出はクラウド支 出全体の10% を占めており、前年比で40%増加⇧ • 多くの顧客は、今後数年で GPU 支出が2〜5倍に増加⇧すると予想しており、 これは機械学習ベースの機能を本番環境へ移行する動きが加速しているため • 「シンプルに GPU を Monitoring する環境を構成・運用するのが大変だよね」 というのもある...
5 なぜ GPU 監視が必要なのか? • 大前提!この半導体不足の時代において、 GPU は資産的価値がある 💵 ◦
A100 80GB : 約 200万 〜 350万円 ◦ H100 80GB : 約 450万 〜 600万円 • GPU を使用したソフトウェア監視だけでなく、 GPU 自体のハードウェア監視も同様に重要(特にオンプレ環 境) • GPU の過熱や損傷を防ぎ、ハードウェア障害を減らしてハードウェアの寿命を延ばすことがインパクトの あるコスト最適化 になる • GPU のプロアクティブな監視により、コストのかかる交換やダウンタイムのリスクが軽減 ◦ GPU 交換のダウンタイムは長い ... ▪ 前職時代に オンプレ環境の GPU が過熱により死んで、数週間のダウンタイム発生したとき はつらかった...
GPU 監視で見るべき項目 項目 メトリクス なぜ必要か / 効果 ❶ 利用率・リソース使用状況 ・GPU
使用率 ・Memory 使用率 ・Memory 帯域幅の使用率 ・クロック速度( SM クロック) GPUがどの程度使われているかを把握する 👉ボトルネックの検出や GPU 未活用の把握が 可能となり、コスト効率のよい利用につながる ❷ スロットリング ・アイドルコスト ・ECC(エラーシグナル) ・高温による制限 ・ソフトウェアによる電力制限 パフォーマンス低下の原因 👉 ソフト、ハード共に制限をかけ GPU の過熱 や損傷を防ぐ ❸ 熱・電力・冷却 ・GPU 温度 ・現在の消費電力 ・ファン回転速度 ハードウェアの健全性維持と故障予防に必須 👉 GPU は高価な資産 . ハードウェア障害を未 然に防ぐ ❹ システム情報( Metadata) ・GPU モデル名 ・ドライバーバージョン トラブルシューティング・リソース管理
ここから Datadog の話になります 7
Company Highlights 企業情報ハイライト 2010 ニューヨークにて創業 33 事業展開している国 6,500 グローバルの従業員数 non-GAAPベースの研究開発投資比率
28% 30,000 エンタープライズのお客様社数 Datadogの統合基盤上で 提供されている製品群 23 Datadog 製品を製品以上に お使いのお客様 83% $2.68B (+26%) サブスクリプションの 年間経常売上 (ガイダンス) 2019年9月19日 NASDAQに上場 (DDOG) クラウド時代の モニタリング&セキュリティ プラットフォーム Datadogとは S&P 500 銘柄に追加! (2025/7/9)
Secure Analyze Cloud Service Management Cloud Service Management • Incident
Management • Case Management • Service Catalog • Resource Catalog • Workflow Automation • App Builder Monitor & Operate Optimize Software Delivery • RUM • RUM Heatmap/ Clickmap/ Scrollmap • Mobile App Testing • Session Replay • Cloud Security Mgmt • Application Security Mgmt • Cloud SIEM • Software Composition Analysis • Sensitive Data Scanner • Infra Monitoring • Network Monitoring • APM • Synthetics • Log Mgmt • Universal Service Monitoring • Observability Pipelines • LLM Observability • Continuous Profiler • Database Monitoring • Data Streams Monitoring • Cloud Cost Mgmt • Data Jobs Monitoring • CI Visibility • Intelligent Test Runner • Continuous Testing • Test Visibility Business Run Business Dev Monitor Operate Optimize Code Ship Test Understand Users Support Users Understand Business Run Secure 9 Datadog のオブザーバビリティ全体像
Datadog GPU Monitoring
11 Datadog GPU Monitoring Preview
12 Datadog GPU Monitoring Preview https://zenn.dev/datadog/articles/datadog-gpu-monitoring
① GPU Fleet-Level View
CORE の使用率が50% 以下になっている ① GPU Fleet-Level View
① GPU Fleet-Level View GPU デバイスが過小利用されている • GPU 使用率は高いけど、SM がうまく使われていない
• つまり「ワークロードが非効率」 ◦ プロファイリング ◦ CUDAカーネルのチューニング ◦ 並列設計の改善 GPU デバイスが非効率 • GPU 動いているけど、効果的に使用されていない • SM の多くがアイドル状態となっている • つまり「コスト効率が悪い」 ◦ プロファイリング ◦ 計算処理中心のワークロードに再設計する
② GPU Cost Allocation for Kubernetes Environments
③ DCGM Metrics / Slurm Metrics の監視
18 Datadog GPU Monitoring Setup Preview • 従来であれば、GPU Metrics の取得には
NVIDIA DCGM Exporter を使用するのが一 般的だった • eBPF の仕組みを使用することで、Datadog Agent のみで GPU Metrics を取得可能 • Datadog Agent が取得できる GPU Metrics は公開されている https://github.com/DataDog/integrations-core/tree/master/gpu
19 Datadog GPU Monitoring Setup Preview • 従来であれば、GPU Metrics の取得には
NVIDIA DCGM Exporter を使用するのが一 般的だった • eBPF の仕組みを使用することで、Datadog Agent のみで GPU Metrics を取得可能 • Datadog Agent が取得できる GPU Metrics は公開されている https://github.com/DataDog/integrations-core/tree/master/gpu GPU Monitoring が気になったら ぜひお近くの Datadog 担当者に🗣
❏ 内容 ◦ GPU Monitoring がなぜ必要なのか ▶ GPU は資産なので高価なものを早期に失わないためにも監視が大切 ◦
Datadog GPU Monitoring でなにが出来るのか ▶ GPU メトリクスの監視だけでなく、その先の「どうすればよいか」のインサイ トまで見れる ▶ GPU 周辺リソースの監視まで Datadog で一元的に可能 20 まとめ
Thank you