Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
実践 Datadog MCP Server
Search
株式会社ヌーラボ
PRO
March 13, 2026
Technology
740
4
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
実践 Datadog MCP Server
株式会社ヌーラボ
PRO
March 13, 2026
More Decks by 株式会社ヌーラボ
See All by 株式会社ヌーラボ
The_Evolution_of_Bits_AI_SRE.pdf
nulabinc
PRO
0
340
進化するBits AI SREと私と組織
nulabinc
PRO
4
740
全社横断PjM⽀援チーム “PEaS”の取り組みと プロジェクトマネジメント でのAI活⽤について
nulabinc
PRO
0
180
Datadog の RBAC のすべて
nulabinc
PRO
4
810
Datadog Live Tokyo 2025登壇資料
nulabinc
PRO
0
170
How to Migrate Your Backlog Free Plan
nulabinc
PRO
0
250
チームワークマネジメント Bar #5
nulabinc
PRO
0
89
Geeks Who Drink Fukuoka - 202508
nulabinc
PRO
0
69
TRIAL Meetup#1
nulabinc
PRO
0
63
Other Decks in Technology
See All in Technology
RAG を使わないという選択肢
tatsutaka
1
220
Oracle AI Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
6
1.5k
Socrates × Looker 〜セマンティックレイヤーで進化するデータ分析エージェント〜
hanon52_
3
2.2k
爆速でマルチプロダクトを立ち上げる時 事業・CTO目線で大事にしたい事
miyatakoji
0
110
Android の公式 Skill / Android skills
yanzm
0
140
現地で盛り上がった WWDC26 Keynote
zozotech
PRO
1
230
2026TECHFRESH畢業分享會 - 原生還是跨平台? App 開發踩坑實錄
line_developers_tw
PRO
0
920
人材育成分科会.pdf
_awache
0
120
AWSシリコン最前線 〜AI時代のチップ選択を読み解く〜
htokoyo
2
540
Claude Code×Terraform IaC テンプレート駆動開発
itouhi
1
510
手塩にかけりゃいいってもんじゃない
ming_ayami
0
550
ACE-Step-1.5で見る 音楽生成AIのしくみと“破綻だけ直す”Retake機能の開発【zennfes spring 2026 登壇資料】
personabb
1
190
Featured
See All Featured
Abbi's Birthday
coloredviolet
2
8k
Ruling the World: When Life Gets Gamed
codingconduct
0
250
Scaling GitHub
holman
464
140k
AI: The stuff that nobody shows you
jnunemaker
PRO
8
710
More Than Pixels: Becoming A User Experience Designer
marktimemedia
3
440
Code Reviewing Like a Champion
maltzj
528
40k
4 Signs Your Business is Dying
shpigford
187
22k
RailsConf 2023
tenderlove
30
1.5k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
287
14k
Skip the Path - Find Your Career Trail
mkilby
1
150
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
410
Tell your own story through comics
letsgokoyo
1
950
Transcript
実践 Datadog MCP Server ダッシュボードから対話へ 2026/03/13 - Datadogで実現するAI運⽤最前線 事例共有会 iwa
(@mananyuki) / Nulab Inc.
iwa Yuki Yoshiiwa / Principal Engineer, Platform Engineering @ Nulab
Inc. EXPERTISE Kubernetes / Platform Engineering / SRE / Observability / Developer Experiences SNS X @mananyuki / GitHub mananyuki INTERESTS 🐕 いぬ / 🎮 ゲーム / ☕ コーヒー / 🐠 アクアリウム FAVORITE DATADOG TRACER ENV VAR DD_TRACE_OTEL_ENABLED
3 Datadog と私 • ヌーラボに Datadog を導⼊した⼈ • JDDUG 福岡運営・創設メンバー
‒ JDDUG = Japan Datadog User Group • Datadog Live Tokyo 2025 ‒ 20分登壇後にパネルディスカッションしました!
4 こんな経験ありませんか? • Logs Explorer → APM → Metrics…ダッシュボードを何往復? ‒
Datadog なら Service Page で⼀覧できるものの… • 「ちょっと確認するだけ」が画⾯の⾏き来で5分消える その往復、AI エージェントとの対話で解決できます
5 本セッションについて • 3/9 に⼀般提供 (GA) が発表されました ‒ https://www.datadoghq.com/about/latest-news/press-releases/datadog-launches -mcp-server/
• 公式ブログでは組織レベルの⾃動化事例を紹介 ‒ https://www.datadoghq.com/blog/datadog-mcp-server-use-cases/ • 今⽇は個⼈の実践にフォーカス • 事例は Claude Code + Datadog MCP Server で検証 ‒ とはいえ、MCP 対応クライアント全般で動作します!
概要と⽐較 OVERVIEW Bits AI / MCP Server / pup CLI
7 Bits AI ファミリー Datadog の AI プロダクト群: 開発・運⽤・セキュリティを AI
で⽀援 • Bits AI SRE: アラート⾃動対応、インシデント対応の補佐 • Bits Dev Agent: エラー検出とコード修正の⾃動化 • Bits AI Security Analyst: Cloud SIEM シグナルの⾃律トリアージ • Bits Assistant: Datadog UI / Slack で⾃然⾔語によるデータ探索 • MCP Server: AI エージェントから Datadog に接続 ← 今⽇の話
8 Datadog MCP Server とは AI エージェントと Datadog をつなぐブリッジ •
MCP 対応クライアントから接続 ‒ Claude Desktop / Cursor / VS Code / Claude Code / Codex など • 「ログを⾒せて」「メトリクスを調べて」と話しかけるだけ • Datadog に存在しないデータと統合した分析が可能 ‒ コードベース、ドキュメント、他の MCP サーバーのデータと横断
9 Datadog MCP Server とは • リモート MCP サーバー: Datadog
がホスト、常に最新 ‒ インストール不要、設定ファイルに URL を書くだけ • ログ検索、メトリクス取得、APM 分析など 約80ツール • ⼤量データも要約・集計して返してくれる (サーバーサイド処理)
10 もう⼀つの選択肢: pup CLI • Datadog Labs が開発する AI エージェントネイティブな
CLI • ターミナルから Datadog API を叩く • Unix パイプで jq / grep / sort と⾃在に組み合わせ • コーディングエージェントが⾃⼰発⾒可能なコマンド体系
11 使い分け: どこで使うか • Bits Assistant: Datadog UI / Slack
→ ブラウザだけで完結 • MCP Server: エージェント全般 → 設定ファイルだけで接続 ‒ ⾮エンジニアも⽐較的容易に利⽤できる • pup: コーディングエージェント + CI → CLI 実⾏、パイプライン統合
12 使い分け: MCP Server と pup の設計差 • MCP Server:
ユーザージャーニーに基づいた構造化ツール ‒ API の薄いラッパーではなく、集約・要約をサーバーサイドで処理 ‒ 例: search_datadog_logs がパターン検出、kubernetes_onboarding がフルスタック セットアップ • pup: Datadog API の CLI ラッパー ‒ 出⼒がコンパクトでトークン効率が⾼い ‒ Unix パイプとの組み合わせでスクリプト・CI に統合しやすい
ログ検索・集計 CASE 01 Daily Log Search & Aggregation
14 Case 1: Slack で聞かれた、すぐ答えたい 同僚から Slack で「最近 web-api のエラー通知が多くない?」
• ダッシュボードを開いてフィルタして…だと5分かかる • エディタの会話でそのまま聞く
15 Case 1: エラーパターンの検出 💬 web-api のエラーログ、直近1時間を⾒せて 🤖 search_datadog_logs で⾒てみました。200件超のエラーから数⼗パ
ターン検出しています。⼀番多いのは通知キュー失敗ですね
16 Case 1: 時系列で傾向を確認 💬 増えてる? 時間帯ごとの推移を⾒せて 🤖 analyze_datadog_logs で時間帯ごとに集計しました。急増傾向はな さそうです
17 Case 1: 学び 5分の画⾯往復が、2ターンの即答になる • 2ツール・2ターン: 状況を把握して Slack にすぐ返信できた
• 始め⽅: search_datadog_logs + analyze_datadog_logs
インシデント対応 CASE 02 Cross-Signal Investigation
19 Case 2: SLO の Fast Burn Alert が発⽕した 🔥
Fast Burn Alert: Error Budget の消費速度が通常の14.4倍 • burn rate = Error Budget がどれくらいの速さで減っているか • 14.4x = 約2⽇で budget を使い切るペース • まず SLO の状態を確認する
20 Case 2: SLO から根本原因へ 💬 Latency SLO の Fast
Burn Alert が来た。状態を確認して 🤖 SLO の状態を確認しました。Error Budget が急速に減少中です。直近 でレイテンシ閾値を超えるリクエストが急増していますね 🤖 レイテンシ悪化の原因を調べます。get_datadog_metric で DB の待 ちキューを確認すると、閾値に対して2倍以上に急増しています。DB 接続 プール飽和が根本原因のようです
21 Case 2: 影響範囲の特定 🤖 search_datadog_spans でスパンも⾒てみます。5秒超のスパンが数千 件、最遅50秒超。DB 接続プール飽和と⼀致しますね 💬
影響範囲は? 🤖 search_datadog_service_dependencies で依存関係を確認しまし た。DB, 検索エンジンなど下流の複数サービスに波及しています
22 Case 2: 学び 1件のアラートが、根因と影響の地図になる • SLO 起点で4ツール横断: SLO →
metrics → spans → deps • Burn Rate: どれくらい急ぐかの判断材料 • 分析結果: そのままインシデント報告に転記
コスト異常調査 CASE 03 Cost Anomaly Investigation
24 Case 3: Datadog のコストが跳ねた • ⽉次レビューで Datadog の利⽤料が前⽉より⼤幅に増加 •
Billing ページでは合計は⾒えるが、何が増えたのかわからない • どこから調べればいい? → Cloud Cost Management (CCM) で 前⽉と⽐較 ‒ Datadog ⾃⾝のコスト分析なら無料で利⽤可能
25 Case 3: CCM で原因プロダクトを特定 💬 Datadog のコストが跳ねている。CCM で前⽉と⽐較して 🤖
get_datadog_metric で CCM のデータを前⽉⽐較しました。 Custom Metrics の usage が⼤幅に増加しています。他のプロダクトは横 ばいですね 💬 どのメトリクスが原因? 🤖 by_metric の top-N を確認しました。1つのメトリクスだけで4万 timeseries を占めています。⾼カーディナリティなタグが原因ですね
26 Case 3: 原因サービスの特定と対策 💬 どのサービスのメトリクス? 対策は? 🤖 get_datadog_metric_context でタグを確認しました。特定サービス が⾼カーディナリティなタグを付けて送信しています
🤖 対策案: Metrics without Limits でクエリに使うタグだけ残す設定にす れば、indexed timeseries を削減できそうです
27 Case 3: 学び コストの急増が、原因プロダクト特定と削減策に変わる • CCM で前⽉⽐較: どのプロダクトが増えたかを即座に特定 •
by_metric の top-N: 犯⼈メトリクスを⼀発で特定 • Metrics without Limits: indexed タグを絞り込み、コストを制御
さらに活⽤する GOING FURTHER
29 ツールセットを広げる • Toolset: ツールをグループ化する単位 ‒ URL に ?toolsets=core,apm,dbm のように指定して必要なものだけ有効化
‒ コンテキストウィンドウの消費量をコントロールできる • デフォルトの core 以外にも apm、onboarding、security など 13 toolset • Onboarding toolset はユーザージャーニーベース設計の好例 ‒ kubernetes_onboarding 1ツールで Agent / Infra / Logs / APM をフルスタックセット アップ
30 さらにカスタマイズする • Agent Skills: ワークフローをスキルとして定義する考え⽅ ‒ 繰り返す⼿順を⼀⾔で呼び出せるようにする • dd-docs
skill: llms.txt の探し⽅・読み⽅をエージェントに教える ‒ datadog-labs/agent-skills で公開されている ‒ llms.txt (知識) + MCP Server (ライブデータ) = 環境を考慮した回答 • マルチ MCP 連携: Datadog + Backlog MCP 等で調査→ Issue 起票 を⾃動化 ‒ 公式ブログに組織レベルの活⽤パターン4選
31 まずやること 1. MCP 対応クライアントから接続する ‒ https://docs.datadoghq.com/bits_ai/mcp_server/setup/ 2. 簡単なプロンプトで始める ‒
💬 {サービス名} のエラーログ、直近1時間を⾒せて
ダッシュボードから対話へ From Dashboards to Conversations
33 References • https://docs.datadoghq.com/bits_ai/mcp_server/ • https://docs.datadoghq.com/bits_ai/mcp_server/setup/ • https://www.datadoghq.com/blog/datadog-mcp-server-use-cases/ • https://www.datadoghq.com/product/ai/bits-ai-agents/
• https://docs.datadoghq.com/bits_ai/bits_assistant/ • https://github.com/datadog-labs/pup • https://github.com/datadog-labs/agent-skills • https://docs.datadoghq.com/llms.txt • https://modelcontextprotocol.io/