Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
実践 Datadog MCP Server
Search
株式会社ヌーラボ
PRO
March 13, 2026
Technology
480
3
Share
実践 Datadog MCP Server
株式会社ヌーラボ
PRO
March 13, 2026
More Decks by 株式会社ヌーラボ
See All by 株式会社ヌーラボ
The_Evolution_of_Bits_AI_SRE.pdf
nulabinc
PRO
0
300
進化するBits AI SREと私と組織
nulabinc
PRO
2
470
全社横断PjM⽀援チーム “PEaS”の取り組みと プロジェクトマネジメント でのAI活⽤について
nulabinc
PRO
0
130
Datadog の RBAC のすべて
nulabinc
PRO
4
700
Datadog Live Tokyo 2025登壇資料
nulabinc
PRO
0
120
Nulab Fun Deck 〜チームワークが、世界をもっと『おもしろく』する〜
nulabinc
PRO
1
13k
How to Migrate Your Backlog Free Plan
nulabinc
PRO
0
210
チームワークマネジメント Bar #5
nulabinc
PRO
0
71
Geeks Who Drink Fukuoka - 202508
nulabinc
PRO
0
47
Other Decks in Technology
See All in Technology
Introduction to Sansan for Engineers / エンジニア向け会社紹介
sansan33
PRO
6
74k
試されDATA SAPPORO [LT]Claude Codeで「ゆっくりデータ分析」
ishikawa_satoru
0
370
New CBs New Challenges
ysuzuki
1
180
Claude Teamプランの選定と、できること/できないこと
rfdnxbro
1
2.2k
名刺メーカーDevグループ 紹介資料
sansan33
PRO
0
1.1k
Code Interpreter で、AIに安全に コードを書かせる。
yokomachi
0
1k
AI環境整備はどのくらい開発生産性を変えうるか? #AI駆動開発 #AI自走環境
ucchi0909
0
120
ルールルルルル私的函館観光ガイド── 函館の街はイクラでも楽しめる!
nomuson
0
170
AgentCore RuntimeからS3 Filesをマウントしてみる
har1101
3
400
AIペネトレーションテスト・ セキュリティ検証「AgenticSec」ご紹介資料
laysakura
0
1.6k
暗黙知について一歩踏み込んで考える - 暗黙知の4タイプと暗黙考・暗黙動へ
masayamoriofficial
0
1.4k
CloudSec JP #005 後締め ~ソフトウェアサプライチェーン攻撃から開発者のシークレットを守る~
lhazy
0
160
Featured
See All Featured
The Invisible Side of Design
smashingmag
302
51k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.3k
Heart Work Chapter 1 - Part 1
lfama
PRO
5
35k
Technical Leadership for Architectural Decision Making
baasie
3
320
Navigating Algorithm Shifts & AI Overviews - #SMXNext
aleyda
1
1.2k
Mobile First: as difficult as doing things right
swwweet
225
10k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.7k
Optimising Largest Contentful Paint
csswizardry
37
3.6k
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
310
Abbi's Birthday
coloredviolet
2
6.5k
30 Presentation Tips
portentint
PRO
1
270
Statistics for Hackers
jakevdp
799
230k
Transcript
実践 Datadog MCP Server ダッシュボードから対話へ 2026/03/13 - Datadogで実現するAI運⽤最前線 事例共有会 iwa
(@mananyuki) / Nulab Inc.
iwa Yuki Yoshiiwa / Principal Engineer, Platform Engineering @ Nulab
Inc. EXPERTISE Kubernetes / Platform Engineering / SRE / Observability / Developer Experiences SNS X @mananyuki / GitHub mananyuki INTERESTS 🐕 いぬ / 🎮 ゲーム / ☕ コーヒー / 🐠 アクアリウム FAVORITE DATADOG TRACER ENV VAR DD_TRACE_OTEL_ENABLED
3 Datadog と私 • ヌーラボに Datadog を導⼊した⼈ • JDDUG 福岡運営・創設メンバー
‒ JDDUG = Japan Datadog User Group • Datadog Live Tokyo 2025 ‒ 20分登壇後にパネルディスカッションしました!
4 こんな経験ありませんか? • Logs Explorer → APM → Metrics…ダッシュボードを何往復? ‒
Datadog なら Service Page で⼀覧できるものの… • 「ちょっと確認するだけ」が画⾯の⾏き来で5分消える その往復、AI エージェントとの対話で解決できます
5 本セッションについて • 3/9 に⼀般提供 (GA) が発表されました ‒ https://www.datadoghq.com/about/latest-news/press-releases/datadog-launches -mcp-server/
• 公式ブログでは組織レベルの⾃動化事例を紹介 ‒ https://www.datadoghq.com/blog/datadog-mcp-server-use-cases/ • 今⽇は個⼈の実践にフォーカス • 事例は Claude Code + Datadog MCP Server で検証 ‒ とはいえ、MCP 対応クライアント全般で動作します!
概要と⽐較 OVERVIEW Bits AI / MCP Server / pup CLI
7 Bits AI ファミリー Datadog の AI プロダクト群: 開発・運⽤・セキュリティを AI
で⽀援 • Bits AI SRE: アラート⾃動対応、インシデント対応の補佐 • Bits Dev Agent: エラー検出とコード修正の⾃動化 • Bits AI Security Analyst: Cloud SIEM シグナルの⾃律トリアージ • Bits Assistant: Datadog UI / Slack で⾃然⾔語によるデータ探索 • MCP Server: AI エージェントから Datadog に接続 ← 今⽇の話
8 Datadog MCP Server とは AI エージェントと Datadog をつなぐブリッジ •
MCP 対応クライアントから接続 ‒ Claude Desktop / Cursor / VS Code / Claude Code / Codex など • 「ログを⾒せて」「メトリクスを調べて」と話しかけるだけ • Datadog に存在しないデータと統合した分析が可能 ‒ コードベース、ドキュメント、他の MCP サーバーのデータと横断
9 Datadog MCP Server とは • リモート MCP サーバー: Datadog
がホスト、常に最新 ‒ インストール不要、設定ファイルに URL を書くだけ • ログ検索、メトリクス取得、APM 分析など 約80ツール • ⼤量データも要約・集計して返してくれる (サーバーサイド処理)
10 もう⼀つの選択肢: pup CLI • Datadog Labs が開発する AI エージェントネイティブな
CLI • ターミナルから Datadog API を叩く • Unix パイプで jq / grep / sort と⾃在に組み合わせ • コーディングエージェントが⾃⼰発⾒可能なコマンド体系
11 使い分け: どこで使うか • Bits Assistant: Datadog UI / Slack
→ ブラウザだけで完結 • MCP Server: エージェント全般 → 設定ファイルだけで接続 ‒ ⾮エンジニアも⽐較的容易に利⽤できる • pup: コーディングエージェント + CI → CLI 実⾏、パイプライン統合
12 使い分け: MCP Server と pup の設計差 • MCP Server:
ユーザージャーニーに基づいた構造化ツール ‒ API の薄いラッパーではなく、集約・要約をサーバーサイドで処理 ‒ 例: search_datadog_logs がパターン検出、kubernetes_onboarding がフルスタック セットアップ • pup: Datadog API の CLI ラッパー ‒ 出⼒がコンパクトでトークン効率が⾼い ‒ Unix パイプとの組み合わせでスクリプト・CI に統合しやすい
ログ検索・集計 CASE 01 Daily Log Search & Aggregation
14 Case 1: Slack で聞かれた、すぐ答えたい 同僚から Slack で「最近 web-api のエラー通知が多くない?」
• ダッシュボードを開いてフィルタして…だと5分かかる • エディタの会話でそのまま聞く
15 Case 1: エラーパターンの検出 💬 web-api のエラーログ、直近1時間を⾒せて 🤖 search_datadog_logs で⾒てみました。200件超のエラーから数⼗パ
ターン検出しています。⼀番多いのは通知キュー失敗ですね
16 Case 1: 時系列で傾向を確認 💬 増えてる? 時間帯ごとの推移を⾒せて 🤖 analyze_datadog_logs で時間帯ごとに集計しました。急増傾向はな さそうです
17 Case 1: 学び 5分の画⾯往復が、2ターンの即答になる • 2ツール・2ターン: 状況を把握して Slack にすぐ返信できた
• 始め⽅: search_datadog_logs + analyze_datadog_logs
インシデント対応 CASE 02 Cross-Signal Investigation
19 Case 2: SLO の Fast Burn Alert が発⽕した 🔥
Fast Burn Alert: Error Budget の消費速度が通常の14.4倍 • burn rate = Error Budget がどれくらいの速さで減っているか • 14.4x = 約2⽇で budget を使い切るペース • まず SLO の状態を確認する
20 Case 2: SLO から根本原因へ 💬 Latency SLO の Fast
Burn Alert が来た。状態を確認して 🤖 SLO の状態を確認しました。Error Budget が急速に減少中です。直近 でレイテンシ閾値を超えるリクエストが急増していますね 🤖 レイテンシ悪化の原因を調べます。get_datadog_metric で DB の待 ちキューを確認すると、閾値に対して2倍以上に急増しています。DB 接続 プール飽和が根本原因のようです
21 Case 2: 影響範囲の特定 🤖 search_datadog_spans でスパンも⾒てみます。5秒超のスパンが数千 件、最遅50秒超。DB 接続プール飽和と⼀致しますね 💬
影響範囲は? 🤖 search_datadog_service_dependencies で依存関係を確認しまし た。DB, 検索エンジンなど下流の複数サービスに波及しています
22 Case 2: 学び 1件のアラートが、根因と影響の地図になる • SLO 起点で4ツール横断: SLO →
metrics → spans → deps • Burn Rate: どれくらい急ぐかの判断材料 • 分析結果: そのままインシデント報告に転記
コスト異常調査 CASE 03 Cost Anomaly Investigation
24 Case 3: Datadog のコストが跳ねた • ⽉次レビューで Datadog の利⽤料が前⽉より⼤幅に増加 •
Billing ページでは合計は⾒えるが、何が増えたのかわからない • どこから調べればいい? → Cloud Cost Management (CCM) で 前⽉と⽐較 ‒ Datadog ⾃⾝のコスト分析なら無料で利⽤可能
25 Case 3: CCM で原因プロダクトを特定 💬 Datadog のコストが跳ねている。CCM で前⽉と⽐較して 🤖
get_datadog_metric で CCM のデータを前⽉⽐較しました。 Custom Metrics の usage が⼤幅に増加しています。他のプロダクトは横 ばいですね 💬 どのメトリクスが原因? 🤖 by_metric の top-N を確認しました。1つのメトリクスだけで4万 timeseries を占めています。⾼カーディナリティなタグが原因ですね
26 Case 3: 原因サービスの特定と対策 💬 どのサービスのメトリクス? 対策は? 🤖 get_datadog_metric_context でタグを確認しました。特定サービス が⾼カーディナリティなタグを付けて送信しています
🤖 対策案: Metrics without Limits でクエリに使うタグだけ残す設定にす れば、indexed timeseries を削減できそうです
27 Case 3: 学び コストの急増が、原因プロダクト特定と削減策に変わる • CCM で前⽉⽐較: どのプロダクトが増えたかを即座に特定 •
by_metric の top-N: 犯⼈メトリクスを⼀発で特定 • Metrics without Limits: indexed タグを絞り込み、コストを制御
さらに活⽤する GOING FURTHER
29 ツールセットを広げる • Toolset: ツールをグループ化する単位 ‒ URL に ?toolsets=core,apm,dbm のように指定して必要なものだけ有効化
‒ コンテキストウィンドウの消費量をコントロールできる • デフォルトの core 以外にも apm、onboarding、security など 13 toolset • Onboarding toolset はユーザージャーニーベース設計の好例 ‒ kubernetes_onboarding 1ツールで Agent / Infra / Logs / APM をフルスタックセット アップ
30 さらにカスタマイズする • Agent Skills: ワークフローをスキルとして定義する考え⽅ ‒ 繰り返す⼿順を⼀⾔で呼び出せるようにする • dd-docs
skill: llms.txt の探し⽅・読み⽅をエージェントに教える ‒ datadog-labs/agent-skills で公開されている ‒ llms.txt (知識) + MCP Server (ライブデータ) = 環境を考慮した回答 • マルチ MCP 連携: Datadog + Backlog MCP 等で調査→ Issue 起票 を⾃動化 ‒ 公式ブログに組織レベルの活⽤パターン4選
31 まずやること 1. MCP 対応クライアントから接続する ‒ https://docs.datadoghq.com/bits_ai/mcp_server/setup/ 2. 簡単なプロンプトで始める ‒
💬 {サービス名} のエラーログ、直近1時間を⾒せて
ダッシュボードから対話へ From Dashboards to Conversations
33 References • https://docs.datadoghq.com/bits_ai/mcp_server/ • https://docs.datadoghq.com/bits_ai/mcp_server/setup/ • https://www.datadoghq.com/blog/datadog-mcp-server-use-cases/ • https://www.datadoghq.com/product/ai/bits-ai-agents/
• https://docs.datadoghq.com/bits_ai/bits_assistant/ • https://github.com/datadog-labs/pup • https://github.com/datadog-labs/agent-skills • https://docs.datadoghq.com/llms.txt • https://modelcontextprotocol.io/