Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Grafana MCP serverでなんかし隊 / Try Grafana MCP server
Search
kohbis
June 13, 2025
Technology
0
780
Grafana MCP serverでなんかし隊 / Try Grafana MCP server
ゆるSRE勉強会 #11 〜AI × SREの知見が聞きたい!〜
https://yuru-sre.connpass.com/event/353153/
kohbis
June 13, 2025
Tweet
Share
More Decks by kohbis
See All by kohbis
潜在的課題探索活動の近況報告 / Exploration of latent challenges
kohbis
2
88
いま、あらためて考えてみるアカウント管理 with IaC / Account management with IaC
kohbis
3
880
〜『世界中の家族のこころのインフラ』を目指して”次の10年”へ〜 SREが導いたグローバルサービスの信頼性向上戦略とその舞台裏 / Towards the Next Decade: Enhancing Global Service Reliability
kohbis
3
3.9k
Custom Prometheus Exporterによる オブザーバビリティ拡張 / Extending observability with Custom Prometheus Exporter
kohbis
1
180
データベースで見る『家族アルバム みてね』の変遷 / The Evolution of Family Album Through the Lens of Databases
kohbis
5
1.4k
SREコミュニティイベントとわたし / Me and SRE community events
kohbis
2
260
サクッと試すNew Relic Kubernetes APM auto-attach / New Relic Kubernetes APM auto-attach
kohbis
0
450
悩ましきインシデント管理 みてねのケース / Incident management is a tough
kohbis
2
810
サービス成長と共に肥大化するモノレポ、長くなるCI時間 / As services grow, monorepos get bigger and CI time gets longer
kohbis
5
3.2k
Other Decks in Technology
See All in Technology
.NET 10 のパフォーマンス改善
nenonaninu
2
4.7k
MS Ignite 2025で発表されたFoundry IQをRecap
satodayo
3
230
AI駆動開発によるDDDの実践
dip_tech
PRO
0
290
著者と読み解くAIエージェント現場導入の勘所 Lancers TechBook#2
smiyawaki0820
9
3k
ブロックテーマとこれからの WordPress サイト制作 / Toyama WordPress Meetup Vol.81
torounit
0
290
オープンデータの内製化から分かったGISデータを巡る行政の課題
naokim84
2
1.3k
HIG学習用スライド
yuukiw00w
0
110
MAP-7thplaceSolution
yukichi0403
2
250
生成AI・AIエージェント時代、データサイエンティストは何をする人なのか?そして、今学生であるあなたは何を学ぶべきか?
kuri8ive
2
1.8k
Oracle Database@AWS:サービス概要のご紹介
oracle4engineer
PRO
0
120
【5分でわかる】セーフィー エンジニア向け会社紹介
safie_recruit
0
37k
Ryzen NPUにおけるAI Engineプログラミング
anjn
0
210
Featured
See All Featured
How to Think Like a Performance Engineer
csswizardry
28
2.3k
Designing Experiences People Love
moore
142
24k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
15k
Balancing Empowerment & Direction
lara
5
780
Product Roadmaps are Hard
iamctodd
PRO
55
12k
Building an army of robots
kneath
306
46k
Site-Speed That Sticks
csswizardry
13
990
Documentation Writing (for coders)
carmenintech
76
5.2k
Producing Creativity
orderedlist
PRO
348
40k
Making Projects Easy
brettharned
120
6.5k
Optimising Largest Contentful Paint
csswizardry
37
3.5k
Code Reviewing Like a Champion
maltzj
527
40k
Transcript
Grafana MCP serverで なんかし隊 @kohbis ゆるSRE勉強会 #11 2025/06/13
お話しすること • オブザーバビリティ with AI • オブザーバビリティ with MCP server
• Grafana MCP server
オブザーバビリティ with AI(1/2) 異常検出( Anomaly Detection) • 機械学習と統計により「通常と異なる推移」のメトリクスを検出 • 機械学習とパターン分析により「通常と異なる形式や値」のログを検出
自然言語クエリ生成( Natural Language Query Generation) • サービスごとに(やたらクセがある)クエリを自動生成 自然言語要約( Natural Language Summarization) • ログやメトリクスまたはそれらのダッシュボードを自動要約 etc.
オブザーバビリティ with AI(2/2) AI 周り「そのもの」のオブザーバビリティ • リソース使用率 / モデルの出力評価 リクエスト数
/ レイテンシー / セキュリティ etc. • 各サービスやツールの対応 ◦ Monitoring the performance of Amazon Bedrock ◦ Cloud Monitoring metrics for Vertex AI ◦ Datadog LLM Observability ◦ OpenTelemetry for Generative AI
オブザーバビリティ with MCP Server うれしいこと • サービスや担当者の習熟度に依存せず、誰でも再現性のある調査が可能に • エージェントとの連携により、収集したデータを開発のワークフローに統合 •
(サービス、ツール連携、認証認可、出力整形をMCP Serverが一括して担える) 各サービスの対応 • AWS MCP Servers • Datadog MCP Server • Sentry MCP Server
Grafana MCP Server Grafana • “The open-source platform for monitoring
and observability” • 複数のデータソースをクエリ、可視化、アラート設定、検索できる MCP Serverでできること(一部) • Dashboardの取得、作成、更新、パネルデータの取得 • Datasourceへのクエリ ◦ Prometheus(Metrics)、Loki(Log)をサポート ◦ Tempo(Trace)やPyroscope(Profile)は未対応 • Alertingの取得(更新は未対応) ※ ほかできることはREADME参照。PR#156 まで記載されていたものはIssueが起票されているのでそのうち対応されそう
なんかしたい 🤔 ゆるSREのLTに応募したものの • ただGrafanaダッシュボードを一覧するだけは楽しくない • PromQL(Prometheus)やLogQL(Loki)を書いてくれるのはうれしいがなんかパッ としない • なんかトラシューっぽいことができたらよさそう?
「おうちK8sクラスタがあるけど、そんないい感じの変化はないよな〜」
いい感じだった
調査開始 Copilot Chat (Claud Sonnet 4) on VSCode + Grafana
MCP server
ダッシュボード一覧 最初に利用するダッシュボードを選 択する 今回は準備しておいたHome Clusterというダッシュボードを使う
ダッシュボード詳細
なげぇ😇
ダッシュボード詳細
直近7日間の傾向
メモリ/CPU増加の原因を調査させる 👈 めっちゃ頑張ったCopilotくん • ノードごとのPod数変化に着目し、特 定の時間から該当ノードで Pod数 が増えている ことに気づく •
この挙動から「システム全体のロー リングアップデート」 が行われた可 能性を提示
正解👏
リソース使用率が増えた時間帯にやっていたこと K8sクラスタのアップグレード • リソース使用率が減少したノード ◦ アップグレードするため 稼働しているPodを退避した • リソース使用率が増加したノード ◦
👆の退避された Podが 稼働するように なった Grafana MCP serverを活用した 自然言語のみでトラブルシューティング に成功 🎉
ところで
ずっと異なる発生時刻を表示し続けていた • 発生時刻は2025年6月6日1時頃 ◦ Grafana MCP serverで取得した メトリクスも該当時間のUNIX time ◦
調査でクエリするときも 👆のUNIX timeを使用している • Copilot Chatの回答だけ 2025年6月7日15時頃と表示される 何らかの理由で誤ったコンテキストを 保持し続けてしまった? なにもわからないので詳しい方教えてください🙇
さいごに
いろいろできそう • エディタ(VSCode)でMCP serverを利用して コード修正まで Agentにお任せ ◦ 例)今回特定した問題の修正 ▪ リスケジューリング設定
▪ リソース調整 • ダッシュボード要約によるモニタリング業務の効率化 • アラート閾値に達しない範囲、中長期での傾向変化
ありがとうございました