Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

Grafana:建立系統全知視角的捷徑

Avatar for Blueswen Blueswen
December 26, 2025

 Grafana:建立系統全知視角的捷徑

DevOps Taiwan Meetup #74 - Grafana:建立系統全知視角的捷徑
本次分享將介紹如何快速上手 Grafana,並透過 Drilldown 與 MCP 讓你在沒有相關工具背景下也能縱覽系統全局。

Avatar for Blueswen

Blueswen

December 26, 2025
Tweet

More Decks by Blueswen

Other Decks in Programming

Transcript

  1. 自 介  • 劉義瑋 Blueswen • blueswen @ GitHub

    • https://blueswen.com • Grafana Champion • 領域 • DevOps • Observability • Developer Experience
  2. Outline  • Grafana Quick Start • 綜覽全局 • Drilldown

    App • Grafana MCP & LLM Grafana Zero to Hero
  3. Grafana - Observability Platform  Grafana SaaS 提供 Metrics 等資料儲存後端

    特殊新功能 OSS 版本 自行 建 立 維運,可商 用 企業版本 RBAC 強化、即時 支 援 查詢 文 件時要注意是否 支 援 OSS 版本
  4. Grafana - Observability Platform  圖 片 來源:Grafana 支 援各種不同的資料來源(Data

    Source) Prometheus、ElasticSearch、PostgreSQL、Jaeger、Google Sheet
  5. Grafana - Observability Platform  Observability Signals 關聯 圖 片

    來源:Grafana Document - About metrics and telemetry 連接資料孤島,建 立 關聯,產 生 綜效
  6. Grafana - With Prometheus  • Prometheus • 監控(Monitoring)與告警(Alerting) 工

    具 • 收集不同時間點的量化指標,儲存後能以 PromQL 語法查詢 • 搭配現成的指標 工 具與 Dashboard 建 立 監控 Baseline Prometheus 收集 Expoter 或 Client Library 生 成的 Metrics
  7. Grafana Use Cases - 監控 Linux Server  搭配 Node

    Exporter 與 Dashboard 監控 Linux Server Lab:Dashboard 與 Monitoring 的最佳實踐
  8. Grafana Use Cases - 監控 Container  Lab:Dashboard 與 Monitoring

    的最佳實踐 搭配 cAdvisor 與 Dashboard 監控 Container
  9. Grafana Use Cases - 監控 Kubernetes  搭配 Kube Prometheus

    Stack 監控 Kubernetes Lab:Kube Prometheus Stack Cluster Node Status Pod Compute Resources Status
  10. Grafana Use Cases - 監控 Spring Boot Application  搭配

    Sprint Boot Actuator 與 OpenTelemetry 監控 Spring Boot Application Lab:Spring Boot with Observability
  11. Grafana Use Cases - 監控前端服務使 用 者體驗  搭配 Grafana

    Faro 監控前端服務使 用 者體驗 Lab:Frontend Observability By User Session 使 用 歷程 前端服務總覽
  12. Drilldown App  Profiles 指標 系統量化指標 日 誌 系統發 生

    的事件 分散式追蹤 請求在服務間的路徑 效能剖析 程式的資源使 用 狀況 透過 Grafana 的 Drilldown App 快速了解系統狀態 無需撰寫查詢,點點滑 鼠 就能找到問題
  13. Drilldown App - Metrics  以 name Label 分組顯 示

    各 Container 的記憶體使 用 量
  14. Drilldown App - Logs  深 入 查看 Log 時可使

    用 關鍵字篩選, 支 援切換 Table 或 JSON 格式顯 示
  15. Drilldown App - Traces  上 方 區塊顯 示 RED

    指標(Rate、Errors、Duration) 下 方 Breakdown 會以所選的分組呈現指標
  16. Drilldown App - Pro fi les  All Service:跨服務檢視相同類型的 Pro

    fi les 資料,快速 比 較多個服務的差異
  17. Drilldown App - Pro fi les  Pro fi le

    Types:檢視單 一 服務中所收集到的所有 Pro fi les 類型
  18. Drilldown App - Pro fi les  Flam Graph:Pro fi

    les 資料的 火 焰圖,搭配 LLM 服務可以 自 動解析找出效能瓶頸
  19. Drilldown App - Pro fi les  Di ff Flame

    Graph: 比 較不同時間區間或 Label 的 火 焰圖變化
  20. Drilldown App - Labs  • Lab:Grafana Zero to Hero

    - 0 5 Plugins Drilldown • 只 支 援指定的 Data Source • Metrics: Prometheus / Logs: Loki / Traces: Tempo / Pro fi les: Pyroscope • 更多說明可參考 Grafana Zero to Hero 5 - 7 Drilldown 小 節 Lab 架構圖
  21. Grafana MCP & LLM - 常 見 問題排除流程  圖

    片 來源:Loki: Prometheus-inspired, open source logging for cloud natives 分析 處理 分析結果 資訊 知識
  22. Grafana MCP & LLM - 常 見 問題排除流程  圖

    片 來源:Loki: Prometheus-inspired, open source logging for cloud natives 分析 處理 分析結果 資訊 知識 {
  23. Grafana MCP & LLM - LLM 怎麼取得資料 • 資訊 •

    Grafana MCP Server • 查詢 Prometheus Metrics、Loki Logs、Alerts • Tempo MCP Server • Tempo v 2 . 9 . 0 內建 MCP Server,查詢 Traces 資料 • 知識 • 系統架構、資料查詢技巧、Postmortem • 透過 Prompt、Skills(Claude)、RAG 強化 分析 處理 分析結果 資訊 知識
  24. Grafana MCP & LLM - LLM 怎麼取得資料 • 資訊 •

    Grafana MCP Server • 查詢 Prometheus Metrics、Loki Logs、Alerts • Tempo MCP Server • Tempo v 2 . 9 . 0 內建 MCP Server,查詢 Traces 資料 • 知識 • 系統架構、資料查詢技巧、Postmortem • 透過 Prompt、Skills(Claude)、RAG 強化 分析 處理 分析結果 資訊 知識
  25. Grafana MCP & LLM - Use Cases:告警解析與根因分析  • 使

    用 Grafana MCP 跟 GitHub MCP 排查問題 • 範例:Grafana Zero to Hero Use Case: Grafana with LLM 從 Alerting 發現有 Request High Latency 的問題
  26. Grafana MCP & LLM - Use Cases:告警解析與根因分析 cont.  提供

    Claude Code Base 與要解決的問題等資訊,搭配 Grafana MCP 與 GitHub MCP 查找根因
  27. Grafana MCP & LLM - Use Cases:Dashboard 生 成 

    • 透過 Grafana MCP 查詢現有指標,並建 立 Dashboard 根據 PostgreSQL Server Exporter 建 立 的 Dashboard
  28. Grafana MCP & LLM - LLM 怎麼取得資料 • 資訊 •

    Grafana MCP Server • 查詢 Prometheus Metrics、Loki Logs、Alerts • Tempo MCP Server • Tempo v 2 . 9 . 0 內建 MCP Server,查詢 Traces 資料 • 知識 • 系統架構、資料查詢技巧、Postmortem • 透過 Prompt、Skills(Claude)、RAG 強化 分析 處理 分析結果 資訊 知識
  29. Grafana MCP & LLM - 強化 LLM 背景知識  •

    主動提供知識提 高 效率,避免 LLM 瞎猜 • 透過 Prompt、Skills(Claude)、RAG • Observability 知識 • Prometheus Metrics PromQL 技巧 • Tempo TraceQL、Loki LogQL 技巧 • Observability Signals 關聯建 立 方 式 • 系統架構 • 架構圖、業務邏輯 • 可 用 的 Metrics 種類與意義 • Observability Signals Label/Attribute 與服務間的對應 盲 人 摸象,圖 片 來源:Sketchplanations
  30. Grafana MCP & LLM - 強化 LLM 背景知識 cont. 

    • OpenTelemetry Demo:擬真電商系統,微服務架構 • 範例:OpenTelemetry Demo App with LLM 電商平台 OpenTelemetry Demo 架構圖
  31. Grafana MCP & LLM - 強化 LLM 背景知識 cont. 

    問題初步診斷 先讓 Claude Code 載 入 Skill
  32. Grafana MCP & LLM - LLM 怎麼取得資料 • 資訊 •

    Grafana MCP Server • 查詢 Prometheus Metrics、Loki Logs、Alerts • Tempo MCP Server • Tempo v 2 . 9 . 0 內建 MCP Server,查詢 Traces 資料 • 知識 • 系統架構、資料查詢技巧、Postmortem • 透過 Prompt、Skills(Claude)、RAG 強化 分析 處理 分析結果 資訊 知識
  33. Recap  • 視覺化系統狀態,隨時掌握全局 • 建 立 監控 Baseline,快速識別異常 •

    Drilldown 降低 門 檻, 人人 都能查問題 • MCP 提供 LLM 資訊 • Prompt、Skills、RAG 強化 LLM 知識 Grafan Quick Start Grafana MCP & LLM
  34. 延伸閱讀  • Demo Project • FastAPI Observability • Spring

    Boot Observability • FastAPI Tracing with Jaeger through OpenTelemetry • OpenTelemetry Application Performance Management • 時光之鏡:透視過去、現在與未來的 Observability:概念、 工 具與應 用 • Grafana Zero to Hero:Grafana 基礎操作與進階應 用 • Observability 1 0 1 :從零開始了解可觀測性:可觀測性基礎介紹 • 全 方 位強化 Python 服務可觀測性:以 FastAPI 和 Grafana Stack 為例 • Skills explained: How Skills compares to prompts, Projects, MCP, and subagents