Upgrade to Pro — share decks privately, control downloads, hide ads and more …

當 Grafana 遇見 LLM:AI 時代的可觀測性

Avatar for Blueswen Blueswen
November 19, 2025

當 Grafana 遇見 LLM:AI 時代的可觀測性

當 Grafana 遇見 LLM:AI 時代的可觀測性
Lab:https://github.com/blueswen/observability-with-llm

Avatar for Blueswen

Blueswen

November 19, 2025
Tweet

More Decks by Blueswen

Other Decks in Programming

Transcript

  1. 自 介  • 劉義瑋 Blueswen • blueswen @ GitHub

    • Grafana Champion • 領域 • DevOps • Observability • Developer Experience
  2. Observability Intro  圖 片 來源:Multi-Cloud Monitoring: A Cloud Security

    Essential Observability 系統可被觀測或測量的 一 種特性
  3. Observability Intro  有 足 夠的資訊嗎? 透過各種資訊,清楚了解系統狀態 Log 工 具

    指標儀表板 APM 工 具 是否散落各處,形成資料孤島?
  4. Observability Intro - Signals  有 足 夠的資訊嗎? 透過各種資訊,清楚了解系統狀態 Log

    工 具 指標儀表板 APM 工 具 是否散落各處,形成資料孤島?
  5. Observability Signals - 可觀測性資訊  指標 不同時間採樣的系統量化指標 如:CPU 使 用

    率、API 回應時間 日 誌 紀錄系統中發 生 的事情 如:Debug 訊息、Exception 分散式追蹤 紀錄 行 為在不同服務中的歷程 如:SSO 行 為橫跨多個服務 系統主動揭露讓我們能夠更理解它的資訊
  6. Observability Signals - 可觀測性資訊  徵狀:有問題發 生 脈絡:怎麼發 生 的

    發 生 什麼事 哪裡發 生 的 狀況如何 系統主動揭露讓我們能夠更理解它的資訊
  7. Observability Signals - 應 用 於問題排除  圖 片 來源:Loki:

    Prometheus-inspired, open source logging for cloud natives 徵狀 脈絡
  8. Observability Platform - Grafana  Metrics 儀表板範例 OpenTelemetry Application Performance

    Management Grafana Labs 開源的資料視覺化與儀表板 工 具,並提供告警功能
  9. Observability Platform - Grafana  圖 片 來源:Grafana 支 援各種不同的資料來源(Data

    Source) Prometheus、ElasticSearch、PostgreSQL、Jaeger、Google Sheet
  10. Observability Signals - Data Flow  生 成 收集 儲存

    使 用 了解 工 具在 Data Flow 中的定位
  11. Metrics - Prometheus  • Prometheus • 監控(Monitoring)與告警(Alerting) 工 具

    • 2012 年由 SoundCloud 開發並開源 • 2024 年 11 月 進 入 3.0 版本 • 收集不同時間點的量化指標,儲存後能以 PromQL 語法查詢 Prometheus Metrics 爬取 使 用 PromQL查詢 生 成 收集 儲存 使 用
  12. Observability Signals Data Flow - Metrics  Prometheus Metrics Exporter

    Prometheus Client Library 生 成 收集 儲存 使 用
  13. Traces(Distributed Tracing)  • 監控跨服務請求,利 用 統 一 的 Trace

    ID 關聯 一 個 行 為在不同服務之間的歷程 與資訊,例如:執 行 時間、請求來源 IP、SQL 語法、錯誤訊息等
  14. Traces - OpenTelemetry  • OpenTelemetry • CNCF Project, 目

    前主流的 Trace 規範,已經有超過 90 個組織 支 援 • 2019 年由 OpenTracing 與 OpenCensus 合併 而 成 • 處理 Telemetry Data(Metrics、Logs、Traces)的 API、SDK、Tool 組合包 API SDK Tool 資料格式(OTLP) 傳輸 方 式(HTTP、gRPC) 開發 工 具 Instrumentation Telemetry Data Collector
  15. Observability Signals - 資訊交互應 用  圖 片 來源:CNCF Observability

    Whitepaper Observability Signals 彼此具有關聯,例如時間區段、Trace ID 透過交互應 用 產 生 綜效
  16. Observability Signals - 資訊交互應 用  PyCon Taiwan 2 0

    2 4 - 全 方 位強化 Python 服務可觀測性:以 FastAPI 和 Grafana Stack 為例 範例 Demo 影 片
  17. LLM Observability Tools  • 基於 OpenTelemetry 的各種 Observability 工

    具 • 提供 Tracing、Metrics、成本與評估功能等 • Langfuse:SDK、客製化平台 • OpenLLMetry:SDK、客製化平台 • OpenLIT:SDK、客製化平台 • OpenTelemetry OpenAI Instrumentation:SDK
  18. • OpenLIT • 採集 Input、Output、Token 用 量等資訊 • 根據價格表 自

    動計算費 用 • 客製化 Dashboards LLM Observability - OpenLIT  OpenLIT 資料流 圖 片 來源:OpenLIT Doc OpenLIT Dashboard 圖 片 來源:OpenLIT Doc
  19. LLM Observability - OpenLIT SDK  • OpenLIT SDK 產

    生 資訊可以轉存 至 其他相容服務,如 Promtheus、Tempo OpenLIT Grafana Dashboard 圖 片 來源:OpenLIT Doc OpenLIT 資料流調整為 Grafana Stack
  20. LLM Observability - OpenTelemetry OpenAI Instrumentation  • OpenTelemetry OpenAI

    Instrumentation • 採集 Input、Output、Token 用 量等資訊 Trace 內容
  21. LLM 如何幫助可觀測性 - 常 見 問題排除流程  圖 片 來源:Loki:

    Prometheus-inspired, open source logging for cloud natives 分析 處理 分析結果 資訊 知識
  22. 常 見 問題排除流程 - LLM 可以協助的地 方  • 善於閱讀

    大 量資料 • Metrics、Logs、Traces、程式碼、 文 件 • 提供意 見 & 執 行 修正 • 2 4 / 7 Agentic • 即時分析與處理 分析 處理 分析結果 資訊 知識 {
  23. 常 見 問題排除流程 - LLM 怎麼取得資料 • 資訊 • Grafana

    MCP Server • 查詢 Prometheus Metrics、Loki Logs、Alerts • Tempo MCP Server • Tempo v 2 . 9 . 0 內建 MCP Server,查詢 Traces 資料 • 知識 • 系統架構、資料查詢技巧、Postmortem • 透過 Prompt、Skills(Claude)、RAG 強化 分析 處理 分析結果 資訊 知識
  24. 常 見 問題排除流程 - LLM 怎麼取得資料 • 資訊 • Grafana

    MCP Server • 查詢 Prometheus Metrics、Loki Logs、Alerts • Tempo MCP Server • Tempo v 2 . 9 . 0 內建 MCP Server,查詢 Traces 資料 • 知識 • 系統架構、資料查詢技巧、Postmortem • 透過 Prompt、Skills(Claude)、RAG 強化 分析 處理 分析結果 資訊 知識
  25. LLM 如何幫助可觀測性案例 - Pro fi les 解析  • Pro

    fi les 用 於分析程式 片 段的 CPU 與 記憶體使 用 狀況 • Grafana 旗下的 Pyroscope 用 於收集 Pro fi les 資料,搭配 LLM Plugin 後可 以解釋 火 焰圖結果,並提供優化意 見 • 範例:Plugin - Drilldown 使 用 Pro fi les Drilldown 查看結果
  26. LLM 如何幫助可觀測性案例 - 告警解析與根因分析  • 使 用 Grafana MCP

    跟 GitHub MCP 排查問題 • 範例:Grafana Zero to Hero Use Case: Grafana with LLM 從 Alerting 發現有 Request High Latency 的問題
  27. LLM 如何幫助可觀測性案例 - 告警解析與根因分析 cont.  提供 Claude Code Base

    與要解決的問題等資訊,搭配 Grafana MCP 與 GitHub MCP 查找根因
  28. LLM 如何幫助可觀測性案例 - Dashboard 生 成  • 透過 Grafana

    MCP 查詢現有指標,並建 立 Dashboard 根據 PostgreSQL Server Exporter 建 立 的 Dashboard
  29. 常 見 問題排除流程 - LLM 怎麼取得資料 • 資訊 • Grafana

    MCP Server • 查詢 Prometheus Metrics、Loki Logs、Alerts • Tempo MCP Server • Tempo v 2 . 9 . 0 內建 MCP Server,查詢 Traces 資料 • 知識 • 系統架構、資料查詢技巧、Postmortem • 透過 Prompt、Skills(Claude)、RAG 強化 分析 處理 分析結果 資訊 知識
  30. LLM 如何幫助可觀測性案例 - 強化背景知識  • 主動提供知識可以提 高 效率,避免 LLM

    瞎猜 • Observability • Prometheus Metrics PromQL 技巧 • Tempo TraceQL、Loki LogQL 技巧 • Observability Signals 關聯建 立方 式 • 系統架構 • 架構圖、業務邏輯 • 可 用 的 Metrics 種類與意義 • Observability Signals Label/Attribute 與服務間的對應 盲 人 摸象,圖 片 來源:Sketchplanations
  31. LLM 如何幫助可觀測性 - AI 錯誤的代價  • 提供意 見 &

    執 行 修正 • 提供意 見 :浪費時間 • 執 行 修正:嚴重後果 e.g. Drop Prod DB • 人 好像 比 較少犯錯? • 信 心 程度不夠時, 人 會規避 風 險 • 緩解 方 式 • 防 止人 類錯誤的機制也適 用 於 AI • 人工 核可、藍綠佈署、 金 絲雀佈署 etc. 圖 片 來源:Tenor
  32. Recap  • 透過各種資訊,清楚了解系統狀態 • 資訊的 生 成、收集、儲存、使 用 •

    連接資料孤島,建 立 關聯,產 生 綜效 • 利 用 SDK 收集 LLM 運 行 資訊 • MCP 提供 LLM 資訊 • Prompt、Skill、RAG 強化 LLM 知識 可觀測性 可觀測性與 LLM
  33. 延伸閱讀  • Demo Project • FastAPI Observability • Spring

    Boot Observability • FastAPI Tracing with Jaeger through OpenTelemetry • OpenTelemetry Application Performance Management • 時光之鏡:透視過去、現在與未來的 Observability:概念、 工 具與應 用 • Grafana Zero to Hero:Grafana 基礎操作與進階應 用 • Observability 1 0 1 :從零開始了解可觀測性:可觀測性基礎介紹 • 全 方 位強化 Python 服務可觀測性:以 FastAPI 和 Grafana Stack 為例