Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
當 Grafana 遇見 LLM:AI 時代的可觀測性
Search
Blueswen
November 19, 2025
Programming
0
28
當 Grafana 遇見 LLM:AI 時代的可觀測性
當 Grafana 遇見 LLM:AI 時代的可觀測性
Lab:
https://github.com/blueswen/observability-with-llm
Blueswen
November 19, 2025
Tweet
Share
More Decks by Blueswen
See All by Blueswen
從零到一:搭建你的第一個 Observability 平台
blueswen
1
1.2k
快速入門可觀測性
blueswen
1
760
全方位強化 Python 服務可觀測性:以 FastAPI 和 Grafana Stack 為例
blueswen
1
1.5k
Observability 101:從零開始了解可觀測性
blueswen
0
330
從零開始打造可觀測性平台
blueswen
3
2.3k
國泰人壽的可觀測性實踐
blueswen
0
250
Other Decks in Programming
See All in Programming
ビルドプロセスをデバッグしよう!
yt8492
0
310
チーム開発の “地ならし"
konifar
7
4.6k
OSS開発者の憂鬱
yusukebe
12
4.2k
CSC509 Lecture 13
javiergs
PRO
0
250
Java_プロセスのメモリ監視の落とし穴_NMT_で見抜けない_glibc_キャッシュ問題_.pdf
ntt_dsol_java
0
190
CSC509 Lecture 10
javiergs
PRO
0
170
TVerのWeb内製化 - 開発スピードと品質を両立させるまでの道のり
techtver
PRO
3
1k
Querying Design System デザインシステムの意思決定を支える構造検索
ikumatadokoro
1
1.1k
予防に勝る防御なし(2025年版) - 堅牢なコードを導く様々な設計のヒント / Growing Reliable Code PHP Conference Fukuoka 2025
twada
PRO
37
12k
『実践MLOps』から学ぶ DevOps for ML
nsakki55
2
390
2026年向け会社紹介資料
misu
0
190
最新のDirectX12で使えるレイトレ周りの機能追加について
projectasura
0
240
Featured
See All Featured
The Power of CSS Pseudo Elements
geoffreycrofte
80
6.1k
4 Signs Your Business is Dying
shpigford
186
22k
Site-Speed That Sticks
csswizardry
13
960
Bash Introduction
62gerente
615
210k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
9.7k
RailsConf 2023
tenderlove
30
1.3k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
130k
Large-scale JavaScript Application Architecture
addyosmani
514
110k
Context Engineering - Making Every Token Count
addyosmani
10
390
Embracing the Ebb and Flow
colly
88
4.9k
Making the Leap to Tech Lead
cromwellryan
135
9.6k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
10
670
Transcript
劉義瑋 Blueswen 當 Grafana 遇 見 LLM:AI 時代的可觀測性
自 介 • 劉義瑋 Blueswen • blueswen @ GitHub
• Grafana Champion • 領域 • DevOps • Observability • Developer Experience
Outline • 可觀測性基礎概念介紹 • 可觀測性資訊 • 可觀測性如何幫助 LLM •
LLM 如何幫助可觀測性 圖 片 來源:Grafana
Status Page OpenAI Status Page Claude Status Page
None
當你的服務倒了,你能找到是哪塊積 木 出問題了嗎?
可觀測性讓你清楚知道系統哪裡發 生 問題
可觀測性基礎概念介紹
Observability Intro 圖 片 來源:Multi-Cloud Monitoring: A Cloud Security
Essential Observability 系統可被觀測或測量的 一 種特性
Observability Intro 有 足 夠的資訊嗎? 透過各種資訊,清楚了解系統狀態 Log 工 具
指標儀表板 APM 工 具 是否散落各處,形成資料孤島?
Observability Intro - Signals 有 足 夠的資訊嗎? 透過各種資訊,清楚了解系統狀態 Log
工 具 指標儀表板 APM 工 具 是否散落各處,形成資料孤島?
Observability Signals - 可觀測性資訊 指標 不同時間採樣的系統量化指標 如:CPU 使 用
率、API 回應時間 日 誌 紀錄系統中發 生 的事情 如:Debug 訊息、Exception 分散式追蹤 紀錄 行 為在不同服務中的歷程 如:SSO 行 為橫跨多個服務 系統主動揭露讓我們能夠更理解它的資訊
Observability Signals - 可觀測性資訊 徵狀:有問題發 生 脈絡:怎麼發 生 的
發 生 什麼事 哪裡發 生 的 狀況如何 系統主動揭露讓我們能夠更理解它的資訊
Observability Signals - 應 用 於問題排除 圖 片 來源:Loki:
Prometheus-inspired, open source logging for cloud natives 徵狀 脈絡
Observability Intro - Platform 有 足 夠的資訊嗎? 是否散落各處,形成資料孤島? 透過各種資訊,清楚了解系統狀態
Log 工 具 指標儀表板 APM 工 具
Observability Platform - Grafana Metrics 儀表板範例 OpenTelemetry Application Performance
Management Grafana Labs 開源的資料視覺化與儀表板 工 具,並提供告警功能
Observability Platform - Grafana Grafana 檢視 Log
Observability Platform - Grafana Grafana 檢視 Trace
Observability Platform - Grafana 圖 片 來源:Grafana 支 援各種不同的資料來源(Data
Source) Prometheus、ElasticSearch、PostgreSQL、Jaeger、Google Sheet
Observability Intro Observability Signals Grafana 連接資料孤島 透過各種資訊,清楚了解系統狀態 Log
工 具 指標儀表板 APM 工 具
可觀測性資訊
Observability Signals - Data Flow
Observability Signals - Data Flow 生 成 收集 儲存
使 用 資訊處理四步驟
Observability Signals - Data Flow 生 成 收集 儲存
使 用 了解 工 具在 Data Flow 中的定位
Metrics - Prometheus • Prometheus • 監控(Monitoring)與告警(Alerting) 工 具
• 2012 年由 SoundCloud 開發並開源 • 2024 年 11 月 進 入 3.0 版本 • 收集不同時間點的量化指標,儲存後能以 PromQL 語法查詢 Prometheus Metrics 爬取 使 用 PromQL查詢 生 成 收集 儲存 使 用
Observability Signals Data Flow - Metrics Prometheus Metrics Exporter
Prometheus Client Library 生 成 收集 儲存 使 用
Observability Signals Data Flow - Logs Logging Library 生
成 收集 儲存 使 用
Traces(Distributed Tracing) • 監控跨服務請求,利 用 統 一 的 Trace
ID 關聯 一 個 行 為在不同服務之間的歷程 與資訊,例如:執 行 時間、請求來源 IP、SQL 語法、錯誤訊息等
Traces - OpenTelemetry • OpenTelemetry • CNCF Project, 目
前主流的 Trace 規範,已經有超過 90 個組織 支 援 • 2019 年由 OpenTracing 與 OpenCensus 合併 而 成 • 處理 Telemetry Data(Metrics、Logs、Traces)的 API、SDK、Tool 組合包 API SDK Tool 資料格式(OTLP) 傳輸 方 式(HTTP、gRPC) 開發 工 具 Instrumentation Telemetry Data Collector
Observability Signals Data Flow - Traces 生 成 收集
儲存 使 用
Observability Signals Data Flow - Basic 基礎的 Observability Signals
Data Flow
Observability Signals - 資訊交互應 用 圖 片 來源:CNCF Observability
Whitepaper Observability Signals 彼此具有關聯,例如時間區段、Trace ID 透過交互應 用 產 生 綜效
Observability Signals - 資訊交互應 用 Exemplar 時間區段同步 Trace ID
連結
資訊交互應 用 - Metrics vs Logs 利 用 同步時間功能同時查詢
Metrics 與 Logs
資訊交互應 用 - Traces vs Logs 利 用 Trace
ID 查詢對應 Log
Observability Signals - 資訊交互應 用 PyCon Taiwan 2 0
2 4 - 全 方 位強化 Python 服務可觀測性:以 FastAPI 和 Grafana Stack 為例 範例 Demo 影 片
可觀測性如何幫助 LLM Application
LLM Observability Tools • 基於 OpenTelemetry 的各種 Observability 工
具 • 提供 Tracing、Metrics、成本與評估功能等 • Langfuse:SDK、客製化平台 • OpenLLMetry:SDK、客製化平台 • OpenLIT:SDK、客製化平台 • OpenTelemetry OpenAI Instrumentation:SDK
• OpenLIT • 採集 Input、Output、Token 用 量等資訊 • 根據價格表 自
動計算費 用 • 客製化 Dashboards LLM Observability - OpenLIT OpenLIT 資料流 圖 片 來源:OpenLIT Doc OpenLIT Dashboard 圖 片 來源:OpenLIT Doc
LLM Observability - OpenLIT SDK • OpenLIT SDK 產
生 資訊可以轉存 至 其他相容服務,如 Promtheus、Tempo OpenLIT Grafana Dashboard 圖 片 來源:OpenLIT Doc OpenLIT 資料流調整為 Grafana Stack
LLM Observability - OpenTelemetry OpenAI Instrumentation • OpenTelemetry OpenAI
Instrumentation • 採集 Input、Output、Token 用 量等資訊 Trace 內容
應 用 案例 - AutoGen Multi-Agent Observability • 範例:Autogen
Observability Multi-Agent Trace Data
應 用 案例 - AutoGen Multi-Agent Observability OpenLIT Grafana
Dashboard OpenLIT Trace Data
LLM 如何幫助可觀測性
LLM 如何幫助可觀測性 - 常 見 問題排除流程 圖 片 來源:Loki:
Prometheus-inspired, open source logging for cloud natives 分析 處理 分析結果 資訊 知識
常 見 問題排除流程 - LLM 可以協助的地 方 • 善於閱讀
大 量資料 • Metrics、Logs、Traces、程式碼、 文 件 • 提供意 見 & 執 行 修正 • 2 4 / 7 Agentic • 即時分析與處理 分析 處理 分析結果 資訊 知識 {
常 見 問題排除流程 - LLM 怎麼取得資料 • 資訊 • Grafana
MCP Server • 查詢 Prometheus Metrics、Loki Logs、Alerts • Tempo MCP Server • Tempo v 2 . 9 . 0 內建 MCP Server,查詢 Traces 資料 • 知識 • 系統架構、資料查詢技巧、Postmortem • 透過 Prompt、Skills(Claude)、RAG 強化 分析 處理 分析結果 資訊 知識
常 見 問題排除流程 - LLM 怎麼取得資料 • 資訊 • Grafana
MCP Server • 查詢 Prometheus Metrics、Loki Logs、Alerts • Tempo MCP Server • Tempo v 2 . 9 . 0 內建 MCP Server,查詢 Traces 資料 • 知識 • 系統架構、資料查詢技巧、Postmortem • 透過 Prompt、Skills(Claude)、RAG 強化 分析 處理 分析結果 資訊 知識
LLM 如何幫助可觀測性案例 - Pro fi les 解析 • Pro
fi les 用 於分析程式 片 段的 CPU 與 記憶體使 用 狀況 • Grafana 旗下的 Pyroscope 用 於收集 Pro fi les 資料,搭配 LLM Plugin 後可 以解釋 火 焰圖結果,並提供優化意 見 • 範例:Plugin - Drilldown 使 用 Pro fi les Drilldown 查看結果
LLM 如何幫助可觀測性案例 - 告警解析與根因分析 • 使 用 Grafana MCP
跟 GitHub MCP 排查問題 • 範例:Grafana Zero to Hero Use Case: Grafana with LLM 從 Alerting 發現有 Request High Latency 的問題
LLM 如何幫助可觀測性案例 - 告警解析與根因分析 cont. 讓 Claude 總結 Alert
內容
LLM 如何幫助可觀測性案例 - 告警解析與根因分析 cont. 提供 Claude Code Base
與要解決的問題等資訊,搭配 Grafana MCP 與 GitHub MCP 查找根因
LLM 如何幫助可觀測性案例 - Dashboard 生 成 • 透過 Grafana
MCP 查詢現有指標,並建 立 Dashboard 根據 PostgreSQL Server Exporter 建 立 的 Dashboard
常 見 問題排除流程 - LLM 怎麼取得資料 • 資訊 • Grafana
MCP Server • 查詢 Prometheus Metrics、Loki Logs、Alerts • Tempo MCP Server • Tempo v 2 . 9 . 0 內建 MCP Server,查詢 Traces 資料 • 知識 • 系統架構、資料查詢技巧、Postmortem • 透過 Prompt、Skills(Claude)、RAG 強化 分析 處理 分析結果 資訊 知識
LLM 如何幫助可觀測性案例 - 強化背景知識 • 主動提供知識可以提 高 效率,避免 LLM
瞎猜 • Observability • Prometheus Metrics PromQL 技巧 • Tempo TraceQL、Loki LogQL 技巧 • Observability Signals 關聯建 立方 式 • 系統架構 • 架構圖、業務邏輯 • 可 用 的 Metrics 種類與意義 • Observability Signals Label/Attribute 與服務間的對應 盲 人 摸象,圖 片 來源:Sketchplanations
LLM 如何幫助可觀測性案例 - 強化背景知識 cont. • OpenTelemetry Demo:擬真電商系統,微服務架構 •
範例:OpenTelemetry Demo App with LLM 電商平台 OpenTelemetry Demo 架構圖
LLM 如何幫助可觀測性案例 - 強化背景知識 cont. 問題初步診斷
LLM 如何幫助可觀測性案例 - 強化背景知識 cont. 詳細資訊追問
LLM 如何幫助可觀測性 - AI 錯誤的代價 • 提供意 見 &
執 行 修正 • 提供意 見 :浪費時間 • 執 行 修正:嚴重後果 e.g. Drop Prod DB • 人 好像 比 較少犯錯? • 信 心 程度不夠時, 人 會規避 風 險 • 緩解 方 式 • 防 止人 類錯誤的機制也適 用 於 AI • 人工 核可、藍綠佈署、 金 絲雀佈署 etc. 圖 片 來源:Tenor
Recap • 透過各種資訊,清楚了解系統狀態 • 資訊的 生 成、收集、儲存、使 用 •
連接資料孤島,建 立 關聯,產 生 綜效 • 利 用 SDK 收集 LLM 運 行 資訊 • MCP 提供 LLM 資訊 • Prompt、Skill、RAG 強化 LLM 知識 可觀測性 可觀測性與 LLM
延伸閱讀 • Demo Project • FastAPI Observability • Spring
Boot Observability • FastAPI Tracing with Jaeger through OpenTelemetry • OpenTelemetry Application Performance Management • 時光之鏡:透視過去、現在與未來的 Observability:概念、 工 具與應 用 • Grafana Zero to Hero:Grafana 基礎操作與進階應 用 • Observability 1 0 1 :從零開始了解可觀測性:可觀測性基礎介紹 • 全 方 位強化 Python 服務可觀測性:以 FastAPI 和 Grafana Stack 為例
工 商時間 可觀測性概念、 工 具介紹 天瓏網路書店 Grafana 入門 手
冊、應 用 案例 天瓏網路書店 預購中!