Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
InfluxDB + Grafana
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
Celso Crivelaro
July 08, 2016
Technology
0
260
InfluxDB + Grafana
InfluxDB + Grafana: Telemetria na sua plataforma.
Celso Crivelaro
July 08, 2016
Tweet
Share
More Decks by Celso Crivelaro
See All by Celso Crivelaro
Sistemas de Recomendação
celsocrivelaro
2
230
Big Data para Gerentes de Projetos
celsocrivelaro
0
66
FileSystems em Ruby com FUSE
celsocrivelaro
2
72
Padrões e Boas Práticas de Teste de Tela
celsocrivelaro
0
430
Projeto de APIs
celsocrivelaro
0
160
Testing Network Conditions with ToxiProxy
celsocrivelaro
1
390
Testing Network Conditions with ToxiProxy
celsocrivelaro
0
83
Actor Model in Ruby
celsocrivelaro
0
260
Separando as regras de negócios do Rails
celsocrivelaro
0
180
Other Decks in Technology
See All in Technology
Digitization部 紹介資料
sansan33
PRO
1
6.8k
SREチームをどう作り、どう育てるか ― Findy横断SREのマネジメント
rvirus0817
0
310
登壇駆動学習のすすめ — CfPのネタの見つけ方と書くときに意識していること
bicstone
3
120
予期せぬコストの急増を障害のように扱う――「コスト版ポストモーテム」の導入とその後の改善
muziyoshiz
1
2k
コスト削減から「セキュリティと利便性」を担うプラットフォームへ
sansantech
PRO
3
1.5k
セキュリティについて学ぶ会 / 2026 01 25 Takamatsu WordPress Meetup
rocketmartue
1
310
All About Sansan – for New Global Engineers
sansan33
PRO
1
1.4k
Amazon Bedrock Knowledge Basesチャンキング解説!
aoinoguchi
0
150
[CV勉強会@関東 World Model 読み会] Orbis: Overcoming Challenges of Long-Horizon Prediction in Driving World Models (Mousakhan+, NeurIPS 2025)
abemii
0
140
日本の85%が使う公共SaaSは、どう育ったのか
taketakekaho
1
230
データの整合性を保ちたいだけなんだ
shoheimitani
8
3.2k
Why Organizations Fail: ノーベル経済学賞「国家はなぜ衰退するのか」から考えるアジャイル組織論
kawaguti
PRO
1
100
Featured
See All Featured
The Illustrated Guide to Node.js - THAT Conference 2024
reverentgeek
0
260
The innovator’s Mindset - Leading Through an Era of Exponential Change - McGill University 2025
jdejongh
PRO
1
93
JAMstack: Web Apps at Ludicrous Speed - All Things Open 2022
reverentgeek
1
350
A brief & incomplete history of UX Design for the World Wide Web: 1989–2019
jct
1
300
Building Flexible Design Systems
yeseniaperezcruz
330
40k
The Art of Programming - Codeland 2020
erikaheidi
57
14k
The Director’s Chair: Orchestrating AI for Truly Effective Learning
tmiket
1
97
Marketing to machines
jonoalderson
1
4.6k
Exploring anti-patterns in Rails
aemeredith
2
250
The B2B funnel & how to create a winning content strategy
katarinadahlin
PRO
1
280
Chasing Engaging Ingredients in Design
codingconduct
0
110
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.4k
Transcript
InfluxDB + Grafana Telemetria na sua plataforma Celso Crivelaro @celsocrivelaro
DEVELOPER @
None
None
Por quê?
Crise da Plataforma
"O software está lento..."
None
Healthcheck OK! Logs OK! Testes manuais OK!
Corrigimos o problema, mas ainda ficou a falta de visibilidade…
Healthcheck: OK / NOK Não tínhamos números dos tempos da
plataforma Era muito difícil perceber tendências e casos estranhos Logs apenas mostram operações Clientes percebiam problemas antes da gente
1a IDEIA Fazer um teste de carga
Dev / QA / Produção Diferentes Não dá para quebrar
Produção Iria querer muito tempo de dev/ops O número iria mostrar apenas o teto da plataforma
2a IDEIA Monitorações das máquinas
Monitoramento de memória / carga / disco / filas As
máquinas estavam OK, a app não Qualquer variação da métrica causava alvoroço
3a IDEIA Telemetria
Inspirações
None
None
https://www.youtube.com/watch?v=czes-oa0yik
Com o quê?
App influxdb-ruby influxdb-python
Série Temporal SQL Like / Schemaless Boa documentação Funções nativas
com tempo
Estrutura do dado
Equivale a uma tabela SQL Chave primária Time Measurement Values
Tags Chaves-valor da medida, não indexados Metadados indexados, sempre strings cpu_load load=30,temperature=50 server=name1,region=EMEA POINT
> SELECT * FROM policy_entry name: policy_entry ------------------ time cache_hit
host success time 1464013724 1 saasauth0005 1 0.35 Fetching data
> SELECT * FROM policy_entry name: policy_entry ------------------ time cache_hit
host success time 1464013724 1 saasauth0005 1 0.35 Fetching data
Funções
count percentil sum mean top max derivative difference moving_average Aggregations
Selectors Transformations
Funções de tempo
> SELECT * FROM messages where time < now() -
1h
Várias bases Gráficos + Plugins
None
Como representar os dados?
Série Temporal Padrões Média de 1 min Valores Absolutos Valores
Absolutos Série Temporal
Percentil -> Para tempo e medidas Percentil 95%
Percentil 95% Média (1 min) Percentil x Média
None
None
Obrigado! @celsocrivelaro http://crivelaro.me