Monitoring @ ContaAzul

Monitoramento @ ContaAzul

Carlos Alexandro Becker SRE @ ContaAzul @caarlos0 https://carlosbecker.com

Arquitetura de X anos atrás

Arquitetura antiga - Crontabs - .sh espalhados por aí -
v1 - zabbix - nagios - v2 - collectd - statsd - Librato - email - v3 - Librato - VictorOps - Slack

Problemas - Librato: 1m - Cron: 1m - Em menos
de 1m atendimento já recebia ligações dos usuários - Librato nos alertava depois de 5m+ - Falta de padrões (nomenclatura e etc) - Alertas criados (ou não) manualmente para cada serviço - Shells aleatórios espalhados aleatoriamente em lugares aleatórios - Queries esquecidas - Muitos falsos positivos - Não tinha prioridade, todos os alertas eram critical

tldr: difícil de manter e caótico

muitos falsos positivos = alertas sendo ignorados

"ahh, esse alerta é normal"

Arquitetura Nova

Prometheus - Criado originalmente na Soundcloud, vários ex-Google contribuem -
segundo projeto a fazer parte da CNCF (junto com k8s) - Granularidade de 1s - Sugerido pelos engenheiros da Google no "SRE bible" - Simples e robusto - Padrões já definidos - Extensível por meio de custom exporters - Service discovery - Federation

node_exporter - collectd + collectd_exporter até funcionava - collectd bugado,
difícil atualizar, quebrava direto - node_exporter integra direto com o prometheus - baixar e executar um binário com 0 deps

Prometheus 2 - melhorias de performance - mudança formato de
.rules pra .yaml - resolvido bug antigo de "stale metrics" - N outras melhorias

Prometheus 2: upgrade - estamos com o prometheus 1.8.2 e
2.0.0 rodando - prometheus 1 em read-only - prometheus 2 faz "remote read" no prometheus 1 - eventualmente vamos deixar apenas o prometheus 2 rodando https://prometheus.io/docs/prometheus/2.0/migration/

Arquitetura

Vida de um alerta...

Quem estiver on-call - Investiga o incidente - Se for
um incidente real resolve e/ou liga pra alguém ajudar a resolver, ajusta status page - Se for um falso-positivo, corrige o alerta

O que ganhamos com tudo isso?

Ganhamos: - Alertas de CPU/memória/disco e etc automáticos - Processo
de pull-request + code review - CI/CD de toda a infraestrutura de monitoramento - Formatação padrão de regras - Mais robustez na definição de alertas e rotas

Exemplos

Alertas

Dúvidas?

thanks

Monitoring @ ContaAzul

Monitoring @ ContaAzul

Carlos Alexandro Becker

More Decks by Carlos Alexandro Becker

Other Decks in Programming

Featured

Transcript

Monitoramento @ ContaAzul

Carlos Alexandro Becker SRE @ ContaAzul @caarlos0 https://carlosbecker.com

Arquitetura de X anos atrás

Arquitetura antiga - Crontabs - .sh espalhados por aí -

Problemas - Librato: 1m - Cron: 1m - Em menos

tldr: difícil de manter e caótico

muitos falsos positivos = alertas sendo ignorados

"ahh, esse alerta é normal"

Arquitetura Nova

Prometheus - Criado originalmente na Soundcloud, vários ex-Google contribuem -

node_exporter - collectd + collectd_exporter até funcionava - collectd bugado,

Prometheus 2 - melhorias de performance - mudança formato de

Prometheus 2: upgrade - estamos com o prometheus 1.8.2 e

Arquitetura

Vida de um alerta...

Quem estiver on-call - Investiga o incidente - Se for

O que ganhamos com tudo isso?

Ganhamos: - Alertas de CPU/memória/disco e etc automáticos - Processo

Exemplos

CI/CD

Alertas

Dúvidas?

thanks