Slide 1

Slide 1 text

OBSERV ABILIDADE& RESPOST AAINCIDENTES CONSTRUINDO UMA CULTURA QUE ESCALA ALEXANDRECISNEIROS ERICYOSHIMURA

Slide 2

Slide 2 text

observabilidade OU SEJA: 
 OQUEESTÁACONTECENDO? “Observabilidade, na teoria de controle, é uma medida quão bem podem os estados de um sistema ser inferidos a partir do conhecimento de suas saídas externas.” OBSERVABILIDADE | O QUÊ?

Slide 3

Slide 3 text

por que nos importamos? QUEREMOSTOMARRISCOSCALCULADOS
 PARACRESCERRAPIDAMENTE COMSEGURANÇA OBSERVABILIDADE | POR QUÊ?

Slide 4

Slide 4 text

~250 MICROSSERVIÇOS ~240 PESSOAS NA ENGENHARIA DE SOFTWARE >1B >8.5M REQUISIÇÕES/DIA CLIENTES NUBANK | COMPLEXIDADE

Slide 5

Slide 5 text

|LOGS AGREGADOS |MÉTRICAS EM TEMPO REAL |ALERTAS E ON-CALL |TRACING DISTRIBUIDO FERRAMENTAS | TIPOS

Slide 6

Slide 6 text

Prometheus: coleta de métricas, armazenamento e consultas. FERRAMENTAS | MÉTRICAS

Slide 7

Slide 7 text

FERRAMENTAS | MÉTRICAS Thanos: agregação de consultas em múltiplos Prometheus, permitindo alta disponibilidade e agregações.

Slide 8

Slide 8 text

Alertmanager: avalia consultas e dispara alertas baseado em limiares. FERRAMENTAS | ALERTAS

Slide 9

Slide 9 text

Splunk: agregação de logs, consulta e monitoramento baseado no conteúdo dos logs. FERRAMENTAS | LOGS

Slide 10

Slide 10 text

Jaeger: tracing distribuido para monitorar sistemas distribuidos FERRAMENTAS | TRACING

Slide 11

Slide 11 text

ferramentas não são a solução! PRECISAMOSCRIARUMACUL TURA FERRAMENTAS | CULTURA

Slide 12

Slide 12 text

Instrumentar coisas precisa ser fácil! CRIANDO
 uma
 cultura 1 Faça com que tudo por padrão já venha instrumentado 2 Automatize o máximo possível 3 Documente como customizar

Slide 13

Slide 13 text

CULTURA | INSTRUMENTAÇÃO 1 Faça com que tudo por padrão já venha instrumentado "#" !"#" !"#"

Slide 14

Slide 14 text

CULTURA | INSTRUMENTAÇÃO 2 Automatize o máximo possível $$$ $$$$ $$$$

Slide 15

Slide 15 text

CULTURA | INSTRUMENTAÇÃO 3 Documente como customizar &'( %&'( %&'(

Slide 16

Slide 16 text

Defina maneiras padronizadas de medição! CRIANDO
 uma
 cultura 1 Use unidades de medida de maneira consistente 2 Crie padrões de nomenclaturas de métricas e dimensões 3 Padronize funções de agregação

Slide 17

Slide 17 text

Tenha um protocolo de resposta a incidentes CRIANDO
 uma
 cultura 1 Defina um canal de comunicação bem visível 2 Deixe claro os papeis existentes na resolução do problema 3 Incentive investigações para aprendizado e melhorias, sem culpas

Slide 18

Slide 18 text

CULTURA | RESPOSTA A INCIDENTES 1 Defina um canal de comunicação bem visível #CRASH

Slide 19

Slide 19 text

CULTURA | RESPOSTA A INCIDENTES 2 Deixe claro os papeis existentes na resolução do problema )*+☝ #CRASH

Slide 20

Slide 20 text

CULTURA | RESPOSTA A INCIDENTES 2 Deixe claro os papeis existentes na resolução do problema )*+☝ #CRASH

Slide 21

Slide 21 text

CULTURA | RESPOSTA A INCIDENTES 2 Deixe claro os papeis existentes na resolução do problema )*+☝ #CRASH

Slide 22

Slide 22 text

CULTURA | RESPOSTA A INCIDENTES 2 Deixe claro os papeis existentes na resolução do problema )*+☝ #CRASH

Slide 23

Slide 23 text

CULTURA | RESPOSTA A INCIDENTES 2 Deixe claro os papeis existentes na resolução do problema )*+☝ #CRASH

Slide 24

Slide 24 text

CULTURA | RESPOSTA A INCIDENTES 2 Deixe claro os papeis existentes na resolução do problema )*+☝ #CRASH

Slide 25

Slide 25 text

CULTURA | RESPOSTA A INCIDENTES --- ---- ---- 3 Incentive investigações para aprendizado e melhorias, sem culpas RESUMODOINCIDENTE IMPACTONONEGÓCIO LIÇÕESAPRENDIDAS CAUSARAIZ AÇÕESFUTURAS

Slide 26

Slide 26 text

A L E R T A S REALMENTE
 ÚTEIS RESULTADOS | ALERTAS

Slide 27

Slide 27 text

A L E R T A S REALMENTE
 ÚTEIS RESULTADOS | ALERTAS

Slide 28

Slide 28 text

A L E R T A S REALMENTE
 ÚTEIS RESULTADOS | ALERTAS

Slide 29

Slide 29 text

A L E R T A S REALMENTE
 ÚTEIS RESULTADOS | ALERTAS

Slide 30

Slide 30 text

BUSINESS ANALYST 
 ACQUISITION ENGINEER 
 ACQUISITION XPECIALIST
 ACQUISITION ENGINEER 
 NUCONTA TM 
 ACQUISITION ENGINEER 
 ACQUISITION ENGINEER 
 CM SWAT
 ACQUISITION P R O T O C O L O DERESPOSTA
 AINCIDENTES RESULTADOS | INCIDENTES

Slide 31

Slide 31 text

P O S T MORTEM
 REVIEW RESULTADOS | POST MORTEMS

Slide 32

Slide 32 text

DICA: NÃO SUBESTIME O TRABALHO DE ROLLOUT E O PODER DA AUTOMAÇÃO. comece cedo!

Slide 33

Slide 33 text

definaseu
 escopo! DICA: VOCÊ NÃO NECESSARIAMENTE PRECISA DE TODAS ESSAS FERRAMENTAS PARA COMEÇAR. MÉTRICAS E LOGS SÃO UM BOM PONTO DE PARTIDA.

Slide 34

Slide 34 text

DICA: NÃO CONCENTRE O TRABALHO NUMA PESSOA OU NUMA EQUIPE, DESENVOLVA A PLATAFORMA PARA TODOS façapara escalar!

Slide 35

Slide 35 text

[email protected] [email protected] PERGUNTAS & FEEDBACK ESTAMOS CONTRATANDO! sou.nu/jobs-at-nubank fale conosco no coffee :) obrigado!

Slide 36

Slide 36 text

No content