Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Observabilidade e resposta a incidentes: constr...

Observabilidade e resposta a incidentes: construindo uma cultura que escala [QCon SP 2019 Community Night]

Não há como atender milhões de clientes e evoluir nossos produtos se não conseguirmos manter a estabilidade dos nossos sistemas. No Nubank, acreditamos que este é um problema de software e de cultura: Software para evitar incidentes e, quando eles acontecerem, mitigar, entender e resolvê-los.

Venha conhecer o que usamos para detectar incidentes e agir sobre eles, o que fizemos para que todos possam usar essas ferramentas sem precisarem ser especialistas em monitoramento e como criamos oportunidades fascinantes para aprender com nossas falhas e garantir que todos se sintam confortáveis para evoluir o Nubank em escalas cada vez maiores.

Alexandre Cisneiros

May 07, 2019
Tweet

More Decks by Alexandre Cisneiros

Other Decks in Programming

Transcript

  1. observabilidade OU SEJA: 
 OQUEESTÁACONTECENDO? “Observabilidade, na teoria de controle,

    é uma medida quão bem podem os estados de um sistema ser inferidos a partir do conhecimento de suas saídas externas.” OBSERVABILIDADE | O QUÊ?
  2. ~250 MICROSSERVIÇOS ~240 PESSOAS NA ENGENHARIA DE SOFTWARE >1B >8.5M

    REQUISIÇÕES/DIA CLIENTES NUBANK | COMPLEXIDADE
  3. Instrumentar coisas precisa ser fácil! CRIANDO
 uma
 cultura 1 Faça

    com que tudo por padrão já venha instrumentado 2 Automatize o máximo possível 3 Documente como customizar
  4. CULTURA | INSTRUMENTAÇÃO 1 Faça com que tudo por padrão

    já venha instrumentado "#" !"#" !"#"
  5. Defina maneiras padronizadas de medição! CRIANDO
 uma
 cultura 1 Use

    unidades de medida de maneira consistente 2 Crie padrões de nomenclaturas de métricas e dimensões 3 Padronize funções de agregação
  6. Tenha um protocolo de resposta a incidentes CRIANDO
 uma
 cultura

    1 Defina um canal de comunicação bem visível 2 Deixe claro os papeis existentes na resolução do problema 3 Incentive investigações para aprendizado e melhorias, sem culpas
  7. CULTURA | RESPOSTA A INCIDENTES 1 Defina um canal de

    comunicação bem visível #CRASH
  8. CULTURA | RESPOSTA A INCIDENTES 2 Deixe claro os papeis

    existentes na resolução do problema )*+☝ #CRASH
  9. CULTURA | RESPOSTA A INCIDENTES 2 Deixe claro os papeis

    existentes na resolução do problema )*+☝ #CRASH
  10. CULTURA | RESPOSTA A INCIDENTES 2 Deixe claro os papeis

    existentes na resolução do problema )*+☝ #CRASH
  11. CULTURA | RESPOSTA A INCIDENTES 2 Deixe claro os papeis

    existentes na resolução do problema )*+☝ #CRASH
  12. CULTURA | RESPOSTA A INCIDENTES 2 Deixe claro os papeis

    existentes na resolução do problema )*+☝ #CRASH
  13. CULTURA | RESPOSTA A INCIDENTES 2 Deixe claro os papeis

    existentes na resolução do problema )*+☝ #CRASH
  14. CULTURA | RESPOSTA A INCIDENTES --- ---- ---- 3 Incentive

    investigações para aprendizado e melhorias, sem culpas RESUMODOINCIDENTE IMPACTONONEGÓCIO LIÇÕESAPRENDIDAS CAUSARAIZ AÇÕESFUTURAS
  15. BUSINESS ANALYST 
 ACQUISITION ENGINEER 
 ACQUISITION XPECIALIST
 ACQUISITION ENGINEER

    
 NUCONTA TM 
 ACQUISITION ENGINEER 
 ACQUISITION ENGINEER 
 CM SWAT
 ACQUISITION P R O T O C O L O DERESPOSTA
 AINCIDENTES RESULTADOS | INCIDENTES
  16. definaseu
 escopo! DICA: VOCÊ NÃO NECESSARIAMENTE PRECISA DE TODAS ESSAS

    FERRAMENTAS PARA COMEÇAR. MÉTRICAS E LOGS SÃO UM BOM PONTO DE PARTIDA.
  17. DICA: NÃO CONCENTRE O TRABALHO NUMA PESSOA OU NUMA EQUIPE,

    DESENVOLVA A PLATAFORMA PARA TODOS façapara escalar!