Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DevOps e Site Reliability Engineering

DevOps e Site Reliability Engineering

Victor Bogo

May 26, 2020
Tweet

More Decks by Victor Bogo

Other Decks in Technology

Transcript

  1. 6

  2. 7

  3. 8

  4. 10 developers operators - novas funcionalidades o mais rápido possível

    - foco no código - quanto menos mudança mais estável - foco na infraestrutura Desenvolvimento de software tradicional
  5. código novo === problemas novos 11 developers operators pq tanto

    tempo para o deploy? Desenvolvimento de software tradicional
  6. ‘‘ 14 …DevOps é a combinação de filosofias culturais, práticas

    e ferramentas que aumentam a capacidade de uma empresa de distribuir aplicativos e serviços em alta velocidade… (AWS) DevOps
  7. 17 Confiabilidade? A capacidade de ser confiável - Se o

    sistema não fica no ar, ele se torna menos confiável - Se o sistema apresenta muitos erros, ele se torna menos confiável - Se o sistema não é confiável, seus usuário não vão contar com ele - Se os usuário não contarem com o sistema, eles tendem a não usar
  8. 18 Exemplo Uber - Você está saindo de uma festa

    as 4h da manhã e precisa ir para casa - Por algum motivo, o Uber não está funcionando e você precisa esperar horas por um Taxi
  9. 20 Exemplo Google GSuite - Você gerencia uma empresa com

    500 funcionários - Por um problema técnico, o G Suite fica fora do ar por 3 horas - Ninguém consegue ler e-mail, utilizar o calendário nem gerenciar documentos no Google Drive
  10. 21 Confiabilidade? A capacidade de ser confiável Uma das maiores

    conquistas do Google foi ele ser tão confiável que as pessoas passaram a acessar ele para saber se a internet estava funcionando
  11. 24

  12. 26 Monitoramento + SLI e SLO SLI = Service Level

    Indicator = Indicador a nível de serviço SLO = Service Level Objective = Objetivo a nível de serviço
  13. 27 SLI = Service Level Indicator = Indicador a nível

    de serviço Monitoramento + SLI e SLO
  14. 28 Monitoramento + SLI e SLO SLO = Service Level

    Objective = Objetivo a nível de serviço SLI < 50
  15. 29 Monitoramento + SLI e SLO SLO = Service Level

    Objective = Objetivo a nível de serviço SLO = SLI < 50 SLI = 30 Error Budget = 20
  16. 30 Monitoramento + SLI e SLO SLO = Service Level

    Objective = Objetivo a nível de serviço SLO = SLI < 50 SLI = 70 Error Budget = -20
  17. 32 Documento vivo sobre um determinado incidente Blameless Postmortem -

    Como o problema ocorreu? - Quais foram as causas raizes? - O que podemos fazer para evitar que ele ocorra novamente?
  18. 33 BLAMELESS alguém toma uma ação que leva a um

    incidente esta pessoa é culpada por isto a pessoa se sente mal e fica com medo um novo incidente ocorre a pessoa não conta sobre ele por medo de ser culpada deixamos de aprender sobre o incidente e melhorar
  19. 34

  20. 39 Quando a engenharia de software se junta com a

    operação - Criação e desenvolvimento de software - Práticas de qualidade de código - Automatização de trabalho repetitivo - Sistemas operacionais - Redes de computadores - Monitoramento
  21. 40 Principais skills - Práticas de engenharia de software -

    Pensamento analítico - Senso de urgência e autocontrole - Sistemas operacionais https://roadmap.sh/devops