Apresentação no Meetup do IFood Engineering sobre Site Reliability Engineering, termo criado originalmente pelo Google para abordagem de Engenharia de Software para Operações de TI.
Software para Operação de TI (Infraestrutura), ajudando as equipes encontrar o equilíbrio de lançar novas funcionalidades e garantir a confiabilidade delas para os usuários.
e cultura projetada para quebrar silos em desenvolvimento, operações, arquitetura, rede e segurança. Site Reliability Engineering é uma maneira de implementar DevOps baseado na aplicação de Engenharia de Software em Operações de TI.
aspecto do nível de serviço” https://www.blameless.com/blog/sli-slo-sla Exemplos: • Latência ou Disponibilidade em Tempo de resposta em milissegundos • Taxa de erro por requests/sec • Taxa de requisições por segundo • Recurso ou sistema utilizado
de valores para um nível de serviço mensurado por um mais indicadores de SLI • SLI <= Objetivo • Limite menor ou maior que o SLI https://www.blameless.com/blog/sli-slo-sla
incidente para encontrar o entendimento da cadeia de eventos e as causa(s)-raíz(es) geradoras. Um incidente nunca ocorre somente por uma falha humana, ele é uma relação de diversas interações entre pessoas, sistemas (software) e processos.
relacionada de um serviço em produção que tende ser manual, repetitivo, automatizável, tático, sem valor duradouro e que escala linearmente quando um serviço cresce.
não satisfação de realização • Burnout • Maior incidência de erros, resultando em maior quantidade de retrabalho • Sem tempo para aprender novas habilidades • Estagnação na carreira (falta de oportunidade de participar de projetos que agreguem valor)
de capacidade da equipe • Custo excessivo do suporte operacional (Ops) • Inabilidade de conduzir iniciativas estratégicas. • Inabilidade para reter talentos ou adquirir talentos.
e formas das equipes “clientes” (devs, cientistas de dados, etc) tenham autonomia no Ciclo de Desenvolvimento de Software (SLDC) Confiabilidade e Resiliência Incentiva a adoção de arquiteturas e soluções pelo olhar de confiabilidade e resiliência de modo que não impacte profundamente o Lead Time.
que você pode explicar o que está acontecendo por dentro apenas observando do lado de fora. https://www.honeycomb.io/blog/best-practices-for-observability/
plantões? • O fluxo de escalonamento de um incidente é claro? Ex: Quando acionar N2, N3 de um produto/aplicação • Há base de conhecimento facilmente acessível para os plantonistas? • A rotação dos plantonistas está organizada equilibrada para os plantonistas o descansarem o suficiente? • A política de remuneração do plantão e sobreaviso é clara?
falhas como algo normal: Error budgets e blameless postmortems Implement mudanças graduais (small batches): Reduz o custo de falha Leverage tooling and automation: Automatizar os casos comuns Métrica de tudo: Métrica para toil e confiabilidade
SRE Book Google - The Site Reliable Workbook Blameless - The Essential Guide DevOps Key Metrics - Accelerate Book Honeycomb - Achieving Observability Fernando Ike - Site Reliability Engineering Fernando Ike - Blameless Postmortem 10Deploys - Episódio 019 Kanbanize - What is Jidoka?