Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Resposta de Incidentes na Equipe Google SRE

Resposta de Incidentes na Equipe Google SRE

Como foi a sua experiência ao lidar com o seu último grande incidente? Entender como agir em equipe durante um grande incidente é essencial para limitar o seu impacto. Nesta palestra vamos aprender como a equipe Google SRE lida com grandes incidentes de forma rápida e efetiva.

Em todos os serviços que tem o suporte de uma equipe SRE há sempre a preparação para que este seja resistente a falhas. Mesmo assim, haverá um dia em que um grande incidente vai acontecer, e aí o impacto é determinado principalmente pelas práticas resposta de incidente da equipe responsável pelo serviço.

O grande desafio é que a maioria das pessoas não tem uma resposta natural que favoreça uma resposta efetiva nestes casos. A equipe Google SRE tem um protocolo sobre como lidar com incidentes maiores de forma bastante efetiva. Nós vamos entender como o protocolo funciona e vamos falar sobre treinamentos de resposta de incidentes para as pessoas oncall para cada serviço.

Daniel van Ham Colchete

April 10, 2019
Tweet

Other Decks in Technology

Transcript

  1. Proprietary + Confidential Resposta de Incidentes na equipe Google SRE

  2. Daniel van Ham Colchete vham@ • Google 2½ anos ◦

    Bigtable SRE - 1½ anos ◦ Ads SRE - 1 ano ◦ Instrutor / co-autor SRE-Edu • MAV Tecnologia - Diretor - 14 anos Cliffs of Moher, Ireland Vale a pena ver...
  3. Proprietary + Confidential3 Resposta natural a incidentes (para a maioria

    pelo menos) Você tem 3 segundos para acertar o botão!
  4. Resposta natural a incidentes Foco exclusivo no problema técnico •

    Foco na operação, sem olhar a situação de forma ampla Falhas de comunicação • Ocupado demais para comunicar bem. Líderes de negócios frustrados Avulsos • Pessoas com as melhores intenções, mas não coordenam com ninguém 4
  5. Proprietary + Confidential5 Exemplo Real de Incidente do Google Um

    caso crítico o suficiente
  6. Incidente de Redes Google Cloud #18012 (July 2018) Ou: Google

    SRE visto de fora
  7. Incidente de Redes Google Cloud #18012 Fonte: https://status.cloud.google.com/incident/cloud-networking/18012 • "Balanceadores

    de Carga Google HTTP(S) (...) tiveram taxas de erros elevadas entre 33% e 87% durante 32 minutos." • Novas funcionalidades "foram introduzidas no código fonte da segunda camada de GFEs sem serem ativadas" • "Uma das funcionalidades continha um bug" que "não foi detectado durante testes e implantação inicial."
  8. Google Cloud Networking Incident #18012 Incident timeline 12:19 SREs acionados

    12:17 Começo de incidente 12:44 - Causa raiz descoberta - Nova versão disponível 12:55 Fim de incidente 12:49 Taxa de erros cai Source: https://status.cloud.google.com/incident/cloud-networking/18012 ??????????
  9. Proprietary + Confidential9 Processo de gestão de incidentes

  10. Processo de gestão de incidentes • O processo de gestão

    de incidentes do Google é baseado no Incident Command System da agência FEMA (USA) ◦ fema.gov/national-incident-management-system 10
  11. Separação de responsabilidades em cadeia • Todos os envolvidos sabem

    as suas responsabilidades • Não interfira na responsabilidade do outro • Esta separação permite mais autonomia e menos adivinhação. • Se alguém ficar sobrecarregado o trabalho é dividido 11
  12. Papéis típicos em um incidente (1) Comandante de incidente •

    Visão abrangente do incidente • Delega tarefas (ou é quem as faz) Líder de operação • Coordena e delega trabalhos de operações • Apenas o time de operações pode executar mudanças no sistema 12
  13. Papéis típicos em um incidente (2) Líder de Comunicação •

    É a cara da força tarefa do incidente • Envia atualizações frequentes para a equipe e stakeholders Líder de Planejamento • Responsável pelo longo prazo ◦ Abrir bugs, prepara transferências, limpeza dos sistemas, pede a janta 13
  14. Transferência pessoal e clara de responsabilidades • A transferência de

    papéis nunca é implícita. A participação pessoal explícita dos envolvidos é necessária. • A mudança de Comandante de Incidente é sempre claramente comunicada a todos. 14
  15. • Resumo, comandante do incidente, cadeia de comando, histórico, etc

    • Atualizações frequentes, editado por várias pessoas ao mesmo tempo • Pode ser uma bagunça, mas é fácil de usar e editar Documento de estado do incidente 15
  16. Boas práticas para implantar o protocolo Estabeleça prioridades Esteja preparado

    Confiança na equipe Permita introspecção 16 Pense em alternativas Pratique Troca de papeis
  17. Proprietary + Confidential Tem mais duas coisas

  18. Source: Lorem ipsum dolor sit amet, consectetur adipiscing elit. Duis

    non erat sem Livros Google SRE Tem versão em português!
  19. Source: Lorem ipsum dolor sit amet, consectetur adipiscing elit. Duis

    non erat sem Pequisa State of Devops #2019SODR Busque por #2019SODR Aberto até 3 / 5 / 2019
  20. Obrigado! Perguntas? Escritório do Google em Madrid Sim, é divertido

    trabalhar aqui :-) Por favor mande seu feedback