Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Resposta de Incidentes na Equipe Google SRE

Resposta de Incidentes na Equipe Google SRE

Como foi a sua experiência ao lidar com o seu último grande incidente? Entender como agir em equipe durante um grande incidente é essencial para limitar o seu impacto. Nesta palestra vamos aprender como a equipe Google SRE lida com grandes incidentes de forma rápida e efetiva.

Em todos os serviços que tem o suporte de uma equipe SRE há sempre a preparação para que este seja resistente a falhas. Mesmo assim, haverá um dia em que um grande incidente vai acontecer, e aí o impacto é determinado principalmente pelas práticas resposta de incidente da equipe responsável pelo serviço.

O grande desafio é que a maioria das pessoas não tem uma resposta natural que favoreça uma resposta efetiva nestes casos. A equipe Google SRE tem um protocolo sobre como lidar com incidentes maiores de forma bastante efetiva. Nós vamos entender como o protocolo funciona e vamos falar sobre treinamentos de resposta de incidentes para as pessoas oncall para cada serviço.

Daniel van Ham Colchete

April 10, 2019
Tweet

Other Decks in Technology

Transcript

  1. Daniel van Ham Colchete vham@ • Google 2½ anos ◦

    Bigtable SRE - 1½ anos ◦ Ads SRE - 1 ano ◦ Instrutor / co-autor SRE-Edu • MAV Tecnologia - Diretor - 14 anos Cliffs of Moher, Ireland Vale a pena ver...
  2. Proprietary + Confidential3 Resposta natural a incidentes (para a maioria

    pelo menos) Você tem 3 segundos para acertar o botão!
  3. Resposta natural a incidentes Foco exclusivo no problema técnico •

    Foco na operação, sem olhar a situação de forma ampla Falhas de comunicação • Ocupado demais para comunicar bem. Líderes de negócios frustrados Avulsos • Pessoas com as melhores intenções, mas não coordenam com ninguém 4
  4. Incidente de Redes Google Cloud #18012 Fonte: https://status.cloud.google.com/incident/cloud-networking/18012 • "Balanceadores

    de Carga Google HTTP(S) (...) tiveram taxas de erros elevadas entre 33% e 87% durante 32 minutos." • Novas funcionalidades "foram introduzidas no código fonte da segunda camada de GFEs sem serem ativadas" • "Uma das funcionalidades continha um bug" que "não foi detectado durante testes e implantação inicial."
  5. Google Cloud Networking Incident #18012 Incident timeline 12:19 SREs acionados

    12:17 Começo de incidente 12:44 - Causa raiz descoberta - Nova versão disponível 12:55 Fim de incidente 12:49 Taxa de erros cai Source: https://status.cloud.google.com/incident/cloud-networking/18012 ??????????
  6. Processo de gestão de incidentes • O processo de gestão

    de incidentes do Google é baseado no Incident Command System da agência FEMA (USA) ◦ fema.gov/national-incident-management-system 10
  7. Separação de responsabilidades em cadeia • Todos os envolvidos sabem

    as suas responsabilidades • Não interfira na responsabilidade do outro • Esta separação permite mais autonomia e menos adivinhação. • Se alguém ficar sobrecarregado o trabalho é dividido 11
  8. Papéis típicos em um incidente (1) Comandante de incidente •

    Visão abrangente do incidente • Delega tarefas (ou é quem as faz) Líder de operação • Coordena e delega trabalhos de operações • Apenas o time de operações pode executar mudanças no sistema 12
  9. Papéis típicos em um incidente (2) Líder de Comunicação •

    É a cara da força tarefa do incidente • Envia atualizações frequentes para a equipe e stakeholders Líder de Planejamento • Responsável pelo longo prazo ◦ Abrir bugs, prepara transferências, limpeza dos sistemas, pede a janta 13
  10. Transferência pessoal e clara de responsabilidades • A transferência de

    papéis nunca é implícita. A participação pessoal explícita dos envolvidos é necessária. • A mudança de Comandante de Incidente é sempre claramente comunicada a todos. 14
  11. • Resumo, comandante do incidente, cadeia de comando, histórico, etc

    • Atualizações frequentes, editado por várias pessoas ao mesmo tempo • Pode ser uma bagunça, mas é fácil de usar e editar Documento de estado do incidente 15
  12. Boas práticas para implantar o protocolo Estabeleça prioridades Esteja preparado

    Confiança na equipe Permita introspecção 16 Pense em alternativas Pratique Troca de papeis
  13. Source: Lorem ipsum dolor sit amet, consectetur adipiscing elit. Duis

    non erat sem Livros Google SRE Tem versão em português!
  14. Source: Lorem ipsum dolor sit amet, consectetur adipiscing elit. Duis

    non erat sem Pequisa State of Devops #2019SODR Busque por #2019SODR Aberto até 3 / 5 / 2019
  15. Obrigado! Perguntas? Escritório do Google em Madrid Sim, é divertido

    trabalhar aqui :-) Por favor mande seu feedback