acidente 2. Engenheiro é punido, envergonhado, culpado ou reprimido 3. Reduz a confiança entre engenheiros e a gerência fica procurando alguém como bode expiatório 4. Engenheiros ficam em silêncio sobre detalhes de ações/situações/observações, resultando na engenharia de "Cover-Your-Ass (pelo medo de punição) 5. Gerentes tornam-se menos conscientes e informados sobre o desempenho do trabalho do dia a dia, engenheiros se tornam menos preparados ou condição latente para falha devido ao silêncio mencionado no passo #4 6. Erros tornam-se mais prováveis, condição latente para eles não serem identificadas devido ao passo #5 7. Repete a partir do passo #1
gratificante, mas é como fazer xixi nas calças. Você sente aliviado, talvez mesmo até agradável e aquecido por algum tempo, mas depois fica frio e desconfortável. E você parece um idiota. The Field Guide to Understanding Human Error - Sidney Dekker
• Dizer o que as pessoas deveriam ter feito é um forma satisfatória para descrever um fracasso • Dizer às pessoas para serem mais cuidadosas fará com que o problema desapareça Primeira história - A visão antiga do erro humano
sistêmica profunda dentro de uma organização • Dizer o que as pessoas deveriam ter feito não explica porque fazia sentido fazer o que faziam • Somente procurando constantemente suas vulnerabilidades as organizações podem melhorar a segurança Segunda história - A nova visão do erro humano
responsabilidade quando alguma coisa dá errado na sua organização • Just Culture significa que irá fazer o esforço para balancear a segurança e a responsabilidade Dekker em Just Culture
significa que você está se esforçando para ter um equilíbrio entre responsabilidade e segurança. Isso significa que investigar os erros focado nos aspectos situacionais dos mecanismos de uma falha e o processo de tomada de decisão dos indivíduos próximos à falha, uma organização pode ficar mais segura do que normalmente seria se tivesse simplesmente punindo os atores envolvidos, como também uma remediação” https://codeascraft.com/2012/05/22/blameless-postmortems/
através de análise e retrospectiva para identificar as causa(s)-raiz de uma falha ou incidente. Como um processo de feedback loop, deve-se encaminhar mudanças de código, designer ou processos organizacionais para que não ocorra novamente uma falha ou incidente.
há uma única causa-raíz. Os eventos isolados, geralmente, não causariam um incidente mas a relação de causa e efeito de cada evento numa sequência que explica muitas vezes como o incidente ocorreu.
dos eventos deve analisar não só gráficos, logs e ações tomadas como também processos e design dos sistemas/produtos. Deve ir a fundo para identificar débito técnico, não conhecimento de práticas e técnicas pela(s) equipe(s) envolvidas.
não só os papéis que estiveram nas atividades de resolução de um incidente, também todos os papéis em torno das aplicações envolvidas num incidente. Exemplo: • Desenvolvedores • Sysadmin/SREs • Segurança • QAs • PO/PM
uma técnica interrogativa iterativa criada por Sakichi Toyoda para explorar a relação de causa-efeito de um determinado problema no processo fabril na Toyota
sintomas e não continuar investigando mais profundamente até encontrar as causas-raiz” “A falta de habilidade de quem está investigando além dos atuais conhecimentos” “ Dificuldade em apoiar e facilitar quem está investigando a fazer as pergunta certas” “Dificuldade de reproduzir os resultados: equipes diferentes usando a técnica do 5 Whys chegam em causa diferentes ao mesmo problema” https://www.adb.org/sites/default/files/publication/27641/five-whys-technique.pdf
quais irão produzir um compilador COBOL e outro em ALGOL. Depois de algumas estimativas iniciais da dificuldade e de tempo, cinco pessoas são designadas para trabalhar no compilador COBOL e três para o compilador ALGOL. O resultado será que o compilador COBOL terá 5 etapas e o compilador ALGOL terá 3.”
cooperação Cooperação modesta Altamente cooperativa Mata o mensageiro Mensageiros são negligenciados Mensageiros são treinados Evita responsabilidades Diminui as responsabilidades Riscos são compartilhados Desencoraja construir pontes Construção de pontes são toleradas Construção de pontes são encorajadas Procura-se um bode expiatório para culpar em caso de falhas Procura-se fazer "justiça" em caso de falha Procura-se investigar procurando o problema no "sistema" Impede novidades Novidades são problemas Novidades são implementadas Uma Tipologia da Cultura Organizacional - Ron Westrum
Gitlab postmortem live document Gitlab postmortem report HootSuite Timeline in the Whiteboard Postmortem collection 5 Whys Resilience Engineering: Learning to Embrace Failure Gameday The Field Guide to Understanding Human Error Blameless PostMortems and a Just Culture VictorOps Guide to Blameless Post-mortems It's Not Your Fault - Blameless Post-mortems