Les meilleures pratiques pour rassembler les données relatives aux personnes et les systèmes, et comment utiliser ces données pour formuler des plans de réponse exploitables afin d'éviter les échecs répétés.
récupérer des données ne coûte pas trop cher ▸ Ne pas l’avoir quand vous en avez besoin peut être très coûteux ▸ « Si ça bouge, nous le surveillons. Parfois nous allons suivre quelque chose au cas où il bouge soudainement. » - Ian Malpass (codeascraft.com)
? ▸ Tout le monde ? Pas exactement… ▸ « Responder » ▸ Les intervenants (premier et ceux qui suivent) ▸ « Identifier » ▸ Les témoins (observateurs) ▸ « Affected Users » ▸ Les victimes (ceux qui sont touchés par l’évènement)
? ▸ Leurs perspectives, pensées, impressions, recollections, souvenirs ▸ Ce qu’ils ont fait ▸ Ce qu’ils pensaient ▸ Pourquoi ils ont pensé / réagit d’une telle manière
« L’écriture est la façon dont la nature vous montre à quel point votre pensée est bâclée. » - Richard Guindon ▸ « Une image vaut mille mots. » - Traditionelle
? ▸ Dès que possible ! ▸ La fiabilité de la mémoire diminue après 20 minutes (!) ▸ La susceptibilité à l’effet de « fausse mémoire » augmente après 2 jours
Les post-mortems sont partagés avec l’ensemble de l’organisation ▸ Des réunions régulières sont programmées pour examiner les post-mortems récents ▸ Tout le monde est invité - les nouveaux employés sont particulièrement encouragés à participer
avons détecté le problème rapidement ? Si non, pourquoi ? Nous le détecterions encore dans le futur ? ▸ Avons-nous une mesure qui montre la panne ? ▸ Y avait-il un alerte associé avec cette métrique ? ▸ Combien de temps nous a fallu pour déclarer une panne ?
était le chef (« owner ») de l’incident ? Qui d’autre était impliqué ? ▸ Archive de la communication en temps réel (ex. Slack) avec chronologie. ▸ Qu’est-ce qui s’est bien passé ? ▸ Qu’est-ce qui doit être amélioré ?
▸ Ce n’est pas nécessaire (ni une bonne idée) de copier / coller les conversations entières directement dans le post-mortem ▸ Des captures d’écran suffit pour visualiser des instants particulièrement pertinent - pour la reste, des liens vers les archives
Plonger dans la situation ▸ Accepter que la cause primaire (« root cause ») pourrait ne jamais être identifié ▸ Des exemples : ▸ http://bit.ly/dd-statuspage ▸ http://bit.ly/alq-postmortem
post-mortem : http://bit.ly/postmortem-template ▸ « The Infinite Hows » par John Allspaw : http://bit.ly/infinite-hows ▸ « Blameless Post-mortems » par John Allspaw : http://bit.ly/etsy-blameless ▸ « Blameless Post-mortems don’t work » par J. Paul Reed : http://bit.ly/blameless-dont-work ▸ « The Human Side of Post-mortems » par Dave Zweibeck : http://bit.ly/human-postmortem