Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Alerte, tout brûle ! Comment gérer des incident...

Horgix
November 08, 2024

Alerte, tout brûle ! Comment gérer des incidents techniques — BDX I/O 2024 (2024-11-08)

🇫🇷 version below / version 🇫🇷 plus loin

This is the slide deck of a talk presented at the BDX I/O conference in November 2024 in Bordeaux by Alexis "Horgix" Chotard about incident management. Pitch in French below.

Ceci est le deck de slides d'un talk présenté à la conférence BDX I/O en novembre 2024 à Bordeaux par Alexis "Horgix" Chotard sur le sujet de la gestion d'incident. Pitch ci-dessous.

Chez PayFit, malgré le côté "licorne scale-up", tout est loin d'être rose et plein de paillettes : en moyenne, sur les 6 derniers mois, nous avons un incident par jour — de gravité différente bien sûr.

Venez découvrir comment, en l'espace d'un an, nous sommes passé d'une culture où le mot "incident" n'existait même pas et où les problèmes soudains étaient cachés dans des board Jira obscurs, à aujourd'hui où nous nous sommes outillés et organisés pour les gérer sereinement et s'en servir comme leviers d'une démarche d'amélioration continue et de réduction de la dette technique.

Au programme :

- Évaluer la sévérité d'un incident
- Communiquer en interne
- Communiquer publiquement
- Mitigations, troubleshooting, et autre
- Outillage & automatisation
- Post-mortems
- Un mot sur l'astreinte

Vous ressortirez de ce talk avec un retour d'expérience concret sur la manière dont nous gérons nos incidents chez PayFit, et le chemin que nous avons parcouru pour en arriver à une approche saine et constructive, incluant bien sûr des idées et tips que vous pourrez appliquer chez vous si besoin !

Horgix

November 08, 2024
Tweet

More Decks by Horgix

Other Decks in Technology

Transcript

  1. 1 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Alerte, tout brûle ! Comment gérer des incidents techniques Alexis “Horgix” Chotard 08 nov. 2024
  2. 2 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques “Staff” SRE & autres trucs ❤ Automatisation ❤ Rust ❤ Cloud Native ❤ Open Source @Horgix.bsky.social Horgix Alexis “Horgix” Chotard Horgix
  3. 3 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Introduction Pourquoi ce talk ?
  4. 4 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Ophélie “Customer success” (support client) @PayFit
  5. 5 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Baloo Un client pas imaginaire … mais renommé !
  6. 6 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Interaction entre le support client de PayFit et Baloo <Redacted> <Quelqu’un comme Ophélie> <Baloo> <Baloo>
  7. 7 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Notre objectif ? Éviter ce genre de situation !
  8. 8 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  9. 9 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques 🚨 Alerte 🚨 La cuvée secrète Château BDX I/O a été ouverte en avance et est toxique 😱
  10. 10 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Spoiler : on va parler d’Incident.io Plusieurs fois. Mais plus tard pour de vrai.
  11. 11 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques La notion d’incident
  12. 12 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques "Un incident, c'est n'importe quoi qui vous éloigne de votre travail planifié avec un certain degré d'urgence." https://incident.io/guide/foundations/defining-an-incident
  13. 13 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Incident vs Bug Un lien éventuel, mais pas toujours
  14. 14 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Incident vs Maintenance planifiée Rien à voir !
  15. 15 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Faites confiance aux gens et à leur instinct/feeling. Si quelqu'un pense qu'il y a un incident, c'est que c'est sûrement le cas
  16. 16 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Est-ce que notre incident en est vraiment un ?
  17. 17 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Est-ce que notre incident en est vraiment un ? Oui bien sûr !
  18. 18 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Sévérité / Criticité “Si vous passez plus de temps à discuter de la sévérité de l'incident qu'à le résoudre, c'est un problème.” https://incident.io/guide/foundations/severities
  19. 19 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Oubliez les matrices de sévérité & compagnie
  20. 20 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Sévérité / Criticité SEV-1, SEV-2, SEV-3, SEV-4 Au jugé, favorisation à la hausse (+ revue)
  21. 21 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Quelle est la sévérité de l’ouverture du Château BDX I/O en avance ? Votez !
  22. 22 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Prévenir Le meilleur incident c'est celui que l'on a pas.
  23. 23 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Tests de charge, Chaos Engineering, Canary release, … Le risque ne sera jamais à 0% pour autant :)
  24. 24 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Humain & organisation
  25. 25 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  26. 26 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Incident Commander Celui qui déclare l’incident, puis souvent → l’Engineering Manager de l’équipe la plus proche du problème
  27. 27 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Qui veut être commander sur notre incident ? Orchestrer les discussions Passer les annonces, informer
  28. 28 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  29. 29 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  30. 30 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Rotation d’astreinte En l’absence de “follow the sun”, il faut quelqu’un qui puisse se réveiller !
  31. 31 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  32. 32 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Rotation d’astreinte S’organiser
  33. 33 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  34. 34 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  35. 35 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Astreinte Équipe centralisée : ~6 personnes, exclusivement des SRE. Un jour, les équipes produit ?
  36. 36 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques On pourrait faire un talk dédié à l’astreinte… Allez voir le talk de Damien Pacaud dont je parlais plus tôt ! (ou alors, venez discuter après le talk)
  37. 37 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Outils et (pratiques) tech
  38. 38 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Outils et (pratiques) tech Détection → Alerte → Communication & Troubleshooting → Résolution → Amélioration
  39. 39 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Détecter et s’organiser Alerte & escalade
  40. 40 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  41. 41 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Communiquer de l’information Publiquement, mais pas que
  42. 42 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  43. 43 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  44. 44 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques https://status.payfit.com
  45. 45 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Communiquer via les canaux classiques. Emails, réseaux sociaux, etc. Bon courage pour convaincre vos département légaux & “branding” !
  46. 46 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Communication intégrée dans votre application Bannières, notifications, etc.
  47. 47 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Communiquer en interne Peu importe les canaux.
  48. 48 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  49. 49 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques S’améliorer Sur les incidents eux-mêmes… mais aussi sur leur gestion
  50. 50 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Mesurez MTRR (response / repair), fréquence, temps passé, etc
  51. 51 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  52. 52 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  53. 53 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  54. 54 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques KCCNC → Hackathon → Live!
  55. 55 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Demo ? :)
  56. 56 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Ressources ▼ Anatomy of a Production Kubernetes Outage Oliver Beattie, Monzo Bank – KubeCon+CloudNativeCon EU 2018 @ Amsterdam https://www.youtube.com/watch?v=OUYTNywPk-s https://community.monzo.com/t/resolved-current-account-payments-may-fail-major-outage-27-10-2017/26296/95 ▼ Chaos management during a major incident Aish Raj Dahal, PagerDuty – dotScale 2017 @ Paris https://www.youtube.com/watch?v=8pPrtf1J1Z8 ▼ Mise à l'échelle d'une équipe d'astreinte dans un contexte de forte croissance Damien Pacaud, Teads – DevOps REX 2017 @ Paris https://www.youtube.com/watch?v=cwrOHZhUxcI https://www.slideshare.net/slideshow/devops-rex-2018-mise-lchelle-dune-quipe-dastreinte-dans-un-contexte-de-forte-croissance/121528582 ▼ Site Reliability Engineering – Antoine Leblanc, Google — Google Cloud Summit 2017 @ Paris https://www.youtube.com/watch?v=ZKbU5OIXuxs ▼ https://incident.io/guide <3
  57. 57 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Take away Les choses à retenir
  58. 58 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Take away ▼ Incident.io c'est génial. Foncez. ▼ Faites confiance aux gens et à leur instinct & capacités. ▼ Ayez de l'empathie. Que ça soit pour vos clients ou vos collègues (techniques ou non). Particulièrement le support client, ils en ont besoin ! ▼ Ayez une forme d’ “incident commanders” sur les incidents. ▼ Considérez les incidents d'un point de vue produit, pas juste technique. Impliquez & “éduquez” vos Product Owners/Managers ! ▼ Allez y pas à pas et améliorez itérativement chaque étape du cycle d’un incident.
  59. 59 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Hâte d’aller boire un verre après la conférence ? Rassurez-vous, le Château BDX I/O n’est pas toxique :) Bon, en même temps il n’existe pas… encore 👀
  60. 60 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Merci ! Et bon courage à ceux qui sont d’astreinte ce soir :)
  61. 61 08 nov. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Alerte, tout brûle ! Comment gérer des incidents techniques Alexis “Horgix” Chotard 08 nov. 2024 Q&A Votre feedback compte <REDACTED> Il fallait être là pendant la conférence :) Merci ! Slides → https://bsky.app/profile/Horgix.bsky.social → Venez me voir après le talk / autour d’un verre