Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Alerte, tout brûle ! Comment gérer des incident...

Alerte, tout brûle ! Comment gérer des incidents techniques — BreizhCamp 2024 (2024-06-28)

🇫🇷 version below / version 🇫🇷 plus loin

This is the slide deck of a talk presented at the BreizhCamp conference in June 2024 in Rennes by Alexis "Horgix" Chotard about incident management. Pitch en French below.

Ceci est le deck de slides d'un talk présenté à la conférence BreizhCamp en juin 2024 à Rennes par Alexis "Horgix" Chotard sur le sujet de la gestion d'incident. Pitch ci-dessous.

Chez PayFit, malgré le côté "licorne scale-up", tout est loin d'être rose et plein de paillettes : en moyenne, sur les 6 derniers mois, nous avons un incident par jour — de gravité différente bien sûr.

Venez découvrir comment, en l'espace d'un an, nous sommes passé d'une culture où le mot "incident" n'existait même pas et où les problèmes soudains étaient cachés dans des board Jira obscurs, à aujourd'hui où nous nous sommes outillés et organisés pour les gérer sereinement et s'en servir comme leviers d'une démarche d'amélioration continue et de réduction de la dette technique.

Au programme :

- Évaluer la sévérité d'un incident
- Communiquer en interne
- Communiquer publiquement
- Mitigations, troubleshooting, et autre
- Outillage & automatisation
- Post-mortems
- Un mot sur l'astreinte

Vous ressortirez de ce talk avec un retour d'expérience concret sur la manière dont nous gérons nos incidents chez PayFit, et le chemin que nous avons parcouru pour en arriver à une approche saine et constructive, incluant bien sûr des idées et tips que vous pourrez appliquer chez vous si besoin !

Horgix

June 28, 2024
Tweet

More Decks by Horgix

Other Decks in Technology

Transcript

  1. 1 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Alerte, tout brûle ! Comment gérer des incidents techniques Alexis “Horgix” Chotard 28 juin 2024
  2. 2 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques SRE & autres trucs ❤ Automatisation ❤ Rust ❤ Cloud Native ❤ Open Source @Horgix Horgix Alexis “Horgix” Chotard Horgix
  3. 3 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Introduction Pourquoi ce talk ?
  4. 4 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Ophélie “Customer success” (support client) @PayFit
  5. 5 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Baloo Un client pas imaginaire … mais renommé !
  6. 6 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Interaction entre le support client de PayFit et Baloo <Redacted> <Quelqu’un comme Ophélie> <Baloo> <Baloo>
  7. 7 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Notre objectif ? Éviter ce genre de situation !
  8. 8 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  9. 9 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques 🚨 Alerte 🚨 Il n’y a plus de café à Breizhcamp ☕ 😱 Nicolas
  10. 10 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Spoiler : on va parler d’Incident.io Plusieurs fois. Mais plus tard pour de vrai.
  11. 11 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques La notion d’incident
  12. 12 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques "Un incident, c'est n'importe quoi qui vous éloigne de votre travail planifié avec un certain degré d'urgence." https://incident.io/guide/foundations/defining-an-incident Vibes de Martin Fowler un peu non ?
  13. 13 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Faites confiance aux gens et à leur instinct/feeling. Si quelqu'un pense qu'il y a un incident, c'est que c'est sûrement le cas
  14. 14 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Est-ce que notre incident en est vraiment un ? Oui bien sûr ! Nicolas
  15. 15 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Incident vs Bug Un lien éventuel, mais pas toujours
  16. 16 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Incident vs Maintenance planifiée Rien à voir !
  17. 17 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Sévérité / Criticité “Si vous passez plus de temps à discuter de la sévérité de l'incident qu'à le résoudre, c'est un problème.”
  18. 18 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Oubliez les matrices de sévérité & compagnie
  19. 19 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Sévérité / Criticité SEV-1, SEV-2, SEV-3, SEV-4
  20. 20 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Quelle est la sévérité de notre manque de café ? Votez ! Nicolas
  21. 21 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Prévenir Le meilleur incident c'est celui que l'on a pas.
  22. 22 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Tests de charge, Chaos Engineering, Canary release, … Le risque ne sera jamais à 0% pour autant :)
  23. 23 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Humain & organisation
  24. 24 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  25. 25 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Qui veut être commander sur notre incident ? Orchestrer les discussions Passer les annonces, informer Nicolas
  26. 26 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  27. 27 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  28. 28 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Rotation d’astreinte En l’absence de “follow the sun”, il faut quelqu’un qui puisse se réveiller !
  29. 29 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  30. 30 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Rotation d’astreinte S’organiser
  31. 31 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  32. 32 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  33. 33 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques On pourrait faire un talk dédié à l’astreinte… Allez voir le talk de Damien Pascaud dont je parlais plus tôt ! (ou alors, posez des questions à la fin)
  34. 34 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Outils et (pratiques) tech
  35. 35 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Détecter et s’organiser Alerte & escalade
  36. 36 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  37. 37 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  38. 38 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Communiquer de l’information Publiquement, mais pas que
  39. 39 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  40. 40 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  41. 41 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques https://status.payfit.com
  42. 42 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Communication intégrée dans votre application Bannières, notifications, etc.
  43. 43 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Communiquer en interne Peu importe les canaux.
  44. 44 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  45. 45 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques S’améliorer Sur les incidents eux-mêmes… mais aussi sur leur gestion
  46. 46 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Mesurez MTRR (response / repair), fréquence, temps passé, etc
  47. 47 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  48. 48 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  49. 49 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  50. 50 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques KCCNC → Hackathon → Live!
  51. 51 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Demo ? :)
  52. 52 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Take away Les choses à retenir
  53. 53 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Ressources ▼ Anatomy of a Production Kubernetes Outage Oliver Beattie, Monzo Bank – KubeCon+CloudNativeCon EU 2018 @ Amsterdam https://www.youtube.com/watch?v=OUYTNywPk-s https://community.monzo.com/t/resolved-current-account-payments-may-fail-major-outage-27-10-2017/26296/95 ▼ Chaos management during a major incident Aish Raj Dahal, PagerDuty – dotScale 2017 @ Paris https://www.youtube.com/watch?v=8pPrtf1J1Z8 ▼ Mise à l'échelle d'une équipe d'astreinte dans un contexte de forte croissance Damien Pacaud, Teads – DevOps REX 2017 @ Paris https://www.youtube.com/watch?v=cwrOHZhUxcI https://www.slideshare.net/slideshow/devops-rex-2018-mise-lchelle-dune-quipe-dastreinte-dans-un-contexte-de-forte-croissance/121528582 ▼ Site Reliability Engineering – Antoine Leblanc, Google — Google Cloud Summit 2017 @ Paris https://www.youtube.com/watch?v=ZKbU5OIXuxs ▼ https://incident.io/guide <3
  54. 54 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Take away ▼ Ayez de l'empathie. Que ça soit pour vos clients ou vos collègues (techniques ou non). Particulièrement le support client, ils en ont besoin ! ▼ Faites confiance aux gens et à leur instinct & capacités ▼ Considérez les incidents d'un point de vue produit, pas juste technique. Éduquez vos Product Owners/Managers ! ▼ Incident.io c'est génial. Foncez. ▼ Allez y pas à pas. ▼ Allez à des conférences pour découvrir des choses qui vous seront utiles (Coucou !)
  55. 55 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Votre café vous manque ? Rassurez-vous, Nicolas est bien là :) Nicolas
  56. 56 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Merci ! Et allez voter dimanche :)
  57. 57 28 juin 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Alerte, tout brûle ! Comment gérer des incidents techniques Alexis “Horgix” Chotard 28 juin 2024 Q&A Votre feedback compte <3 Allez voter dimanche :) Merci ! <REDACTED> Il fallait être là pendant la conférence :)