Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Alerte, tout brûle ! Comment gérer des incident...

Horgix
December 06, 2024

Alerte, tout brûle ! Comment gérer des incidents techniques — DevFest Dijon 2024 (2024-12-06)

🇫🇷 version below / version 🇫🇷 plus loin

This is the slide deck of a talk presented at the DevFest Dijon conference in December 2024 in Dijon by Alexis "Horgix" Chotard about incident management. Pitch in French below.

Ceci est le deck de slides d'un talk présenté à la conférence DevFest Dijon en décembre 2024 à Dijon par Alexis "Horgix" Chotard sur le sujet de la gestion d'incident. Pitch ci-dessous.

Chez PayFit, malgré le côté "licorne scale-up", tout est loin d'être rose et plein de paillettes : en moyenne, sur les 6 derniers mois, nous avons un incident par jour — de gravité différente bien sûr.

Venez découvrir comment, en l'espace d'un an, nous sommes passé d'une culture où le mot "incident" n'existait même pas et où les problèmes soudains étaient cachés dans des board Jira obscurs, à aujourd'hui où nous nous sommes outillés et organisés pour les gérer sereinement et s'en servir comme leviers d'une démarche d'amélioration continue et de réduction de la dette technique.

Au programme :

- Évaluer la sévérité d'un incident
- Communiquer en interne
- Communiquer publiquement
- Mitigations, troubleshooting, et autre
- Outillage & automatisation
- Post-mortems
- Un mot sur l'astreinte

Vous ressortirez de ce talk avec un retour d'expérience concret sur la manière dont nous gérons nos incidents chez PayFit, et le chemin que nous avons parcouru pour en arriver à une approche saine et constructive, incluant bien sûr des idées et tips que vous pourrez appliquer chez vous si besoin !

Horgix

December 06, 2024
Tweet

More Decks by Horgix

Other Decks in Technology

Transcript

  1. 1 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Alerte, tout brûle ! Comment gérer des incidents techniques Alexis “Horgix” Chotard 06 dec. 2024
  2. 2 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques “Staff” SRE & autres trucs ❤ Automatisation ❤ Rust ❤ Cloud Native ❤ Open Source @Horgix.bsky.social Horgix Alexis “Horgix” Chotard Horgix
  3. 3 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Introduction Pourquoi ce talk ?
  4. 4 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Ophélie “Customer success” (support client) @PayFit
  5. 5 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Baloo Un client pas imaginaire … mais renommé !
  6. 6 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Interaction entre le support client de PayFit et Baloo <Redacted> <Quelqu’un comme Ophélie> <Baloo> <Baloo>
  7. 7 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Notre objectif ? Éviter ce genre de situation !
  8. 8 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  9. 9 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques 🚨 Alerte 🚨 Il n’y a plus de café au DevFest Dijon ☕ 😱 Léo
  10. 10 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Spoiler : on va parler d’Incident.io Plusieurs fois. Mais plus tard pour de vrai.
  11. 11 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques La notion d’incident La notion d’incident → Humain & Organisation → Pratiques & Outils
  12. 12 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques "Un incident, c'est n'importe quoi qui vous éloigne de votre travail planifié avec un certain degré d'urgence." https://incident.io/guide/foundations/defining-an-incident
  13. 13 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Incident vs Bug ? Un lien éventuel, mais pas toujours
  14. 14 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Incident vs Maintenance planifiée ? Rien à voir !
  15. 15 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Faites confiance aux gens et à leur instinct/feeling Si quelqu'un pense qu'il y a un incident, c'est que c'est sûrement le cas
  16. 16 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Est-ce que notre incident en est vraiment un ? Léo
  17. 17 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Est-ce que notre incident en est vraiment un ? Oui bien sûr ! Léo
  18. 18 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Sévérité / Criticité “Si vous passez plus de temps à discuter de la sévérité de l'incident qu'à le résoudre, c'est un problème.” https://incident.io/guide/foundations/severities
  19. 19 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Oubliez les matrices de sévérité & compagnie
  20. 20 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Sévérité / Criticité SEV-1, SEV-2, SEV-3, SEV-4 Au jugé, favorisation à la hausse (+ revue)
  21. 21 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Quelle est la sévérité de notre manque de café ? Votez ! Léo
  22. 22 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Prévenir Le meilleur incident c'est celui que l'on a pas.
  23. 23 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Tests de charge, Chaos Engineering, Canary release, … Mais aussi tests, mécanismes de retry, backpressure, … Le risque ne sera jamais à 0% pour autant :)
  24. 24 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Humain & organisation La notion d’incident → Humain & Organisation → Pratiques & Outils
  25. 25 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  26. 26 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Incident Commander Celui qui déclare l’incident, puis souvent → l’Engineering Manager de l’équipe la plus proche du problème
  27. 27 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Qui veut être commander sur notre incident ? Orchestrer les discussions Passer les annonces, informer Léo
  28. 28 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  29. 29 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  30. 30 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Rotation d’astreinte En l’absence de “follow the sun”, il faut quelqu’un qui puisse se réveiller !
  31. 31 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  32. 32 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Rotation d’astreinte S’organiser
  33. 33 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  34. 34 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Astreinte Équipe centralisée : ~6 personnes, exclusivement des SRE. Un jour, certaines équipes produit ?
  35. 35 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques On pourrait faire un talk dédié à l’astreinte… Allez voir le talk de Damien Pacaud dont je parlais plus tôt ! (ou alors, venez discuter après le talk)
  36. 36 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Pratiques et Outils (tech) Détection → Alerte → Communication & Troubleshooting → Résolution → Amélioration La notion d’incident → Humain & Organisation → Pratiques & Outils
  37. 37 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Détecter et s’organiser Alerte & escalade
  38. 38 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  39. 39 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Alerting ▼ Datadog “Synthetics” ▼ Slack en journée, PagerDuty la nuit ▼ Encore trop peu de métriques métier ▼ Channel partagé et ouvert avec toutes les alertes les plus critiques
  40. 40 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Propager l’information Publiquement, mais pas que
  41. 41 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  42. 42 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  43. 43 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques https://status.payfit.com
  44. 44 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Communiquer via les canaux classiques Emails, réseaux sociaux, etc. Bon courage pour convaincre vos département légaux & “branding” !
  45. 45 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Communication intégrée dans votre application Bannières, notifications, etc.
  46. 46 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Communiquer en interne Peu importe les canaux.
  47. 47 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  48. 48 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques S’améliorer Sur les incidents eux-mêmes… mais aussi sur leur gestion
  49. 49 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Mesurez MTTR (response / repair), moyens de détection, fréquence, temps passé, etc
  50. 50 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  51. 51 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  52. 52 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques
  53. 53 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques KCCNC → Hackathon → Live!
  54. 54 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Demo ? :)
  55. 55 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Take away Les choses à retenir
  56. 56 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Take away ▼ Incident.io c'est génial. Foncez. ▼ Faites confiance aux gens et à leur instinct & capacités. ▼ Ayez de l'empathie. Que ça soit pour vos clients ou vos collègues (techniques ou non). Particulièrement le support client, ils en ont besoin ! ▼ Ayez une forme d’ “incident commanders” sur les incidents. ▼ Considérez les incidents d'un point de vue produit, pas juste technique. Impliquez & sensibilisez vos Product Owners/Managers ! ▼ Allez-y pas à pas et améliorez itérativement chaque étape du cycle d’un incident.
  57. 57 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Votre café vous manque ? Rassurez-vous, Léo est toujours là :) Léo
  58. 58 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Merci ! Et bon courage à ceux qui sont d’astreinte ce soir :)
  59. 59 06 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment gérer des incidents techniques Alerte, tout brûle ! Comment gérer des incidents techniques Alexis “Horgix” Chotard 08 nov. 2024 Q&A Votre feedback compte <REDACTED> Il fallait être là pendant la conférence :) Merci ! Slides → https://bsky.app/profile/Horgix.bsky.social → Venez me voir après le talk / autour d’un verre