Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Alerte, tout brûle ! Comment collaborer lors d'...

Horgix
December 04, 2024

Alerte, tout brûle ! Comment collaborer lors d'incidents techniques — DevOps REX 2024 (2024-12-04)

🇫🇷 version below / version 🇫🇷 plus loin

This is the slide deck of a talk presented at the DevOps REX conference in December 2024 in Paris by Alexis "Horgix" Chotard about incident management. Pitch in French below.

Ceci est le deck de slides d'un talk présenté à la conférence DevOps REX en décembre 2024 à Paris par Alexis "Horgix" Chotard sur le sujet de la gestion d'incident. Pitch ci-dessous.

Chez PayFit, malgré le côté "licorne scale-up", tout est loin d'être rose et plein de paillettes : en moyenne, sur les 6 derniers mois, nous avons un incident par jour — de gravité différente bien sûr.

Venez découvrir comment, en l'espace d'un an, nous sommes passé d'une culture où le mot "incident" n'existait même pas et où les problèmes soudains étaient cachés dans des board Jira obscurs, à aujourd'hui où nous nous sommes outillés et organisés pour les gérer sereinement et s'en servir comme leviers d'une démarche d'amélioration continue et de réduction de la dette technique.

Au programme :

- Évaluer la sévérité d'un incident
- Communiquer en interne
- Communiquer publiquement
- Mitigations, troubleshooting, et autre
- Outillage & automatisation
- Post-mortems
- Un mot sur l'astreinte

Vous ressortirez de ce talk avec un retour d'expérience concret sur la manière dont nous gérons nos incidents chez PayFit, et le chemin que nous avons parcouru pour en arriver à une approche saine et constructive, incluant bien sûr des idées et tips que vous pourrez appliquer chez vous si besoin !

Horgix

December 04, 2024
Tweet

More Decks by Horgix

Other Decks in Technology

Transcript

  1. 1 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques Alerte, tout brûle ! Comment collaborer lors d’incidents techniques Alexis “Horgix” Chotard 04 dec. 2024
  2. 2 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques “Staff” SRE & autres trucs ❤ Automatisation ❤ Rust ❤ Cloud Native ❤ Open Source @Horgix.bsky.social Horgix Alexis “Horgix” Chotard Horgix
  3. 3 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques “Les incidents, c’est pas juste un truc d’ops” Dev + Ops … + CS ?
  4. 4 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques Notre objectif ? Collaborer efficacement lors d’incidents afin de réduire la tension et de résoudre rapidement
  5. 5 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques
  6. 6 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques La notion d’incident La notion d’incident → Humain & Organisation → Pratiques & Outils
  7. 7 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques "Un incident, c'est n'importe quoi qui vous éloigne de votre travail planifié avec un certain degré d'urgence." https://incident.io/guide/foundations/defining-an-incident
  8. 8 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques Incident vs Bug ? Un lien éventuel, mais pas toujours
  9. 9 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques Faites confiance aux gens et à leur instinct/feeling Si quelqu'un pense qu'il y a un incident, c'est que c'est sûrement le cas
  10. 10 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques Sévérité / Criticité “Si vous passez plus de temps à discuter de la sévérité de l'incident qu'à le résoudre, c'est un problème.” https://incident.io/guide/foundations/severities
  11. 11 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques Oubliez les matrices de sévérité & compagnie Clairement pas juste un “truc d’Ops”
  12. 12 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques Sévérité / Criticité SEV-1, SEV-2, SEV-3, SEV-4 Au jugé, favorisation à la hausse (+ revue)
  13. 13 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques Prévenir Le meilleur incident c'est celui que l'on a pas.
  14. 14 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques Tests de charge, chaos engineering, canary release, … Mais aussi tests, mécanismes de retry, backpressure, … Le risque ne sera jamais à 0% pour autant :)
  15. 15 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques Humain & organisation La notion d’incident → Humain & Organisation → Pratiques & Outils
  16. 16 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques
  17. 17 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques Incident Commander Celui qui déclare l’incident, puis souvent → l’Engineering Manager de l’équipe la plus proche du problème
  18. 18 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques
  19. 19 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques
  20. 20 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques Rotation d’astreinte En l’absence de “follow the sun”, il faut quelqu’un qui puisse se réveiller !
  21. 21 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques
  22. 22 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques
  23. 23 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques Astreinte Équipe centralisée : ~6 personnes, exclusivement des SRE. Un jour, certaines équipes produit ?
  24. 24 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques Pratiques et Outils (tech) Détection → Alerte → Communication & Troubleshooting → Résolution → Amélioration La notion d’incident → Humain & Organisation → Pratiques & Outils
  25. 25 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques Détecter et s’organiser Alerte & escalade
  26. 26 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques
  27. 27 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques Alerting ▼ Datadog “Synthetics” ▼ Slack en journée, PagerDuty la nuit ▼ Encore trop peu de métriques métier ▼ Channel partagé et ouvert avec toutes les alertes les plus critiques
  28. 28 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques Propager l’information Publiquement, mais pas que
  29. 29 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques
  30. 30 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques
  31. 31 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques Communiquer via les canaux classiques Emails, réseaux sociaux, etc. Bon courage pour convaincre vos département légaux & “branding” !
  32. 32 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques Communication intégrée dans votre application Bannières, notifications, etc.
  33. 33 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques
  34. 34 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques S’améliorer Sur les incidents eux-mêmes… mais aussi sur leur gestion
  35. 35 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques Mesurez MTTR (response / repair), moyens de détection, fréquence, temps passé, etc.
  36. 36 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques
  37. 37 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques
  38. 38 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques
  39. 39 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques C’est vraiment cool :)
  40. 40 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques Take away Les choses à retenir
  41. 41 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques Take away ▼ Les incidents ne sont définitivement pas juste un “truc d’Ops” ▼ Faites confiance aux gens et à leur instinct & capacités. ▼ Ayez de l'empathie. Que ça soit pour vos clients ou vos collègues (techniques ou non). Particulièrement le support client, ils en ont besoin ! ▼ Ayez une forme d’ “incident commanders” sur les incidents. ▼ Considérez les incidents d'un point de vue produit, pas juste technique. Impliquez & sensibilisez vos Product Owners/Managers ! ▼ Allez-y pas à pas et améliorez itérativement chaque étape du cycle d’un incident.
  42. 42 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques Merci ! Et bon courage à ceux qui sont d’astreinte ce soir :)
  43. 43 04 dec. 2024 Alexis “@Horgix” Chotard Alerte, tout brûle

    ! Comment collaborer lors d’incidents techniques Alerte, tout brûle ! Comment collaborer lors d’incidents techniques Alexis “Horgix” Chotard 04 dec. 2024 Merci ! Slides → https://bsky.app/profile/Horgix.bsky.social Votre feedback compte <REDACTED> Il fallait être là pendant la conférence :)