MongoDB in a scale-up: how to get away from a monolithic hell — MongoDB Paris meetup (2024-06-04)

1 04 juin 2024 Laurentiu Capatina Alexis “Horgix” Chotard MongoDB
en scale-up Comment sortir d’un enfer monolithique MongoDB en scale-up Comment sortir d’un enfer monolithique Un retour d’expérience de PayFit, par: Laurentiu Capatina Alexis “Horgix” Chotard 04 juin 2024

en scale-up Comment sortir d’un enfer monolithique Hello, world MongoDB Paris! Alexis « Horgix » Chotard SRE chez @Horgix Horgix Horgix Laurentiu Capatina SRE chez lcapatina

en scale-up Comment sortir d’un enfer monolithique ▼ Bref historique ▼ Incidents 2023 ▼ Stabilisation ▼ Résolution long terme ▼ Bénéﬁces & limitations ▼ Take away Plan / Pitch

en scale-up Comment sortir d’un enfer monolithique MongoDB chez PayFit Un bref historique

en scale-up Comment sortir d’un enfer monolithique MongoDB chez PayFit 0. Les prémices

en scale-up Comment sortir d’un enfer monolithique ▼ 2016 : débuts de PayFit → MongoDB ▼ Depuis : Les prémices de MongoDB chez PayFit Devinez quoi ? Le “plus tard”, c’est maintenant !

en scale-up Comment sortir d’un enfer monolithique MongoDB chez PayFit tel que début 2023 1. L’architecture

en scale-up Comment sortir d’un enfer monolithique L’architecture (début 2023)

en scale-up Comment sortir d’un enfer monolithique L’architecture

en scale-up Comment sortir d’un enfer monolithique L’architecture (début 2023)

en scale-up Comment sortir d’un enfer monolithique MongoDB chez PayFit tel que début 2023 2. Le modèle de données

en scale-up Comment sortir d’un enfer monolithique ▼ JetLang ▽ Langage low-code fait maison ▽ Indirection pour le stockage de données métier ▼ Employees & Companies ▼ “Unbounded arrays” ▼ Données dupliquées d’un mois sur l’autre ▼ 16MiB documents Le modèle de données (début 2023)

en scale-up Comment sortir d’un enfer monolithique MongoDB chez PayFit tel que début 2023 3. L’utilisation

en scale-up Comment sortir d’un enfer monolithique ▼ Partagé par tout le monde ▼ Partage de Collections entre applications ▼ Requêtes de 3MiB ▼ Gestion des indexes dangereuse ▼ One-shot scripts ▼ Gestion des accès (MongoX) ▼ Versioner & snapshots L’utilisation du cluster MongoDB de PayFit (début 2023)

en scale-up Comment sortir d’un enfer monolithique MongoDB chez PayFit tel que début 2023 Les problèmes

en scale-up Comment sortir d’un enfer monolithique ▼ Blast radius conséquent ▼ Applications fortement couplées ▼ Impossibilité de scale, que ce soit up/down ou verticalement/horizontalement ▼ Des limites techniques atteintes (max document size de 16MiB) ▼ Des incidents fréquents ▼ Beaucoup de maintenance (cluster lui-même, backups, MongoX, etc.) ▼ Impossibilité de répondre à des questions basiques sur l’utilisation (observabilité) ▼ Incapacité d’attribuer l’usage et les coûts à des domaines métier ▼ Une gestion des informations de connexion très manuelle ▼ Une équipe quasiment dédiée (Data Reliability Engineering) Les problèmes

en scale-up Comment sortir d’un enfer monolithique “Datalayer” Teasing d’une des solutions mises en place

en scale-up Comment sortir d’un enfer monolithique Incidents de mars 2023 le point de bascule

en scale-up Comment sortir d’un enfer monolithique ▼ Impact sur le produit: ▽ 4h et 48min de downtime de l’application réparti sur plusieurs jours ▽ 8 jours avec une application visiblement lente ▽ 1500+ tickets clients Incidents de mars 2023…

en scale-up Comment sortir d’un enfer monolithique Incident de mars 2023 Comprendre ce qu’il se passe…

en scale-up Comment sortir d’un enfer monolithique Comprendre ce qu’il se passe…

en scale-up Comment sortir d’un enfer monolithique Un post-mortem de… 27 pages

en scale-up Comment sortir d’un enfer monolithique Incident de mars 2023 Stabiliser à court terme

en scale-up Comment sortir d’un enfer monolithique ▼ Scaling vertical à des instances r5.16xlarge (64 vCPU et 512GiB RAM) ▼ Désactivation de fonctionnalités dans l’application ▼ Changement de la stratégie de pagination dans le Datalayer ▼ Consulting avec MongoDB Inc. pour la remise en état du cluster Stabiliser court terme

en scale-up Comment sortir d’un enfer monolithique Teleport Pour le cluster self-hosted mais aussi d’autres composants tsh db connect --db-user=teleport-rw --db-name=client_dev mongo-dev

en scale-up Comment sortir d’un enfer monolithique Incident de mars 2023 Stabiliser moyen terme

en scale-up Comment sortir d’un enfer monolithique ▼ Analyze des queries lentes: ▽ création d’indexes ▽ réduction/améliorations des queries ▼ Uniformiser l’accès humain via Teleport ▼ Consulting avec MongoDB Inc. étalé sur un an après mars 2023 ▼ Amélioration au niveau de la logique applicative (ex: lazy compute) ▼ Poursuite de la migration vers l’utilisation du Datalayer pour les data “core” Stabiliser moyen terme

en scale-up Comment sortir d’un enfer monolithique Résolvons le problème pour de bon. Sortie de notre MongoDB self-hosted monolithique

en scale-up Comment sortir d’un enfer monolithique ▼ Contexte : ▽ Services managés (“Engineering Tenets”) ▽ Autonomie des équipes ▽ DDD (& Events) ▽ Attention aux coûts / gâchis ▼ Choix / Décisions : ▽ 1. Lift & shift ? → Non; breakdown & DDD ▽ 2. Upgrade ? → Non; risque & point ﬁxe ▽ 3. AWS DocumentDB vs MongoDB Atlas → Atlas ▽ 4. MongoDB Atlas setup: network, projects, clusters access, etc. Résolution long terme

en scale-up Comment sortir d’un enfer monolithique ▼ Synchronisation Okta pour accéder à l’UI et API d’Atlas ▼ Network peering (Private Endpoint) ▼ Structure: “projects” ▼ Définition d’une politique de backups par défaut ▼ Modules Terraform pour la gestion de cluster … le tout via Infrastructure-as-Code évidemment ! Déroulement – Préparer le terrain sur MongoDB Atlas PayFit organization │ ├── Project: Production │ ├── Cluster: payments-a42b │ ├── Cluster: backoffice-f5fc │ ├── Cluster: time-fb49 │ └── [...] │ ├── Project: Staging │ ├── Cluster: payments-7t3b │ ├── Cluster: backoffice-492a │ ├── Cluster: time-bf70 │ └── [...] │ ├── Project: Development │ ├── Cluster: payments-2a81 │ ├── Cluster: backoffice-32fe │ ├── Cluster: time-8f05 │ └── [...] │ └── [...]

en scale-up Comment sortir d’un enfer monolithique Focus – Le module Terraform mongodbatlas-cluster

en scale-up Comment sortir d’un enfer monolithique ▼ Identification des choses faciles à bouger ▼ Backoffice ▽ Approche ▽ Feedback ▽ Apprentissages & améliorations ▪ Documentation ▪ SDK JS et authentification AWS IAM / STS ▪ Provider Terraform (autoscaling) ▪ … avec MongoDB Inc 🙂 ▼ et quelques autres Première phase : les early adopters

en scale-up Comment sortir d’un enfer monolithique ▼ Objectifs: ▽ Des équipes produit autonomes ▽ Domaine par domaine ▽ Accompagnement complet et poussé ▽ A l’initiative des équipes produit ▼ Un travail de fond et de longue haleine Deuxième phase : tout le monde à bord (ou presque)

en scale-up Comment sortir d’un enfer monolithique Deuxième phase : tout le monde à bord (ou presque)

en scale-up Comment sortir d’un enfer monolithique Bénéﬁces de tout ce travail de stabilisation & migration

en scale-up Comment sortir d’un enfer monolithique Bénéﬁces – Stabilité

en scale-up Comment sortir d’un enfer monolithique Bénéﬁces – Sécurité (rôles IAM, Teleport)

en scale-up Comment sortir d’un enfer monolithique Bénéﬁces – Isolation par domaine

en scale-up Comment sortir d’un enfer monolithique Bénéﬁces – Observabilité (Performance advisor)

en scale-up Comment sortir d’un enfer monolithique Bénéﬁces – Observabilité (Query insights)

en scale-up Comment sortir d’un enfer monolithique Bénéﬁces – Résilience

en scale-up Comment sortir d’un enfer monolithique Bénéﬁces – Backups

en scale-up Comment sortir d’un enfer monolithique Bénéﬁces – Atlas Charts (surprise!)

en scale-up Comment sortir d’un enfer monolithique ▼ MongoDB Atlas ▽ MongoDB Atlas Serverless : on a hâte de l’essayer ! ▽ La fonctionnalité online archive dans la région Paris ▽ Notiﬁcations conﬁgurable ▼ Temps de prise en main par les équipes ▼ Des leçons sur des migrations similaires Axes d’amélioration

en scale-up Comment sortir d’un enfer monolithique Take away les points essentiels

en scale-up Comment sortir d’un enfer monolithique ▼ Blast radius conséquent ▼ Applications fortement couplées ▼ Impossibilité de scale, que ce soit up/down ou verticalement/horizontalement ▼ Des limites techniques atteintes (max document size de 16MiB) ▼ Des incidents fréquents ▼ Beaucoup de maintenance (cluster lui-même, backups, MongoX, etc.) ▼ Impossibilité de répondre à des questions basiques sur l’utilisation (observabilité) ▼ Incapacité d’attribuer l’usage et les coûts à des domaines métier ▼ Une gestion des informations de connexion très manuelle ▼ Une équipe quasiment dédiée (Data Reliability Engineering) Les problèmes… avant !

en scale-up Comment sortir d’un enfer monolithique ▼ Stabiliser de manière limitée, et migrer en parallèle ▼ Avoir un vrai sponsoring ▼ Services Managés 💙 ▼ Teleport 💙 ▼ Proxy/Adapter pattern (Datalayer) (becoming an Anti-corruption Layer) ▼ Une attention particulière à la qualité des helpers et de la documentation ▼ Une vrai démarche d’accompagnement et de partage Les points notables

en scale-up Comment sortir d’un enfer monolithique Avant de vous laisser… Les futures interventions de PayFit

en scale-up Comment sortir d’un enfer monolithique ▼ 26-27-28 juin 2024 – Breizhcamp @ Rennes ▽ Présentez avec style grâce à OBS ! ▪ Martin Bahier ▽ MongoDB en scale-up : comment sortir d’un enfer monolithique ▪ Caroline Becker & Alexis “Horgix” Chotard ▽ Alerte, tout brûle ! Comment gérer des incidents techniques ▪ Alexis “Horgix” Chotard ▼ 28-29-30 octobre 2024 – KanDDDinsky @ Berlin ▽ Impact Mapping Workshop – Krisztina Hirth Les futures interventions de PayFit

en scale-up Comment sortir d’un enfer monolithique Merci !

en scale-up Comment sortir d’un enfer monolithique MongoDB en scale-up Comment sortir d’un enfer monolithique Un retour d’expérience de PayFit, par: Laurentiu Capatina Alexis “Horgix” Chotard Q&A 04 juin 2024

MongoDB in a scale-up: how to get away from a m...

MongoDB in a scale-up: how to get away from a monolithic hell — MongoDB Paris meetup (2024-06-04)

More Decks by Horgix

Other Decks in Technology

Featured

Transcript