Upgrade to Pro — share decks privately, control downloads, hide ads and more …

L'infrastructure IA pour les managers

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

L'infrastructure IA pour les managers

Avatar for Michel Hubert

Michel Hubert

February 13, 2026
Tweet

More Decks by Michel Hubert

Other Decks in Technology

Transcript

  1. L'infrastructure n'est plus un centre de coût passif, mais le

    moteur de votre avantage compétitif. De la gestion de serveurs à l'orchestration d'intelligence. De la prévisibilité linéaire à l'adaptation dynamique. Une révolution des coûts et de la performance. UN NOUVEAU PARADIGME STRATÉGIQUE
  2. L'ÈRE TRADITIONNELLE Basée sur des machines virtuelles et Kubernetes standard.

    Scalabilité horizontale linéaire (Besoin +1 = Machine +1). Patterns de charge lisses et prévisibles (Black Friday, Fin de mois). L'ÈRE IA-NATIVE Infrastructure qui "pense" et anticipe. Utilise le ML pour prédire les charges. Gère des pools de GPUs avec une granularité à la seconde. Négocie entre qualité, coût et latence. LE MONDE D'AVANT VS. L'IA-NATIVE
  3. TAILLE & POIDS Oubliez les images Docker de 200 Mo.

    Un LLM pèse entre 10 Go et 800 Go. Le chargement devient un événement critique. MÉMOIRE GPU Le modèle doit résider en VRAM. Une ressource rare, coûteuse et physiquement limitée. LATENCE VARIABLE Une requête peut prendre 100ms ou 10s. Le dimensionnement moyen devient impossible. LES 3 DÉFIS MAJEURS DE L'IA
  4. 10x ÉCART DE LATENCE P99 L'INCERTITUDE COMME CONSTANTE Contrairement aux

    APIs REST classiques, il n'y a plus de requête "moyenne". Un utilisateur peut mobiliser un GPU pendant 30 secondes pour une seule demande complexe. L'infrastructure doit passer d'une réaction aux métriques à une prédiction des besoins. LE CHOC DE L'IMPRÉVISIBILITÉ
  5. L'ENTRAÎNEMENT : LE MARATHON C'est l'usine à modèles. Un processus

    batch intensif, massif et capitalistique. Dure des semaines sur des milliers de GPUs. Consomme des téraoctets de datasets. Bande passante critique entre nœuds (400 Gbps). Tolérance à la panne quasi nulle.
  6. PERSONNALISATION MÉTIER On ne réapprend pas tout, on ajuste un

    modèle existant sur vos données spécifiques (emails, jargon interne, produits). Besoin : Agilité plutôt que puissance brute. 1 à 8 GPUs pour quelques heures ou jours. LE FINE-TUNING : L'ATELIER AGILE
  7. Caractéristique Entraînement Fine-Tuning Inférence Objectif Création initiale Adaptation métier Usage

    production Ressources Milliers de GPUs 1 - 8 GPUs Élastique / Variable Latence Non critique Faible Ultra-critique Coût Capex massif Opex modéré Opex proportionnel COMPARAISON DES CHARGES DE TRAVAIL
  8. LLM & MULTIMODAL Gèrent texte, image et audio. Taille gigantesque,

    génération autoregressive séquentielle (chaque mot dépend du précédent). AGENTS AUTONOMES L'IA qui planifie et utilise des outils. Workflow complexe plutôt que simple réponse. Coût et durée imprévisibles. LA NOUVELLE DIVERSITÉ DES MODÈLES
  9. Latence : Temps de réponse utilisateur Throughput : Volume de

    requêtes / sec Coût : Facture GPU & Infrastructure LE TRIANGLE INFERNAL DE L'IA
  10. "Le vrai goulot d'étranglement de l'IA moderne n'est pas le

    calcul, c'est la donnée." — L'infrastructure est désormais au service de la donnée LE SECRET LE MIEUX GARDÉ
  11. DATA LAKE Tout garder en vrac (S3, Hadoop). Flexibilité totale

    mais "marécage" de données. LAKEHOUSE Le meilleur des deux mondes. Flexibilité du Lake + Performance du Warehouse. STREAMING La donnée vivante. Flux continus (Kafka) pour une IA temps réel réactive. IA-NATIVE Pipelines auto-correcteurs et gouvernance intégrée par défaut. L'ÉVOLUTION DES PARADIGMES DE DONNÉE
  12. TEXTE & AUDIO Emails, logs, appels clients. Volume massif mais

    facile à indexer. IMAGE & VIDÉO Scans médicaux, surveillance. Nécessite un stockage ultra-rapide. DOCS COMPLEXES PDFs avec mix texte/image. Le casse-tête du parsing IA. LE DÉFI DU NON-STRUCTURÉ
  13. Qualité vs Quantité : Un petit dataset propre surperforme un

    lac de données médiocre. Data Lineage : Capacité à tracer chaque prédiction jusqu'à sa source d'entraînement. Éthique & Biais : L'IA amplifie les biais. La gouvernance est une nécessité opérationnelle. Compliance RGPD : Gérer le droit à l'oubli dans des modèles entraînés. GOUVERNANCE : LA DONNÉE EST LE PRODUIT
  14. L'ARMÉE DE SPÉCIALISTES Le CPU est un généraliste (32-128 cœurs

    sophistiqués). Le GPU est une armée (7000+ cœurs simples). Efficacité : Le GPU offre un calcul par Watt bien supérieur pour les multiplications matricielles de l'IA. CPU VS GPU : SPÉCIALISATION MASSIVE
  15. Économie d'énergie pour un même volume de calcul IA "Dans

    un datacenter, le calcul par Watt est ROI." EFFICACITÉ ÉNERGÉTIQUE : LE NERF DE LA GUERRE
  16. CLOUD PUBLIC Agilité totale, pas de Capex. Mais disponibilité limitée

    et coût explosif sur la durée. ON-PREMISE Coût optimal pour charges constantes. Performance garantie mais Capex massif et gestion complexe. HYBRIDE / SPÉCIALISÉ Clouds spécialisés (CoreWeave, Lambda). Bare metal sans virtualisation pour la performance brute. GPU AS A SERVICE : QUEL MODÈLE CHOISIR ?
  17. Passer de 20% à 80% d'utilisation réelle des GPUs. MIG

    (Multi-Instance GPU) : Partitionner physiquement un GPU en 7 petites instances isolées. MPS (Multi-Process Service) : Plusieurs processus partagent un GPU simultanément (idéal pour l'inférence). Scheduling IA : Ray, Slurm ou Run:ai pour gérer les files d'attente et priorités. MUTUALISATION : MAXIMISER L'USAGE
  18. LEÇONS DU TERRAIN L'investissement dans une plateforme d'orchestration intelligente (scheduling,

    quotas, préemption) est rentabilisé en moins de 8 mois. Résultat : 7x réduction du coût par modèle entraîné. ÉTUDE DE CAS : OPTIMISATION FINTECH
  19. POURQUOI L'EDGE AI ? Latence Zéro Décisions en microsecondes (ex:

    sécurité usine). Confidentialité Les données ne quittent jamais le site local. Résilience Fonctionnement offline (ex: mines, plateformes). Économies Réduction de 99% de la bande passante cloud.
  20. QUESTIONS L'IA n'est pas une charge de travail comme les

    autres. C'est une nouvelle catégorie d'infrastructure qui demande une nouvelle catégorie d'intelligence computationnelle. "