Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLMs : et si on arrêtait de coder à l’aveugle ?...

LLMs : et si on arrêtait de coder à l’aveugle ? Le TDD à la rescousse !

Introduction :
L'application des principes de Test Driven Development (TDD) aux Large Language Models (LLMs) est souvent négligée, sous prétexte que cela n'est ni possible ni rentable. Pourtant, le TDD peut apporter des bénéfices significatifs en termes de fiabilité, sécurité et performance.

Objectif : Cette présentation vise à démontrer comment le TDD peut être appliqué aux LLMs pour :
- Garantir la fiabilité et la sécurité des systèmes.
- Évaluer et améliorer les performances globales.
- Réduire les coûts de production.
- Réaliser des benchmarks sur plusieurs LLMs.

Contenu :
Je vous partagerai mon retour d'expérience chez Orange Business sur un projet client, où nous avons développé un chatbot pour les citoyens d'une ville. Nous avons mis en place un système multi-agents utilisant plusieurs modèles de LLMs, tout en appliquant une stratégie de TDD.

Détails Techniques :
- Types de tests utilisés : unitaires, d'intégration.
- Outils et frameworks : Promptfoo (équivalent d'un bébé Pytest ou Jest), Langchain
- Intégration des tests dans le pipeline de développement : GitLab CI

Conclusion : Le TDD peut transformer la manière dont nous développons et déployons des systèmes basés sur des LLMs, en apportant des bénéfices aussi bien en termes de qualité que de performance.

Avatar for Raphaël Anjou

Raphaël Anjou

November 07, 2024
Tweet

More Decks by Raphaël Anjou

Other Decks in Technology

Transcript

  1. Conférence LLMs : et si on arrêtait de coder à

    l’aveugle ? Le TDD à la rescousse ! Raphaël ANJOU Soirée du Test Logiciel Sophia Antipolis 17 octobre 2024 17h à 22h30 Polytech Nice Sophia à Biot 7ème édition de la
  2. Conférence ALERTES ACRONYMES !!! LLMs, et si on arrêtait de

    coder à l’aveugle ? Le TDD à la rescousse !
  3. Conférence Validation Résultat obtenu Résultat attendu Fonction Entrée C’est quoi

    un test de LLM ? Appel à un LLM Appel à un process utilisant un LLM
  4. Conférence Validation Résultat obtenu Résultat attendu Fonction Entrée C’est quoi

    un test de LLM ? Demande utilisateur Prompt système Contenu externe
  5. Conférence Validation Résultat obtenu Résultat attendu Fonction Entrée C’est quoi

    un test de LLM ? Format structuré Format non-structuré
  6. Conférence Validation Résultat obtenu Résultat attendu Fonction Entrée C’est quoi

    un test de LLM ? Format structuré Format non-structuré Métriques évaluées par un autre LLM Métriques déterministiques
  7. Conférence Quelle est la fonctionnalité ? « En tant qu’utilisateur,

    je souhaite obtenir des informations sur les évènements disponibles à un moment donné » J’ai envie de sortir ce soir. Y a-t-il des expositions en avril 2025 ? J'aimerais sortir en famille et en ville le 19 octobre.
  8. Conférence Quelle est la fonctionnalité ? Ça veut dire quoi

    « matin », « soir », « après-midi » ? Si la date n’est pas précisée ? Si l’heure n’est pas précisée ? S’il n’ y a pas de détails donnés par l’utilisateur ?
  9. Conférence Merci de votre écoute ! Soirée du Test Logiciel

    Sophia Antipolis 17 octobre 2024 17h à 22h30 Polytech Nice Sophia à Biot 7ème édition de la Votre avis nous intéresse