Ces slides ont été présentées lors du Meetup "Crafting Data Science" à Paris le 25/06/2024.
Les agents autonomes (IA) de développement logiciel pourraient devenir bien plus performants grâce au TDD.
Ça paraît fou, mais les résultats de nos tests avec Naji Alazhar sont prometteurs !
Ces derniers mois, le marché des agents autonomes en dev (aka AI software engineering agents) était en ébullition. On a eu droit à du gros buzz et de belles démos ratées (de la part de Cognition Devin et de Github Copilot Workspace pour n’en citer que deux).
Au-delà des effets d’annonce, aujourd’hui, il commence à y avoir des solutions open sources crédibles (comme SWE-Agent) qu’on peut déjà intégrer à un flux de développement.
On leur soumet une tâche (une demande d’évolution ou un bug à corriger décrit en markdown ou via un lien d’une issue GitHub) et ils nous font une PR.
Alors, ils ne savent pas encore tout faire, ni même la moitié de ce qu’on leur demande. Mais ils savent déjà résoudre en quelques minutes des tâches qui demandent plusieurs heures/jours à des humains.
Avec Naji Alazhar, nous essayons de voir si en appliquant des principes du TDD, un agent pourrait améliorer son taux de résolution.
Nos premiers tests démontrent que la qualité du feedback dont dispose l’agent grâce au TDD lui permet de rectifier le tir après une hallucination. Et ça change tout !