Une solution d'intelligence artificielle dont l'objectif est d'attribuer aux données entreprises les numéros SIRET manquants, permettant ainsi le croisement des données et une meilleure connaissance client.
5 MARQUES DESSINS ET MODELES CRM ID CLIENT ID CLIENT ID CLIENT ID CLIENT BREVETS CONTEXTE INPI Le besoin SIRET SIRET SIRET SIRET Accroitre la connaissance client Renforcer l'INPI dans sa mission d'accompagnement des entreprises
6 CONTEXTE INPI La tâche à résoudre Appariement massif : apparier correctement les enregistrements entre les deux bases pour affecter un numéro SIRET Nom; Adresse; Commune Base interne Nom; Adresse; Commune Nom; Adresse; Commune Base externe publique disponibilité SIRET ( = SIREN + NIC)
7 OUTILS DISPONIBLES Fonctionnalités et limites sensible aux variations orthographiques pas de score optimisé automatiquement recherche SIREN uniquement un seul champ de recherche (confusion nom rue et entreprise possible) API publique pas encore disponible
8 APPROCHE SANS IA Calculs TF-IDF et mesure cosinus INPI Adresses Insee Adresses INPI Vecteurs Insee Vecteurs INPI Adresses Insee Adresses n meilleurs scores Top 1 Top 2 Top 3 Résultats 68% 78% 80% Echantillon de 500 entreprises déposantes de brevets Evaluation sur la base du numéro SIREN
9 Données INSEE : ~ 50 millions d'enregistrements Données BOB (dépôts brevets) : ~ 46 000 (avec SIREN) APPROCHE AVEC IA Prétraitement des données Données enrichies : SIRET inféré à partir du SIREN et de l’adresse
14 RÉSULTATS top 1 (%) top 5 (%) top 10 (%) moyenne sur 5 échantillons aléatoires base brevets (5x100 enregistrements) 93 99 99 extraction du CRM (~270 enregistrements) 91 94 95 extraction de la base marques (~800 enregistrements) 90 93 93 Améliorations en cours : Comparaison avec ElasticSearch seul Indexage avec ElasticSearch puis classification (amélioration du temps d’exécution) Evaluation sur la base du numéro SIREN Très bons scores de précision