Upgrade to Pro — share decks privately, control downloads, hide ads and more …

INPI

etalab-ia
July 04, 2022
80

 INPI

Une solution d'intelligence artificielle dont l'objectif est d'attribuer aux données entreprises les numéros SIRET manquants, permettant ainsi le croisement des données et une meilleure connaissance client.

etalab-ia

July 04, 2022
Tweet

Transcript

  1. 4 MARQUES DESSINS ET MODELES CRM ID CLIENT ID CLIENT

    ID CLIENT ID CLIENT ? BREVETS ? ? CONTEXTE INPI Le besoin
  2. 5 MARQUES DESSINS ET MODELES CRM ID CLIENT ID CLIENT

    ID CLIENT ID CLIENT BREVETS CONTEXTE INPI Le besoin SIRET SIRET SIRET SIRET  Accroitre la connaissance client  Renforcer l'INPI dans sa mission d'accompagnement des entreprises
  3. 6 CONTEXTE INPI La tâche à résoudre Appariement massif :

    apparier correctement les enregistrements entre les deux bases pour affecter un numéro SIRET Nom; Adresse; Commune Base interne Nom; Adresse; Commune Nom; Adresse; Commune Base externe publique disponibilité SIRET ( = SIREN + NIC)
  4. 7 OUTILS DISPONIBLES Fonctionnalités et limites  sensible aux variations

    orthographiques  pas de score optimisé automatiquement  recherche SIREN uniquement  un seul champ de recherche (confusion nom rue et entreprise possible)  API publique pas encore disponible
  5. 8 APPROCHE SANS IA Calculs TF-IDF et mesure cosinus INPI

    Adresses Insee Adresses INPI Vecteurs Insee Vecteurs INPI Adresses Insee Adresses n meilleurs scores Top 1 Top 2 Top 3 Résultats 68% 78% 80% Echantillon de 500 entreprises déposantes de brevets Evaluation sur la base du numéro SIREN
  6. 9 Données INSEE : ~ 50 millions d'enregistrements Données BOB

    (dépôts brevets) : ~ 46 000 (avec SIREN) APPROCHE AVEC IA Prétraitement des données Données enrichies : SIRET inféré à partir du SIREN et de l’adresse
  7. 10 APPROCHE AVEC IA Sélection de couples par indexage Indexage

    : premier appariement approximatif afin de limiter les comparaisons
  8. 12 APPROCHE AVEC IA Construction du score final Classification :

    classification binaire entre appariement ou non appariement
  9. 14 RÉSULTATS top 1 (%) top 5 (%) top 10

    (%) moyenne sur 5 échantillons aléatoires base brevets (5x100 enregistrements) 93 99 99 extraction du CRM (~270 enregistrements) 91 94 95 extraction de la base marques (~800 enregistrements) 90 93 93 Améliorations en cours :  Comparaison avec ElasticSearch seul  Indexage avec ElasticSearch puis classification (amélioration du temps d’exécution) Evaluation sur la base du numéro SIREN Très bons scores de précision
  10. Outils informatiques https://github.com/J535D165/recordlinkage MERCI POUR VOTRE ATTENTION ! 15 Franck

    DAZIN Datascientist INPI / DPSI / LabINPI [email protected] Mots clés INPI, Etalab, Siren, Siret, Adresse, Vectorisation, TF-IDF, IA, INSEE, Indexage, Similarité, Distance, Levenshtein, Jaro, Cosinus, Apprentissage, Machine learning, Brevet, Marque, Dessin et modèles, Elasticsearch William GRISON Datascientist INPI / DPSI / LabINPI [email protected]