$30 off During Our Annual Pro Sale. View details »

INPI

etalab-ia
July 04, 2022
23

 INPI

Une solution d'intelligence artificielle dont l'objectif est d'attribuer aux données entreprises les numéros SIRET manquants, permettant ainsi le croisement des données et une meilleure connaissance client.

etalab-ia

July 04, 2022
Tweet

Transcript

  1. Automatisation par l’IA Datadrink Etalab 19 Mai 2022 Franck DAZIN

    William GRISON
  2. 2 Source INPI INPI EN CHIFFRES

  3. SOMMAIRE Contexte INPI Outils disponibles 3 Approche sans IA Approche

    avec IA Résultats
  4. 4 MARQUES DESSINS ET MODELES CRM ID CLIENT ID CLIENT

    ID CLIENT ID CLIENT ? BREVETS ? ? CONTEXTE INPI Le besoin
  5. 5 MARQUES DESSINS ET MODELES CRM ID CLIENT ID CLIENT

    ID CLIENT ID CLIENT BREVETS CONTEXTE INPI Le besoin SIRET SIRET SIRET SIRET  Accroitre la connaissance client  Renforcer l'INPI dans sa mission d'accompagnement des entreprises
  6. 6 CONTEXTE INPI La tâche à résoudre Appariement massif :

    apparier correctement les enregistrements entre les deux bases pour affecter un numéro SIRET Nom; Adresse; Commune Base interne Nom; Adresse; Commune Nom; Adresse; Commune Base externe publique disponibilité SIRET ( = SIREN + NIC)
  7. 7 OUTILS DISPONIBLES Fonctionnalités et limites  sensible aux variations

    orthographiques  pas de score optimisé automatiquement  recherche SIREN uniquement  un seul champ de recherche (confusion nom rue et entreprise possible)  API publique pas encore disponible
  8. 8 APPROCHE SANS IA Calculs TF-IDF et mesure cosinus INPI

    Adresses Insee Adresses INPI Vecteurs Insee Vecteurs INPI Adresses Insee Adresses n meilleurs scores Top 1 Top 2 Top 3 Résultats 68% 78% 80% Echantillon de 500 entreprises déposantes de brevets Evaluation sur la base du numéro SIREN
  9. 9 Données INSEE : ~ 50 millions d'enregistrements Données BOB

    (dépôts brevets) : ~ 46 000 (avec SIREN) APPROCHE AVEC IA Prétraitement des données Données enrichies : SIRET inféré à partir du SIREN et de l’adresse
  10. 10 APPROCHE AVEC IA Sélection de couples par indexage Indexage

    : premier appariement approximatif afin de limiter les comparaisons
  11. 11 APPROCHE AVEC IA Calculs de similarités Comparaison : mesures

    de similarités textuelles
  12. 12 APPROCHE AVEC IA Construction du score final Classification :

    classification binaire entre appariement ou non appariement
  13. 13 APPROCHE AVEC IA Apprentissage Apprentissage supervisé : optimisation des

    paramètres du classificateur binaire
  14. 14 RÉSULTATS top 1 (%) top 5 (%) top 10

    (%) moyenne sur 5 échantillons aléatoires base brevets (5x100 enregistrements) 93 99 99 extraction du CRM (~270 enregistrements) 91 94 95 extraction de la base marques (~800 enregistrements) 90 93 93 Améliorations en cours :  Comparaison avec ElasticSearch seul  Indexage avec ElasticSearch puis classification (amélioration du temps d’exécution) Evaluation sur la base du numéro SIREN Très bons scores de précision
  15. Outils informatiques https://github.com/J535D165/recordlinkage MERCI POUR VOTRE ATTENTION ! 15 Franck

    DAZIN Datascientist INPI / DPSI / LabINPI fdazin@inpi.fr Mots clés INPI, Etalab, Siren, Siret, Adresse, Vectorisation, TF-IDF, IA, INSEE, Indexage, Similarité, Distance, Levenshtein, Jaro, Cosinus, Apprentissage, Machine learning, Brevet, Marque, Dessin et modèles, Elasticsearch William GRISON Datascientist INPI / DPSI / LabINPI wgrison@inpi.fr