$30 off During Our Annual Pro Sale. View Details »

INPI

etalab-ia
July 04, 2022
45

 INPI

Une solution d'intelligence artificielle dont l'objectif est d'attribuer aux données entreprises les numéros SIRET manquants, permettant ainsi le croisement des données et une meilleure connaissance client.

etalab-ia

July 04, 2022
Tweet

Transcript

  1. Automatisation par l’IA
    Datadrink Etalab
    19 Mai 2022
    Franck DAZIN
    William GRISON

    View Slide

  2. 2
    Source INPI
    INPI EN CHIFFRES

    View Slide

  3. SOMMAIRE
    Contexte INPI
    Outils disponibles
    3
    Approche sans IA
    Approche avec IA
    Résultats

    View Slide

  4. 4
    MARQUES
    DESSINS
    ET
    MODELES
    CRM
    ID
    CLIENT
    ID
    CLIENT
    ID
    CLIENT
    ID
    CLIENT
    ?
    BREVETS
    ? ?
    CONTEXTE INPI
    Le besoin

    View Slide

  5. 5
    MARQUES
    DESSINS
    ET
    MODELES
    CRM
    ID
    CLIENT
    ID
    CLIENT
    ID
    CLIENT
    ID
    CLIENT
    BREVETS
    CONTEXTE INPI
    Le besoin
    SIRET SIRET SIRET SIRET
     Accroitre la connaissance client
     Renforcer l'INPI dans sa mission d'accompagnement des entreprises

    View Slide

  6. 6
    CONTEXTE INPI
    La tâche à résoudre
    Appariement massif : apparier correctement les enregistrements entre les deux
    bases pour affecter un numéro SIRET
    Nom; Adresse; Commune
    Base interne
    Nom; Adresse; Commune
    Nom; Adresse; Commune
    Base externe
    publique
    disponibilité SIRET ( = SIREN + NIC)

    View Slide

  7. 7
    OUTILS DISPONIBLES
    Fonctionnalités et limites
     sensible aux variations orthographiques
     pas de score optimisé automatiquement  recherche SIREN uniquement
     un seul champ de recherche (confusion
    nom rue et entreprise possible)
     API publique pas encore disponible

    View Slide

  8. 8
    APPROCHE SANS IA
    Calculs TF-IDF et mesure cosinus
    INPI
    Adresses
    Insee
    Adresses
    INPI
    Vecteurs
    Insee
    Vecteurs
    INPI
    Adresses
    Insee
    Adresses
    n meilleurs scores Top 1 Top 2 Top 3
    Résultats 68% 78% 80%
    Echantillon de 500 entreprises déposantes de brevets
    Evaluation sur la base du numéro SIREN

    View Slide

  9. 9
    Données INSEE :
    ~ 50 millions d'enregistrements
    Données BOB (dépôts brevets) :
    ~ 46 000 (avec SIREN)
    APPROCHE AVEC IA
    Prétraitement des données
    Données enrichies : SIRET inféré à
    partir du SIREN et de l’adresse

    View Slide

  10. 10
    APPROCHE AVEC IA
    Sélection de couples par indexage
    Indexage : premier appariement approximatif afin de limiter les comparaisons

    View Slide

  11. 11
    APPROCHE AVEC IA
    Calculs de similarités
    Comparaison : mesures de similarités textuelles

    View Slide

  12. 12
    APPROCHE AVEC IA
    Construction du score final
    Classification : classification binaire entre appariement ou non appariement

    View Slide

  13. 13
    APPROCHE AVEC IA
    Apprentissage
    Apprentissage supervisé : optimisation des paramètres du classificateur binaire

    View Slide

  14. 14
    RÉSULTATS
    top 1 (%) top 5 (%) top 10 (%)
    moyenne sur 5 échantillons aléatoires
    base brevets (5x100 enregistrements)
    93 99 99
    extraction du CRM (~270
    enregistrements)
    91 94 95
    extraction de la base marques (~800
    enregistrements)
    90 93 93
    Améliorations en cours :
     Comparaison avec ElasticSearch seul
     Indexage avec ElasticSearch puis classification (amélioration du
    temps d’exécution)
    Evaluation sur la base du numéro SIREN
    Très bons scores de précision

    View Slide

  15. Outils informatiques
    https://github.com/J535D165/recordlinkage
    MERCI POUR VOTRE ATTENTION !
    15
    Franck DAZIN
    Datascientist
    INPI / DPSI / LabINPI
    [email protected]
    Mots clés
    INPI, Etalab, Siren, Siret, Adresse, Vectorisation, TF-IDF,
    IA, INSEE, Indexage, Similarité, Distance, Levenshtein,
    Jaro, Cosinus, Apprentissage, Machine learning, Brevet,
    Marque, Dessin et modèles, Elasticsearch
    William GRISON
    Datascientist
    INPI / DPSI / LabINPI
    [email protected]

    View Slide