Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Projet de pseudonymisation des accords d’entreprise

etalab-ia
July 04, 2022
35

Projet de pseudonymisation des accords d’entreprise

Projet de pseudonymisation des accords d’entreprises porté par le MSS. Un partenariat avec le CEA a permis la réalisation d'une API de vérification de l’anonymisation.

etalab-ia

July 04, 2022
Tweet

Transcript

  1. Datadrink du 30 juin 2022
    Daccord - POC IA - Accords d’entreprise

    View Slide

  2. 2
    01/07/2022
    Introduction
     Le POC IA avec le CEA sur les accords d’entreprise s’intègre aux actions de la task
    force de la feuille de route Data du Ministère du Travail – Volet Accords d’Entreprise
    avec les objectifs globaux suivants :
     Faciliter et accélérer le dépôt, l’instruction et la publication des accords d’entreprise, pour les
    entreprises déposantes comme pour les agents de l’administration.
     Améliorer l’accessibilité, la lisibilité du droit conventionnel pour les partenaires sociaux, les
    employeurs et les salariés, et donc son effectivité.
     Répondre aux nouveaux besoins de l’administration en matière de suivi des politiques publiques
    et de construction d’indicateurs.
     Développer l’analyse du contenu des accords d’entreprise, pour permettre un meilleur suivi du
    dialogue social et diffuser les bonnes pratiques parmi les partenaires sociaux.
    Secrétariat général
    Direction du numérique

    View Slide

  3. 3
    01/07/2022
    Feuille de route Data - Accords d’entreprise : 2
    actions principales
     POC IA avec le CEA sur les accords d’entreprise :
    Objectif : élaboration de trois prototypes répondant aux besoins des différents
    utilisateurs
     Aide à l’anonymisation : faciliter la vérification de l’anonymisation des accords par les entreprises et
    les services déconcentrés ;
     Indexation : enrichir les accords d'entreprise avec des métadonnées facilitant leur exploitation
    (recherche, catégorisation, ordonnancement) ;
     Chaînage : exploiter les accords déjà déposés en faisant des liens entre eux (lien juridique ou lien
    via l’entité déposante) et être ainsi en mesure de faciliter la lisibilité du droit.
     Refonte de l’application Daccord
     Lot 1 Téléprocédure en cours de développement
     Lot 2 : Gestion et reprise du stock d’accords, Apisation des échanges Dila, Acoss/Msa…
    Secrétariat général
    Direction du numérique

    View Slide

  4. 4
    01/07/2022
    Secrétariat général
    Direction du numérique
    Point de situation sur l’élaboration du module d’aide à l’anonymisation
     Le CEA a travaillé à partir d’un échantillon d’accords transmis par la DGT et plusieurs tests ont
    été réalisés :
    L’outil du CEA combine deux briques technologiques:
    • LIMA : analyseur linguistique
    • CLIMA (configurateur) : permet à LIMA de s’adapter à un nouveau domaine et
    l’enrichissement des modèles
    Les tests ont été réalisés à partir de règles manuelles ou des réseaux de neurones avec
    ou sans adaptation aux accords d’entreprises
    Plusieurs combinaisons de techniques ont été testés afin de déterminer le modèle le plus
    performant
    • Livraison du système le plus pertinent qui est à base de règle et adapté au domaine
    (92,7% de réussite)
    Intégration de l’API Anonymisation dans les développement de la Refonte
    Téléprocédure (Lot 1 - sprint 5) destinée aux entreprises. Tests à réaliser dans le
    cadre de la recette du sprint 5 (vers le 10/07)
    POC CEA – Aide à l’anonymisation

    View Slide

  5. 5
    01/07/2022
    Secrétariat général
    Direction du numérique
    Point de situation sur l’élaboration du module d’indexation (Thèmes et Etiquettes)
     Le CEA propose un outil basé sur un gestionnaire de règles (pour les classes peu peuplées) combiné à un
    classifieur basé sur l’apprentissage
     La DGT a mis à disposition du CEA un ensemble de ressources pour nourrir l’algorithme et permettre un
    apprentissage performant:
    • Référentiel d‘indexation provisoire
    • 143 listes de textes représentatifs identifiés
    • Près de 10 000 textes fiables et codifiés
    • 86 règles de gestion manuelles selon différents paramètres (mots-clés, localisation) afin d’alimenter le
    gestionnaire de règles pour identifier les classes peu peuplées
     Livraison par le CEA du premier prototype du gestionnaire de règles
    • En cours de déploiement pour tests
     Livraison finale du classifieur (API) prévue fin juillet
     Tests à réaliser par DNUM/DGT suite à la livraison pour validation finale de la solution
    • Suivant le résultat des tests, validation DGT pour la mise en œuvre de l’API Indexation dans le cadre
    de la refonte Daccord Lot 2
    POC CEA – Indexation

    View Slide

  6. 6
    01/07/2022
    Secrétariat général
    Direction du numérique
    Point de situation sur l’élaboration du module de chaînage
     Le CEA a livré deux versions du prototype de chaînage
    • Détermine les meilleures variables afin d’identifier les corrélations fortes
    • exploite les informations structurées de la base de données et celles saisies par le déposant
    • Effectue des comparaisons entre les noms des fichiers téléchargées pour y trouver des similitudes
    • Indique un score de confiance selon la similarité pour chaque lien identifié
    Limites rencontrées
    • Base hétérogène
     Gestion des dossiers du Stock avant la téléprocédure (dossier papier, informations codifiées en reprise)
     Fortes ambiguïtés dans les informations ou saisies erronées dans la base (type de texte, thèmes, texte
    antérieur…)
    • Lien via entité déposante non traité: informations réunies dans une pièce jointe et dans des formats différents
    • Appariement sur les thèmes
     Comparaison saisie Th1 Autres/Th2 Autres hasardeuse : limite de l’analyse sémantique (mots courts,
    abréviations)
    POC CEA – Chaînage

    View Slide

  7. 7
    01/07/2022
    Secrétariat général
    Direction du numérique
    Point de situation sur l’élaboration du module de chaînage
     Retours DGT suite livraison des prototypes
    • Comparaison chaînage manuel vs chaînage automatique (stat)
    • Utilisation de l’outil (Gestion stock / flux)
     Stock : Reprise des données Utilisation de l’outil chainage automatique
    • Déterminer le seuil d’acceptabilité à utiliser pour la reprise du stock
     Accepter ou non un taux d’erreur pour augmenter le nombre de liens effectués (Le CEA, après
    étude, propose d’adopter un seuil à 0,7)
     Détermination du seuil pour le chaînage automatique
     Aide à l’amélioration de la qualité (choix manuel parmi plusieurs propositions)
    • Réflexions à mener
     Limiter le périmètre d’action
    • Déterminer une date pour le lancement du chaînage automatique
    • Se focaliser sur les textes valides (via des règles de gestion)
     Fonctionnalités à développer (modules à destinations des agents/administrateurs) en plus des
    entreprises
     Flux : amélioration des saisies dès le dépôt (objectifs à atteindre – lot 2)
    • Meilleure ergonomie, amélioration de la qualité des saisies (chemins spécifiques pour le dépôt)
    • Saisies traitées en base de données et non plus sur des fichiers téléchargés (+ format prédéfini)
    • Nouveaux services proposés aux déposants:
     Lier dès le dépôt un texte à un texte existant grâce au compte entreprise
     Possibilité de télécharger un texte inexistant dans la base
    POC CEA – Chaînage

    View Slide