Projet de pseudonymisation des accords d’entreprise
Projet de pseudonymisation des accords d’entreprises porté par le MSS. Un partenariat avec le CEA a permis la réalisation d'une API de vérification de l’anonymisation.
sur les accords d’entreprise s’intègre aux actions de la task force de la feuille de route Data du Ministère du Travail – Volet Accords d’Entreprise avec les objectifs globaux suivants : Faciliter et accélérer le dépôt, l’instruction et la publication des accords d’entreprise, pour les entreprises déposantes comme pour les agents de l’administration. Améliorer l’accessibilité, la lisibilité du droit conventionnel pour les partenaires sociaux, les employeurs et les salariés, et donc son effectivité. Répondre aux nouveaux besoins de l’administration en matière de suivi des politiques publiques et de construction d’indicateurs. Développer l’analyse du contenu des accords d’entreprise, pour permettre un meilleur suivi du dialogue social et diffuser les bonnes pratiques parmi les partenaires sociaux. Secrétariat général Direction du numérique
2 actions principales POC IA avec le CEA sur les accords d’entreprise : Objectif : élaboration de trois prototypes répondant aux besoins des différents utilisateurs Aide à l’anonymisation : faciliter la vérification de l’anonymisation des accords par les entreprises et les services déconcentrés ; Indexation : enrichir les accords d'entreprise avec des métadonnées facilitant leur exploitation (recherche, catégorisation, ordonnancement) ; Chaînage : exploiter les accords déjà déposés en faisant des liens entre eux (lien juridique ou lien via l’entité déposante) et être ainsi en mesure de faciliter la lisibilité du droit. Refonte de l’application Daccord Lot 1 Téléprocédure en cours de développement Lot 2 : Gestion et reprise du stock d’accords, Apisation des échanges Dila, Acoss/Msa… Secrétariat général Direction du numérique
sur l’élaboration du module d’aide à l’anonymisation Le CEA a travaillé à partir d’un échantillon d’accords transmis par la DGT et plusieurs tests ont été réalisés : L’outil du CEA combine deux briques technologiques: • LIMA : analyseur linguistique • CLIMA (configurateur) : permet à LIMA de s’adapter à un nouveau domaine et l’enrichissement des modèles Les tests ont été réalisés à partir de règles manuelles ou des réseaux de neurones avec ou sans adaptation aux accords d’entreprises Plusieurs combinaisons de techniques ont été testés afin de déterminer le modèle le plus performant • Livraison du système le plus pertinent qui est à base de règle et adapté au domaine (92,7% de réussite) Intégration de l’API Anonymisation dans les développement de la Refonte Téléprocédure (Lot 1 - sprint 5) destinée aux entreprises. Tests à réaliser dans le cadre de la recette du sprint 5 (vers le 10/07) POC CEA – Aide à l’anonymisation
sur l’élaboration du module d’indexation (Thèmes et Etiquettes) Le CEA propose un outil basé sur un gestionnaire de règles (pour les classes peu peuplées) combiné à un classifieur basé sur l’apprentissage La DGT a mis à disposition du CEA un ensemble de ressources pour nourrir l’algorithme et permettre un apprentissage performant: • Référentiel d‘indexation provisoire • 143 listes de textes représentatifs identifiés • Près de 10 000 textes fiables et codifiés • 86 règles de gestion manuelles selon différents paramètres (mots-clés, localisation) afin d’alimenter le gestionnaire de règles pour identifier les classes peu peuplées Livraison par le CEA du premier prototype du gestionnaire de règles • En cours de déploiement pour tests Livraison finale du classifieur (API) prévue fin juillet Tests à réaliser par DNUM/DGT suite à la livraison pour validation finale de la solution • Suivant le résultat des tests, validation DGT pour la mise en œuvre de l’API Indexation dans le cadre de la refonte Daccord Lot 2 POC CEA – Indexation
sur l’élaboration du module de chaînage Le CEA a livré deux versions du prototype de chaînage • Détermine les meilleures variables afin d’identifier les corrélations fortes • exploite les informations structurées de la base de données et celles saisies par le déposant • Effectue des comparaisons entre les noms des fichiers téléchargées pour y trouver des similitudes • Indique un score de confiance selon la similarité pour chaque lien identifié Limites rencontrées • Base hétérogène Gestion des dossiers du Stock avant la téléprocédure (dossier papier, informations codifiées en reprise) Fortes ambiguïtés dans les informations ou saisies erronées dans la base (type de texte, thèmes, texte antérieur…) • Lien via entité déposante non traité: informations réunies dans une pièce jointe et dans des formats différents • Appariement sur les thèmes Comparaison saisie Th1 Autres/Th2 Autres hasardeuse : limite de l’analyse sémantique (mots courts, abréviations) POC CEA – Chaînage
sur l’élaboration du module de chaînage Retours DGT suite livraison des prototypes • Comparaison chaînage manuel vs chaînage automatique (stat) • Utilisation de l’outil (Gestion stock / flux) Stock : Reprise des données Utilisation de l’outil chainage automatique • Déterminer le seuil d’acceptabilité à utiliser pour la reprise du stock Accepter ou non un taux d’erreur pour augmenter le nombre de liens effectués (Le CEA, après étude, propose d’adopter un seuil à 0,7) Détermination du seuil pour le chaînage automatique Aide à l’amélioration de la qualité (choix manuel parmi plusieurs propositions) • Réflexions à mener Limiter le périmètre d’action • Déterminer une date pour le lancement du chaînage automatique • Se focaliser sur les textes valides (via des règles de gestion) Fonctionnalités à développer (modules à destinations des agents/administrateurs) en plus des entreprises Flux : amélioration des saisies dès le dépôt (objectifs à atteindre – lot 2) • Meilleure ergonomie, amélioration de la qualité des saisies (chemins spécifiques pour le dépôt) • Saisies traitées en base de données et non plus sur des fichiers téléchargés (+ format prédéfini) • Nouveaux services proposés aux déposants: Lier dès le dépôt un texte à un texte existant grâce au compte entreprise Possibilité de télécharger un texte inexistant dans la base POC CEA – Chaînage