psuedo_CE_20201128

Pseudonymisation au Conseil d’État Premiers résultats Pavel SORIANO-MORALES November 28,
2019 Pôle Data Science et Exploitation des Données ETALAB – DINUM – Services du Premier Ministre

Pseudonymisation au Conseil d’État • Besoin d’ouvrir les décisions de
justice au grand public, • Pour y arriver, on doit supprimer les informations sensibles, • La solution existante fonctionne à base de règles (regex) et dictionnaires (noms/prénoms), • Une solution fondée sur le Traitement Automatique du Langage Naturel (TALN, ou NLP en anglais) pourrait fournir une solution plus ﬂexible et performante. • Etalab accompagne le Conseil d’État avec une première approche de la pseudonymisation avec du NLP. 1

Le contexte NLP EI Language Modeling QA ... 2

Le contexte NLP EI Language Modeling QA ... Extraction d’Information:
+ Reconnaissance d’Entités Nommées + Extraction de Relations + Remplissage de templates 2

Le contexte NLP EI Language Modeling QA ... Extraction d’Information:
+ Reconnaissance d’Entités Nommées + Extraction de Relations + Remplissage de templates + Supervisé + Sequentiel + CRF, HMM, RNN - LSTM MACHINE LEARNING !! 2

Le processus Token Tag Madame O Pauline B-PER SAILLY I-PER
. . 𝚯 ENTRAÎNEMENT Token Tag Madame ? Amandine ? CASTAGNE ? . . Décisions NON annotées Prétraitement Prédiction du modèle Token Tag Madame O Amandine B-PER CASTAGNE I-PER . . PRÉDICTION et PSEUDONYMISATION Corpus annoté Décisions annotées Prétraitement Model Fitting Fitted Parameters Décision Pseudonymisé Madame X... Y... demeurant à Z… .... Décisions pseudonymisées Suppression d’entités et formatage 3

Données d’entraînement ? Token Tag Madame O Pauline B-PER SAILLY
I-PER . . 𝚯 ENTRAÎNEMENT Token Tag Madame ? Amandine ? CASTAGNE ? . . Décisions NON annotées Prétraitement Prédiction du modèle Token Tag Madame O Amandine B-PER CASTAGNE I-PER . . PRÉDICTION et PSEUDONYMISATION Corpus annoté Décisions annotées Prétraitement Model Fitting Fitted Parameters Décision Pseudonymisé Madame X... Y... demeurant à Z… .... Suppression d’entités et formatage Décisions pseudonymisées 4

Données d’entraînement ? • Le système actuel et les corrections
manuelles fournissent des ”annotations” indirectes, • Le système sauvegarde la localisation, le mot, et l’entité (nom/prénom/adresse) détectée (sous forme de XML), • Nous proﬁtons de ces XMLs pour générer un corpus annoté à distance. 5

Création de données d’entraînement ID Statut Préc Statut Detail anon
d 1 4 en modif 5 corrigé XMLd1 d 2 4 5 XMLd2 ... 4 5 ... d n 4 5 XMLdn XML d 1 Position Ligne Mot XML d 2 Position Ligne Mot XML d n Position Ligne Mot DOC d 1 Conseil d’Etat …. DOC d 2 Conseil d’Etat …. DOC d n Conseil d’Etat …. TXT d 1 Conseil d’Etat …. TXT d 2 Conseil d’Etat …. TXT d n Conseil d’Etat …. CoNLL d 1 Token Tag Madame O Pauline PNOM SAILLY NOM 18 ADDR rue ADDR . CoNLL d 1 Token Tag Madame O Pauline PNOM SAILLY NOM 18 ADDR rue ADDR . CoNLL d n Token Tag Madame O Pauline PNOM SAILLY NOM 18 ADDR rue ADDR . 6

Aperçu des données d’entraînement • 35 931 décisions corrigées à
la main. • Parmi ces décisions, 24 769 appariées avec le document source. • 16 559 transformées avec succès (démarche précédente) • Nous prenons un échantillon de 497 décisions (aﬁn de diminuer les temps de calcul pendent les expériences) • Nous divisons ces 497 décisions en trois ensembles: train (396), dev (50), test (51), • La distribution des séquences des entités (nombre de noms/prénoms/adresses) est : Ensemble Nom Prénom Adresse Total train (396) 7 064 1421 506 8 991 fdev (50) 846 183 59 1 088 test (51) 890 162 59 1 111 Total 8 800 1 766 624 11 190 7

Aperçu des données d’entraînement 8

Entraînement/Apprentissage Token Tag Madame O Pauline B-PER SAILLY I-PER .
. 𝚯 ENTRAÎNEMENT Token Tag Madame ? Amandine ? CASTAGNE ? . . Décisions NON annotées Prétraitement Prédiction du modèle Token Tag Madame O Amandine B-PER CASTAGNE I-PER . . PRÉDICTION et PSEUDONYMISATION Corpus annoté Décisions annotées Prétraitement Model Fitting Fitted Parameters Décision Pseudonymisé Madame X... Y... demeurant à Z… .... Suppression d’entités et formatage Décisions pseudonymisées 9

Entraînement Le processus consiste en 3 entraînements : 1. Embeddings
: obtenir des représentations performantes (une seule fois*), 2. Classiﬁeur : obtenir les paramètres nécessaires pour prédire les labels (chaque expérience), 3. Classiﬁeur séquentiel : deuxième algo pour prendre en compte les mots et prédictions précédentes et suivantes (chaque expérience). 10

Entraînement Entraînement du premier algo de classiﬁcation (BiLSTM) Wiki FR
Jurinet JuriCA Web FR Entraînement du deuxième algo de classiﬁcation (CRF) Entraînement des Embeddings (Flair, FastText, camemBERT) 0.2 0.1 0.3 0.1 ... 0.1 0.3 0.2 0.1 ... 0.3 0.2 0.1 0.2 ... Cour Administrative d’ Marseille 0.4 0.1 0.2 0.1 ... 𝚯 𝚯 1 2 3 Paramètres appris du BiLSTM Paramètres appris du CRF 11

Méthode Madame Pauline SAILLY L1 R3 L2 R2 L3 R1
CRF O B-PER I-PER BiLSTM + CRF 12

CRF O B-PER I-PER FastText Flair BERT ?? BiLSTM char-level EMBEDDINGS BiLSTM + CRF 12

CRF O B-PER I-PER FastText Flair BERT ?? BiLSTM char-level ENCODING BiLSTM word-level EMBEDDINGS BiLSTM + CRF 12

CRF O B-PER I-PER FastText Flair BERT ?? BiLSTM char-level DECODING ENCODING BiLSTM word-level EMBEDDINGS BiLSTM + CRF 12

Prédiction Token Tag Madame O Pauline B-PER SAILLY I-PER .
. 𝚯 ENTRAÎNEMENT Token Tag Madame ? Amandine ? CASTAGNE ? . . Décisions NON annotées Prétraitement Prédiction du modèle Token Tag Madame O Amandine B-PER CASTAGNE I-PER . . PRÉDICTION et PSEUDONYMISATION Corpus annoté Décisions annotées Prétraitement Model Fitting Fitted Parameters Décision Pseudonymisé Madame X... Y... demeurant à Z… .... Suppression d’entités et formatage Décisions pseudonymisées 13

Évaluation Afin d’évaluer nous avons besoin de deux éléments :
1. Un ensemble de test que nous avons déjà créé précédemment, 2. Un ensemble de métriques (si on prends les noms comme exemple) : • Précision : taux des noms correctement identifiés comme un nom parmi tous les noms identifiés par le modèle, • Rappel : taux de noms correctement identifiés comme un nom parmi tous les vrais noms dans l’ensemble de test, • F-score : moyenne harmonique de la précision et du rappel. • Taux d’erreur : nombre de décisions avec une erreur sur n décisions (à creuser). 14

Résultats Précision Rappel F-score Fréquence ADRESSE 80.57 78.57 78.57 59
NOM 95.87 90.15 93.24 890 PRENOM 87.10 98.18 92.31 162 Overall 93.85 92.14 92.98 1 111 • Le modèle a une performance F-score de 92.98% • Comme référence*, le modèle publié par OpenJustice est à 94.85% (sans optimisation et à 96.53% avec l’optimisation proposé.) 15

Démo CLI 16

What now ? 1. Consolider les données d’entraînement (e.g., nous
ajoutons du bruit au modèle car il y a des informations incomplètes dans la base de données fournie), 2. Nous testons avec un échantillon assez réduit. Élargir l’échantillon devra permettre d’améliorer les résultats, 3. Réaliser plus d’expériences avec les embeddings disponibles (soit entraînés par nous mêmes, soit ceux crées par OpenJustice ou autres). 4. Déﬁnir la performance de la solution actuelle (à base de règles) et puis sélectionner une échantillon pour calculer le taux d’erreur. 17

Livrables • Aujourd’hui on a : 1. Un dataset d’entraînement
v1.0 et tout l’outillage pour le générer à partir de vos données, 2. La v1.0 du code pour générer un modèle type à partir ces données, 3. Un modèle Flair qui tourne sur CentOS 7. • À venir : 1. Version 2.0 avec des données mieux intégrées (et comprises) avec une alignement parfait entre XMLs et TXTs, 2. Code v2.0 avec les expériences en utilisant des autres embeddings, 3. Le modèle et le code installables de manière facile sous un autre système CentOS sous forme d’API. 18

psuedo_CE_20201128

psuedo_CE_20201128

etalab-ia

More Decks by etalab-ia

Featured

Transcript

Pseudonymisation au Conseil d’État Premiers résultats Pavel SORIANO-MORALES November 28,

Pseudonymisation au Conseil d’État • Besoin d’ouvrir les décisions de

Le contexte NLP EI Language Modeling QA ... 2

Le contexte NLP EI Language Modeling QA ... Extraction d’Information:

Le contexte NLP EI Language Modeling QA ... Extraction d’Information:

Le processus Token Tag Madame O Pauline B-PER SAILLY I-PER

Données d’entraînement ? Token Tag Madame O Pauline B-PER SAILLY

Données d’entraînement ? • Le système actuel et les corrections

Création de données d’entraînement ID Statut Préc Statut Detail anon

Aperçu des données d’entraînement • 35 931 décisions corrigées à

Aperçu des données d’entraînement 8

Entraînement/Apprentissage Token Tag Madame O Pauline B-PER SAILLY I-PER .

Entraînement Le processus consiste en 3 entraînements : 1. Embeddings

Entraînement Entraînement du premier algo de classiﬁcation (BiLSTM) Wiki FR

Méthode Madame Pauline SAILLY L1 R3 L2 R2 L3 R1

Méthode Madame Pauline SAILLY L1 R3 L2 R2 L3 R1

Méthode Madame Pauline SAILLY L1 R3 L2 R2 L3 R1

Méthode Madame Pauline SAILLY L1 R3 L2 R2 L3 R1

Prédiction Token Tag Madame O Pauline B-PER SAILLY I-PER .

Évaluation Aﬁn d’évaluer nous avons besoin de deux éléments :

Résultats Précision Rappel F-score Fréquence ADRESSE 80.57 78.57 78.57 59

Démo CLI 16

What now ? 1. Consolider les données d’entraînement (e.g., nous

Livrables • Aujourd’hui on a : 1. Un dataset d’entraînement