20220203-datadrink-Simara

Direction interministérielle du numérique Appel à projets – Cycle de
vie de la donnée SIMARA – Saisie d’Inventaires Manuscrits Assistée par Reconnaissance Automatique Ministère : Culture Organisation : SCN Archives nationales Data Drink 03.02.2022

3 février 2022 Data Drink Pierrefitte-sur-Seine – Paris 1. Contexte
et besoins

3 février 2022 Data Drink Paris – Pierrefitte-sur-Seine Qui sommes-nous
?

3 février 2022 Data Drink Les Archives nationales : une
institution citoyenne au service de la mémoire collective Paris Pierrefitte-sur-Seine

3 février 2022 Data Drink Les Archives nationales : une
institution citoyenne au service de la mémoire collective Collecter Collecter Communiquer Communiquer Valoriser Valoriser Conserver Conserver Classer Classer

3 février 2022 Data Drink Les archives, des papyrus mérovingiens…
… aux données de l’administration électronique. 370 km l. d’archives. 65 To d’archives numériques. 8 millions de documents numérisés. 25 000 inventaires.

3 février 2022 Data Drink Paris – Pierrefitte-sur-Seine Les clés
d’accès aux archives : les inventaires

3 février 2022 Data Drink L’inventaire : les métadonnées des
archives. Les inventaires, ou comment retrouver ce que l’on cherche. • Titre • Date • Contenus importants • Indexation des entités nommées • Support • Délai de communicabilité • etc.

3 février 2022 Data Drink Exemple d’inventaire actuel - Format
numérique natif : XML EAD. - Consultables en salle des inventaires virtuelle (SIV). Interface de la SIV

3 février 2022 Data Drink Format XML-EAD, ouvert, pérenne et
interopérable.

3 février 2022 Data Drink Paris – Pierrefitte-sur-Seine Le cas
des inventaires anciens

3 février 2022 Data Drink Le cas des inventaires anciens
Des inventaires manuscrits du XVIIIe au XXe siècle encore non dématérialisés (seulement en mode image). Série E : arrêts en commandement du Conseil (XVIIIe s.)

Des inventaires manuscrits du XVIIIe au XXe siècle encore non dématérialisés (seulement en mode image). Seules clés d’accès aux fonds, mais encore inaccessibles aux publics.

Des inventaires manuscrits du XVIIIe au XXe siècle encore non dématérialisés (seulement en mode image). Seules clés d’accès aux fonds, mais encore inaccessibles aux publics. Masse importante : 800 000 fiches et 100 000 pages.

Des inventaires manuscrits du XVIIIe au XXe siècle encore non dématérialisés (seulement en mode image). Seules clés d’accès aux fonds, mais encore inaccessibles aux publics. Masse importante : 800 000 fiches et 100 000 pages. Rétroconversion longue : saisie et encodage en XML à la main chronophages.

3 février 2022 Data Drink Chaîne de dématérialisation Inventaires manuscrits
Structuration sous tableur (ou traitement de texte) Encodage XML Publication SIV saisie manuelle encodage manuel Temps pris par la saisie et l’encodage manuel : 300 pages = 2 mois 1550 fiches = 1 mois… Masse : 100 000 pages d’inventaires, 800 000 fiches...

3 février 2022 Data Drink Pierrefitte-sur-Seine – Paris 2. Le
recours à l’intelligence artificielle « Machine Learning » et HTR (Handwritten text recognition)

3 février 2022 Data Drink La discipline du « Machine
Learning » Machine learning : crée des modèles évoluant au fil du temps en fonction des données fournies. Données Apprentissage Prédiction IA IA Machine Machine learning learning Deep Deep learning learning

3 février 2022 Data Drink HTR : handwritten text recognition
Reconnaissance d’écritures manuscrites Équivalent de l’OCR (optical character recognition) pour le manuscrit. OCR : déduction d’un caractère typographique par reconnaissance de forme.

Reconnaissance d’écritures manuscrites Principe : créer des modèles de reconnaissances d’écritures en fonction de données variables (les « mains », ou variantes stylistiques de l’écriture humaine).

Segmentation des pages et lignes

Alignement des lemmes reconnus sur l’image.

3 février 2022 Data Drink Pierrefitte-sur-Seine – Paris 3. Le
projet SIMARA Saisie d’Inventaires Manuscrits Assistée par Reconnaissance Automatique

3 février 2022 Data Drink Paris – Pierrefitte-sur-Seine Le principe
de la solution

3 février 2022 Data Drink Objectifs du projet SIMARA +
4. Suggestions d’indexation automatisée d’entités nommées. Réaliser en même temps transcription (par l’IA) et structuration XML (sur la base d’une modélisation réalisée par les archivistes et adaptable à chaque inventaire).

3 février 2022 Data Drink Architecture Système d’information archivistique

3 février 2022 Data Drink Paris – Pierrefitte-sur-Seine Démonstration

3 février 2022 Data Drink L’interface Web – rôles et
droits utilisateurs Les différents rôles et la gestion des droits utilisateurs est mise en œuvre : Administrateur Chef de projet Archiviste responsable du traitement de l’inventaire. Annotateur Utilisateur transcrivant un échantillon de l’inventaire pour entraîner l’IA ; relecteur des transcriptions automatisées. Ces utilisateurs peuvent être des personnes extérieures aux Archives nationales (bénévoles par ex.).

3 février 2022 Data Drink 1 Créer un projet d’inventaire

3 février 2022 Data Drink Création d’un projet de rétroconversion
par inventaire (rôle chef de projet)

3 février 2022 Data Drink Création d’un projet de rétroconversion
(chef de projet) Charger les images de l’inventaire.

2 Élaborer un formulaire de saisie

3 février 2022 Data Drink Analyse préalable de l’inventaire

3 février 2022 Data Drink Analyse préalable de l’inventaire Intitulé
: « Tableau indicatif des dépôts, archives et chartriers... » Importance matérielle : 1 pièce. Cote 1 : M//702 Date : s.d. (entre le 7 messidor an II et le 5 floréal an IV (24 avril 1796) Cote 2 : Dossier 1 (rajouter Dossier) Description matérielle : Cahier de 24 feuillets in-fol. Analyse complémentaire : [Dressé par l’Agence temporaire des titres, donne la liste de 405 chartriers… ]

3 février 2022 Data Drink Masque de saisie Élaborer un
formulaire adapté à l’inventaire. Permet de définir les catégories d’information qui seront encodées en XML.

2 Élaborer un formulaire de saisie 3 Distribuer les tâches d’annotation ou relecture

3 février 2022 Data Drink Distribuer les tâches d’annotation :
Demander à transcrire un échantillon pour créer des modèles d’écriture… ou Relecture, correction et validation de la transcription faite par IA pour améliorer les modèles d’écriture.

2 Élaborer un formulaire de saisie 3 Distribuer les tâches d’annotation ou relecture 4 Créer une vérité de terrain ou relire les transcriptions de l’IA

3 février 2022 Data Drink Annotation (rôle annotateur) Tâches d’annotations
ou de relectures assignées par le chef de projet (images à transcrire ou relire). Regroupement des tâches par inventaires.

3 février 2022 Data Drink Annotation (rôle annotateur) Exemple de
saisie de vérité de terrain à partir du masque de saisie élaboré par le chef de projet.

3 février 2022 Data Drink Relecture d’annotation IA (rôle annotateur)
Édition de l’annotation. Les corrections apportées lors de la relecture améliorent le modèle d’écriture de l’IA.

2 Élaborer un formulaire de saisie 3 Distribuer les tâches d’annotation ou relecture 4 Créer une vérité de terrain ou relire les transcriptions de l’IA 5 Validation et export XML

3 février 2022 Data Drink Relecture et encodage XML Le
chef de projet peut : revoir les annotations ; récupérer le code XML EAD généré par la plate-forme à partir du formulaire. Actuellement les principales catégories d’information de l’EAD sont bien implémentées.

3 février 2022 Data Drink Téléchargement de l’inventaire entier en
XML EAD

3 février 2022 Data Drink Paris – Pierrefitte-sur-Seine « Réutilisabilité
» et pérennité

3 février 2022 Data Drink « Réutilisabilité » et pérennité SIMARA Inventaires
XVIIIe-XIXe siècles Data Data Data Données = modèles de traitements d’écritures. Propriété : Archives nationales. Licence : données librement réutilisables. réutilisation technique HTR d’archives originales XVIIIe-XIXe siècles Projets internes AN Projets internes AN Projets d’autres administrations Réseau des services publics d’archives (collectivités territ.) : - 100 archives départementales - archives municipales ; Structures SHS. Ex. : projet d’HTR de l’ensemble des recensements de population (XIXe s.-1936) conservés dans les archives départementales par l’INED et Paris School of Economics. Code propriété Archives nat. ⇒ Des données ouvertes et réutilisables.

3 février 2022 Data Drink Merci de votre attention !
[email protected]

20220203-datadrink-Simara

20220203-datadrink-Simara

More Decks by etalab-ia

Featured

Transcript