Upgrade to Pro — share decks privately, control downloads, hide ads and more …

20220203-datadrink-Simara

etalab-ia
February 03, 2022
200

 20220203-datadrink-Simara

Jean-François Moufflet, Archives Nationales, présentera le projet Simara (Saisie d'Inventaires Manuscrits Assistée par Reconnaissance Automatique), solution d'assistance à la transcription et à la structuration par l'IA de documents manuscrits du XVIIIe au XXe siècle.

etalab-ia

February 03, 2022
Tweet

Transcript

  1. Direction interministérielle du numérique Appel à projets – Cycle de

    vie de la donnée SIMARA – Saisie d’Inventaires Manuscrits Assistée par Reconnaissance Automatique Ministère : Culture Organisation : SCN Archives nationales Data Drink 03.02.2022
  2. 3 février 2022 Data Drink Les Archives nationales : une

    institution citoyenne au service de la mémoire collective Paris Pierrefitte-sur-Seine
  3. 3 février 2022 Data Drink Les Archives nationales : une

    institution citoyenne au service de la mémoire collective Collecter Collecter Communiquer Communiquer Valoriser Valoriser Conserver Conserver Classer Classer
  4. 3 février 2022 Data Drink Les archives, des papyrus mérovingiens…

    … aux données de l’administration électronique. 370 km l. d’archives. 65 To d’archives numériques. 8 millions de documents numérisés. 25 000 inventaires.
  5. 3 février 2022 Data Drink L’inventaire : les métadonnées des

    archives. Les inventaires, ou comment retrouver ce que l’on cherche. • Titre • Date • Contenus importants • Indexation des entités nommées • Support • Délai de communicabilité • etc.
  6. 3 février 2022 Data Drink Exemple d’inventaire actuel - Format

    numérique natif : XML EAD. - Consultables en salle des inventaires virtuelle (SIV). Interface de la SIV
  7. 3 février 2022 Data Drink Le cas des inventaires anciens

    Des inventaires manuscrits du XVIIIe au XXe siècle encore non dématérialisés (seulement en mode image). Série E : arrêts en commandement du Conseil (XVIIIe s.)
  8. 3 février 2022 Data Drink Le cas des inventaires anciens

    Des inventaires manuscrits du XVIIIe au XXe siècle encore non dématérialisés (seulement en mode image). Seules clés d’accès aux fonds, mais encore inaccessibles aux publics.
  9. 3 février 2022 Data Drink Le cas des inventaires anciens

    Des inventaires manuscrits du XVIIIe au XXe siècle encore non dématérialisés (seulement en mode image). Seules clés d’accès aux fonds, mais encore inaccessibles aux publics. Masse importante : 800 000 fiches et 100 000 pages.
  10. 3 février 2022 Data Drink Le cas des inventaires anciens

    Des inventaires manuscrits du XVIIIe au XXe siècle encore non dématérialisés (seulement en mode image). Seules clés d’accès aux fonds, mais encore inaccessibles aux publics. Masse importante : 800 000 fiches et 100 000 pages. Rétroconversion longue : saisie et encodage en XML à la main chronophages.
  11. 3 février 2022 Data Drink Chaîne de dématérialisation Inventaires manuscrits

    Structuration sous tableur (ou traitement de texte) Encodage XML Publication SIV saisie manuelle encodage manuel Temps pris par la saisie et l’encodage manuel : 300 pages = 2 mois 1550 fiches = 1 mois… Masse : 100 000 pages d’inventaires, 800 000 fiches...
  12. 3 février 2022 Data Drink Pierrefitte-sur-Seine – Paris 2. Le

    recours à l’intelligence artificielle « Machine Learning » et HTR (Handwritten text recognition)
  13. 3 février 2022 Data Drink La discipline du « Machine

    Learning » Machine learning : crée des modèles évoluant au fil du temps en fonction des données fournies. Données Apprentissage Prédiction IA IA Machine Machine learning learning Deep Deep learning learning
  14. 3 février 2022 Data Drink HTR : handwritten text recognition

    Reconnaissance d’écritures manuscrites Équivalent de l’OCR (optical character recognition) pour le manuscrit. OCR : déduction d’un caractère typographique par reconnaissance de forme.
  15. 3 février 2022 Data Drink HTR : handwritten text recognition

    Reconnaissance d’écritures manuscrites Principe : créer des modèles de reconnaissances d’écritures en fonction de données variables (les « mains », ou variantes stylistiques de l’écriture humaine).
  16. 3 février 2022 Data Drink HTR : handwritten text recognition

    Alignement des lemmes reconnus sur l’image.
  17. 3 février 2022 Data Drink Pierrefitte-sur-Seine – Paris 3. Le

    projet SIMARA Saisie d’Inventaires Manuscrits Assistée par Reconnaissance Automatique
  18. 3 février 2022 Data Drink Objectifs du projet SIMARA +

    4. Suggestions d’indexation automatisée d’entités nommées. Réaliser en même temps transcription (par l’IA) et structuration XML (sur la base d’une modélisation réalisée par les archivistes et adaptable à chaque inventaire).
  19. 3 février 2022 Data Drink L’interface Web – rôles et

    droits utilisateurs Les différents rôles et la gestion des droits utilisateurs est mise en œuvre : Administrateur Chef de projet Archiviste responsable du traitement de l’inventaire. Annotateur Utilisateur transcrivant un échantillon de l’inventaire pour entraîner l’IA ; relecteur des transcriptions automatisées. Ces utilisateurs peuvent être des personnes extérieures aux Archives nationales (bénévoles par ex.).
  20. 3 février 2022 Data Drink Création d’un projet de rétroconversion

    (chef de projet) Charger les images de l’inventaire.
  21. 3 février 2022 Data Drink Analyse préalable de l’inventaire Intitulé

    : « Tableau indicatif des dépôts, archives et chartriers... » Importance matérielle : 1 pièce. Cote 1 : M//702 Date : s.d. (entre le 7 messidor an II et le 5 floréal an IV (24 avril 1796) Cote 2 : Dossier 1 (rajouter Dossier) Description matérielle : Cahier de 24 feuillets in-fol. Analyse complémentaire : [Dressé par l’Agence temporaire des titres, donne la liste de 405 chartriers… ]
  22. 3 février 2022 Data Drink Masque de saisie Élaborer un

    formulaire adapté à l’inventaire. Permet de définir les catégories d’information qui seront encodées en XML.
  23. 3 février 2022 Data Drink 1 Créer un projet d’inventaire

    2 Élaborer un formulaire de saisie 3 Distribuer les tâches d’annotation ou relecture
  24. 3 février 2022 Data Drink Distribuer les tâches d’annotation :

    Demander à transcrire un échantillon pour créer des modèles d’écriture… ou Relecture, correction et validation de la transcription faite par IA pour améliorer les modèles d’écriture.
  25. 3 février 2022 Data Drink 1 Créer un projet d’inventaire

    2 Élaborer un formulaire de saisie 3 Distribuer les tâches d’annotation ou relecture 4 Créer une vérité de terrain ou relire les transcriptions de l’IA
  26. 3 février 2022 Data Drink Annotation (rôle annotateur) Tâches d’annotations

    ou de relectures assignées par le chef de projet (images à transcrire ou relire). Regroupement des tâches par inventaires.
  27. 3 février 2022 Data Drink Annotation (rôle annotateur) Exemple de

    saisie de vérité de terrain à partir du masque de saisie élaboré par le chef de projet.
  28. 3 février 2022 Data Drink Annotation (rôle annotateur) Exemple de

    saisie de vérité de terrain à partir du masque de saisie élaboré par le chef de projet.
  29. 3 février 2022 Data Drink Relecture d’annotation IA (rôle annotateur)

    Édition de l’annotation. Les corrections apportées lors de la relecture améliorent le modèle d’écriture de l’IA.
  30. 3 février 2022 Data Drink Relecture d’annotation IA (rôle annotateur)

    Édition de l’annotation. Les corrections apportées lors de la relecture améliorent le modèle d’écriture de l’IA.
  31. 3 février 2022 Data Drink 1 Créer un projet d’inventaire

    2 Élaborer un formulaire de saisie 3 Distribuer les tâches d’annotation ou relecture 4 Créer une vérité de terrain ou relire les transcriptions de l’IA 5 Validation et export XML
  32. 3 février 2022 Data Drink Relecture et encodage XML Le

    chef de projet peut : revoir les annotations ; récupérer le code XML EAD généré par la plate-forme à partir du formulaire. Actuellement les principales catégories d’information de l’EAD sont bien implémentées.
  33. 3 février 2022 Data Drink « Réutilisabilité » et pérennité SIMARA Inventaires

    XVIIIe-XIXe siècles Data Data Data Données = modèles de traitements d’écritures. Propriété : Archives nationales. Licence : données librement réutilisables. réutilisation technique HTR d’archives originales XVIIIe-XIXe siècles Projets internes AN Projets internes AN Projets d’autres administrations Réseau des services publics d’archives (collectivités territ.) : - 100 archives départementales - archives municipales ; Structures SHS. Ex. : projet d’HTR de l’ensemble des recensements de population (XIXe s.-1936) conservés dans les archives départementales par l’INED et Paris School of Economics. Code propriété Archives nat. ⇒ Des données ouvertes et réutilisables.