Upgrade to Pro — share decks privately, control downloads, hide ads and more …

20220203-datadrink-Simara

etalab-ia
February 03, 2022
150

 20220203-datadrink-Simara

Jean-François Moufflet, Archives Nationales, présentera le projet Simara (Saisie d'Inventaires Manuscrits Assistée par Reconnaissance Automatique), solution d'assistance à la transcription et à la structuration par l'IA de documents manuscrits du XVIIIe au XXe siècle.

etalab-ia

February 03, 2022
Tweet

Transcript

  1. Direction interministérielle du numérique
    Appel à projets – Cycle de vie de la donnée
    SIMARA – Saisie d’Inventaires Manuscrits
    Assistée par Reconnaissance Automatique
    Ministère : Culture
    Organisation : SCN Archives nationales
    Data Drink
    03.02.2022

    View Slide

  2. 3 février 2022 Data Drink
    Pierrefitte-sur-Seine – Paris
    1. Contexte et besoins

    View Slide

  3. 3 février 2022 Data Drink
    Paris – Pierrefitte-sur-Seine
    Qui sommes-nous ?

    View Slide

  4. 3 février 2022
    Data Drink
    Les Archives nationales : une institution citoyenne au service de la mémoire collective
    Paris Pierrefitte-sur-Seine

    View Slide

  5. 3 février 2022
    Data Drink
    Les Archives nationales : une institution citoyenne au service de la mémoire collective
    Collecter
    Collecter
    Communiquer
    Communiquer Valoriser
    Valoriser
    Conserver
    Conserver
    Classer
    Classer

    View Slide

  6. 3 février 2022
    Data Drink
    Les archives, des papyrus mérovingiens…
    … aux données de
    l’administration électronique.
    370 km l.
    d’archives.
    65 To
    d’archives
    numériques.
    8 millions de
    documents
    numérisés.
    25 000
    inventaires.

    View Slide

  7. 3 février 2022 Data Drink
    Paris – Pierrefitte-sur-Seine
    Les clés d’accès aux archives : les inventaires

    View Slide

  8. 3 février 2022
    Data Drink
    L’inventaire : les métadonnées des archives.
    Les inventaires, ou comment retrouver ce que l’on cherche.
    ● Titre
    ● Date
    ● Contenus importants
    ● Indexation des entités nommées
    ● Support
    ● Délai de communicabilité
    ● etc.

    View Slide

  9. 3 février 2022
    Data Drink
    Exemple
    d’inventaire
    actuel
    - Format numérique
    natif : XML EAD.
    - Consultables en
    salle des inventaires
    virtuelle (SIV).
    Interface
    de la SIV

    View Slide

  10. 3 février 2022
    Data Drink
    Format XML-EAD, ouvert, pérenne et interopérable.

    View Slide

  11. 3 février 2022 Data Drink
    Paris – Pierrefitte-sur-Seine
    Le cas des inventaires anciens

    View Slide

  12. 3 février 2022
    Data Drink
    Le cas des inventaires anciens
    Des inventaires manuscrits du
    XVIIIe au XXe siècle encore non
    dématérialisés (seulement en
    mode image).
    Série E : arrêts en commandement du Conseil (XVIIIe s.)

    View Slide

  13. 3 février 2022
    Data Drink
    Le cas des inventaires anciens
    Des inventaires manuscrits du
    XVIIIe au XXe siècle encore non
    dématérialisés (seulement en
    mode image).
    Seules clés d’accès aux fonds,
    mais encore inaccessibles aux
    publics.

    View Slide

  14. 3 février 2022
    Data Drink
    Le cas des inventaires anciens
    Des inventaires manuscrits du
    XVIIIe au XXe siècle encore non
    dématérialisés (seulement en
    mode image).
    Seules clés d’accès aux fonds,
    mais encore inaccessibles aux
    publics.
    Masse importante : 800 000
    fiches et 100 000 pages.

    View Slide

  15. 3 février 2022
    Data Drink
    Le cas des inventaires anciens
    Des inventaires manuscrits du
    XVIIIe au XXe siècle encore non
    dématérialisés (seulement en
    mode image).
    Seules clés d’accès aux fonds,
    mais encore inaccessibles aux
    publics.
    Masse importante : 800 000
    fiches et 100 000 pages.
    Rétroconversion longue : saisie et
    encodage en XML à la main
    chronophages.

    View Slide

  16. 3 février 2022
    Data Drink
    Chaîne de dématérialisation
    Inventaires manuscrits
    Structuration sous tableur
    (ou traitement de texte)
    Encodage XML
    Publication SIV
    saisie manuelle
    encodage manuel
    Temps pris
    par la saisie
    et l’encodage
    manuel :
    300 pages =
    2 mois
    1550 fiches =
    1 mois…
    Masse :
    100 000
    pages
    d’inventaires,
    800 000
    fiches...

    View Slide

  17. 3 février 2022 Data Drink
    Pierrefitte-sur-Seine – Paris
    2. Le recours à l’intelligence artificielle
    « Machine Learning » et HTR (Handwritten text recognition)

    View Slide

  18. 3 février 2022
    Data Drink
    La discipline du « Machine Learning »
    Machine learning : crée
    des modèles évoluant au
    fil du temps en fonction
    des données fournies.
    Données
    Apprentissage
    Prédiction
    IA
    IA
    Machine
    Machine
    learning
    learning
    Deep
    Deep
    learning
    learning

    View Slide

  19. 3 février 2022
    Data Drink
    HTR : handwritten text recognition
    Reconnaissance d’écritures manuscrites
    Équivalent de l’OCR (optical character recognition) pour
    le manuscrit.
    OCR : déduction d’un caractère typographique
    par reconnaissance de forme.

    View Slide

  20. 3 février 2022
    Data Drink
    HTR : handwritten text recognition
    Reconnaissance d’écritures manuscrites
    Principe : créer des modèles de reconnaissances
    d’écritures en fonction de données variables (les
    « mains », ou variantes stylistiques de l’écriture
    humaine).

    View Slide

  21. 3 février 2022
    Data Drink
    HTR : handwritten text recognition
    Segmentation des pages et lignes

    View Slide

  22. 3 février 2022
    Data Drink
    HTR : handwritten text recognition
    Alignement des lemmes reconnus sur l’image.

    View Slide

  23. 3 février 2022 Data Drink
    Pierrefitte-sur-Seine – Paris
    3. Le projet SIMARA
    Saisie d’Inventaires Manuscrits Assistée par
    Reconnaissance Automatique

    View Slide

  24. 3 février 2022 Data Drink
    Paris – Pierrefitte-sur-Seine
    Le principe de la solution

    View Slide

  25. 3 février 2022
    Data Drink
    Objectifs du projet SIMARA
    + 4. Suggestions d’indexation automatisée d’entités nommées.
    Réaliser en même temps transcription (par l’IA) et structuration
    XML (sur la base d’une modélisation réalisée par les archivistes et
    adaptable à chaque inventaire).

    View Slide

  26. 3 février 2022
    Data Drink
    Architecture
    Système d’information archivistique

    View Slide

  27. 3 février 2022 Data Drink
    Paris – Pierrefitte-sur-Seine
    Démonstration

    View Slide

  28. 3 février 2022
    Data Drink
    L’interface Web – rôles et droits utilisateurs
    Les différents rôles et la gestion des droits
    utilisateurs est mise en œuvre :
    Administrateur
    Chef de projet
    Archiviste responsable du traitement de
    l’inventaire.
    Annotateur
    Utilisateur transcrivant un échantillon de
    l’inventaire pour entraîner l’IA ; relecteur des
    transcriptions automatisées.
    Ces utilisateurs peuvent être des personnes
    extérieures aux Archives nationales
    (bénévoles par ex.).

    View Slide

  29. 3 février 2022
    Data Drink
    1 Créer un projet
    d’inventaire

    View Slide

  30. 3 février 2022
    Data Drink
    Création d’un projet de rétroconversion par inventaire
    (rôle chef de projet)

    View Slide

  31. 3 février 2022
    Data Drink
    Création d’un projet de rétroconversion (chef de projet)
    Charger les images de l’inventaire.

    View Slide

  32. 3 février 2022
    Data Drink
    1 Créer un projet
    d’inventaire
    2 Élaborer un
    formulaire de
    saisie

    View Slide

  33. 3 février 2022
    Data Drink
    Analyse préalable de l’inventaire

    View Slide

  34. 3 février 2022
    Data Drink
    Analyse préalable de l’inventaire
    Intitulé : « Tableau indicatif des
    dépôts, archives et chartriers... »
    Importance matérielle : 1 pièce.
    Cote 1 :
    M//702
    Date : s.d. (entre le 7
    messidor an II et le 5
    floréal an IV (24 avril
    1796)
    Cote 2 :
    Dossier 1
    (rajouter
    Dossier)
    Description matérielle : Cahier
    de 24 feuillets in-fol.
    Analyse complémentaire : [Dressé par l’Agence
    temporaire des titres, donne la liste de 405 chartriers… ]

    View Slide

  35. 3 février 2022
    Data Drink
    Masque de
    saisie
    Élaborer un
    formulaire
    adapté à
    l’inventaire.
    Permet de
    définir les
    catégories
    d’information
    qui seront
    encodées en
    XML.

    View Slide

  36. 3 février 2022
    Data Drink
    1 Créer un projet
    d’inventaire
    2 Élaborer un
    formulaire de
    saisie
    3 Distribuer les tâches
    d’annotation ou
    relecture

    View Slide

  37. 3 février 2022
    Data Drink
    Distribuer les tâches d’annotation :
    Demander à transcrire un échantillon
    pour créer des modèles d’écriture…
    ou
    Relecture, correction et validation de la
    transcription faite par IA pour améliorer
    les modèles d’écriture.

    View Slide

  38. 3 février 2022
    Data Drink
    1 Créer un projet
    d’inventaire
    2 Élaborer un
    formulaire de
    saisie
    3 Distribuer les tâches
    d’annotation ou
    relecture
    4 Créer une vérité de
    terrain ou relire les
    transcriptions de l’IA

    View Slide

  39. 3 février 2022
    Data Drink
    Annotation (rôle annotateur)
    Tâches d’annotations ou de relectures assignées par le chef
    de projet (images à transcrire ou relire).
    Regroupement des tâches par inventaires.

    View Slide

  40. 3 février 2022
    Data Drink
    Annotation (rôle annotateur)
    Exemple de saisie de vérité de terrain à partir du masque de saisie élaboré par le chef de projet.

    View Slide

  41. 3 février 2022
    Data Drink
    Annotation (rôle annotateur)
    Exemple de saisie de vérité de terrain à partir du masque de saisie élaboré par le chef de projet.

    View Slide

  42. 3 février 2022
    Data Drink
    Relecture d’annotation IA (rôle annotateur)
    Édition de l’annotation. Les corrections apportées lors de
    la relecture améliorent le modèle d’écriture de l’IA.

    View Slide

  43. 3 février 2022
    Data Drink
    Relecture d’annotation IA (rôle annotateur)
    Édition de l’annotation. Les corrections apportées lors de
    la relecture améliorent le modèle d’écriture de l’IA.

    View Slide

  44. 3 février 2022
    Data Drink
    1 Créer un projet
    d’inventaire
    2 Élaborer un
    formulaire de
    saisie
    3 Distribuer les tâches
    d’annotation ou
    relecture
    4 Créer une vérité de
    terrain ou relire les
    transcriptions de l’IA
    5 Validation et
    export XML

    View Slide

  45. 3 février 2022
    Data Drink
    Relecture et encodage XML
    Le chef de projet peut :
    revoir les annotations ;
    récupérer le code XML EAD généré par la plate-forme à partir du formulaire.
    Actuellement les principales catégories d’information de l’EAD sont bien implémentées.

    View Slide

  46. 3 février 2022
    Data Drink
    Téléchargement de l’inventaire entier en XML EAD

    View Slide

  47. 3 février 2022 Data Drink
    Paris – Pierrefitte-sur-Seine
    « Réutilisabilité » et pérennité

    View Slide

  48. 3 février 2022
    Data Drink
    « Réutilisabilité » et pérennité
    SIMARA
    Inventaires
    XVIIIe-XIXe siècles
    Data
    Data
    Data
    Données = modèles de
    traitements d’écritures.
    Propriété : Archives
    nationales.
    Licence : données
    librement réutilisables.
    réutilisation technique HTR d’archives originales
    XVIIIe-XIXe siècles
    Projets internes AN
    Projets internes AN
    Projets d’autres
    administrations
    Réseau des services
    publics d’archives
    (collectivités territ.) :
    - 100 archives
    départementales
    - archives municipales ;
    Structures SHS.
    Ex. : projet d’HTR de
    l’ensemble des
    recensements
    de population
    (XIXe s.-1936)
    conservés dans les
    archives
    départementales par
    l’INED et Paris
    School of Economics.
    Code propriété Archives nat.

    Des données
    ouvertes et
    réutilisables.

    View Slide

  49. 3 février 2022
    Data Drink
    Merci de votre attention !
    [email protected]

    View Slide