20210701-datadrink-lectaurep.pdf

Un projet de service aux usagers > lecture, recherche, fouille
de texte dans la masse des images d’archives transformées en données par l’IA (réseaux de neurones récurrents - LSTM)

Un « Marmiton » au service d’un réseau administratif du
patrimoine écrit > mutualisation de données, modèles et méthodes documentés, produits avec un logiciel libre (Kraken/eScriptorium – projet Scripta-PSL) Convention-cadre Culture – Inria (DIN/SNUM)

Diversité du corpus 1803-1944 122 études de notaire 1 ml.
par étude 2000 registres préimprimés Des milliers d’écritures Des informations visuellement structurées

Près d’un demi-siècle de campagnes de reprographie analogique et numérique

Transformation des images numériques en données

Quantifier et critiquer la performance (taux d’erreur par caractère /
mot - corpus ; clusters d’écritures)

Passer à l’échelle But : minimiser la production de données
d’entraînement pour une nouvelle main (fond de sauce) * Golden set : 700 pages simples transcrites (10/15 mains, 1830/1836/1850/1901/1907, 6 notaires/2 études) * Random set : 600 pages simples transcrites (une centaine de mains) * Enregistrements de contrats de mariage, séparations, divorces : 144 doubles pages (une dizaine de mains) * Me Bronod (XVIIIe siècle) : 125 doubles pages (une main ; CER < 5 %)

Principes suivis Tracer l’obtention des modèles Documenter données d’entraînement et
corpus Archiver les données vérité terrain (plan de gestion des données et modèles)

Besoins émergents Cartographie des solutions disponibles (cf. guide Etalab sur
la pseudonymisation des documents) > cf. investigation par le Lab IA d’un outil mutualisé d’OCR + extraction d’informations des documents administratifs

Besoins émergents Cartographie des projets, corpus, infrastructures, algorithmes, modèles et
jeux de données (plans de gestion) Bancs d’essai (interopérabilité des modèles et des données)

Ressources clés sur LectAuRep, eScripta et l’HTR https://lectaurep.hypotheses.org https://gitlab.inria.fr/almanach/lectaurep https://escripta.hypotheses.org/
https://gitlab.com/scripta/escriptorium https://readcoop.eu/transkribus https://teklia.com/ > Christopher Kermorvant (Teklia) - Naoned, "Que peut l'intelligence artificielle pour les archives : un état de l'art", https://teklia.com/blog/202106-naoned/ (captation, Viméo, 30'57", 25 juin 2021) Futurs fantastiques - FF21: Fantastic Futures, 3rd International Conference on Artificial Intelligence for Librairies, Archives and Museums (AI4LAM), 9-10 décembre 2021, Paris, BnF https://easychair.org/cfp/FantasticFutures21 > Plusieurs projets d’HTR menés avec différents logiciels (libres ou pas) et différentes infrastructures seront présentés.

20210701-datadrink-lectaurep.pdf

20210701-datadrink-lectaurep.pdf

etalab-ia

More Decks by etalab-ia

Featured

Transcript

Un projet de service aux usagers > lecture, recherche, fouille

Un « Marmiton » au service d’un réseau administratif du

Diversité du corpus 1803-1944 122 études de notaire 1 ml.

Près d’un demi-siècle de campagnes de reprographie analogique et numérique

Transformation des images numériques en données

Quantifier et critiquer la performance (taux d’erreur par caractère /

Passer à l’échelle But : minimiser la production de données

Principes suivis Tracer l’obtention des modèles Documenter données d’entraînement et

Besoins émergents Cartographie des solutions disponibles (cf. guide Etalab sur

Besoins émergents Cartographie des projets, corpus, infrastructures, algorithmes, modèles et

Ressources clés sur LectAuRep, eScripta et l’HTR https://lectaurep.hypotheses.org https://gitlab.inria.fr/almanach/lectaurep https://escripta.hypotheses.org/