Upgrade to Pro — share decks privately, control downloads, hide ads and more …

20210701-datadrink-lectaurep.pdf

8eada3aa8251117a617e101bb2881366?s=47 etalab-ia
July 01, 2021
59

 20210701-datadrink-lectaurep.pdf

8eada3aa8251117a617e101bb2881366?s=128

etalab-ia

July 01, 2021
Tweet

Transcript

  1. None
  2. Un projet de service aux usagers > lecture, recherche, fouille

    de texte dans la masse des images d’archives transformées en données par l’IA (réseaux de neurones récurrents - LSTM)
  3. Un « Marmiton » au service d’un réseau administratif du

    patrimoine écrit > mutualisation de données, modèles et méthodes documentés, produits avec un logiciel libre (Kraken/eScriptorium – projet Scripta-PSL) Convention-cadre Culture – Inria (DIN/SNUM)
  4. Diversité du corpus 1803-1944 122 études de notaire 1 ml.

    par étude 2000 registres préimprimés Des milliers d’écritures Des informations visuellement structurées
  5. Près d’un demi-siècle de campagnes de reprographie analogique et numérique

  6. None
  7. Transformation des images numériques en données

  8. Quantifier et critiquer la performance (taux d’erreur par caractère /

    mot - corpus ; clusters d’écritures)
  9. Passer à l’échelle But : minimiser la production de données

    d’entraînement pour une nouvelle main (fond de sauce) * Golden set : 700 pages simples transcrites (10/15 mains, 1830/1836/1850/1901/1907, 6 notaires/2 études) * Random set : 600 pages simples transcrites (une centaine de mains) * Enregistrements de contrats de mariage, séparations, divorces : 144 doubles pages (une dizaine de mains) * Me Bronod (XVIIIe siècle) : 125 doubles pages (une main ; CER < 5 %)
  10. None
  11. Principes suivis Tracer l’obtention des modèles Documenter données d’entraînement et

    corpus Archiver les données vérité terrain (plan de gestion des données et modèles)
  12. Besoins émergents Cartographie des solutions disponibles (cf. guide Etalab sur

    la pseudonymisation des documents) > cf. investigation par le Lab IA d’un outil mutualisé d’OCR + extraction d’informations des documents administratifs
  13. Besoins émergents Cartographie des projets, corpus, infrastructures, algorithmes, modèles et

    jeux de données (plans de gestion) Bancs d’essai (interopérabilité des modèles et des données)
  14. None
  15. None
  16. Ressources clés sur LectAuRep, eScripta et l’HTR https://lectaurep.hypotheses.org https://gitlab.inria.fr/almanach/lectaurep https://escripta.hypotheses.org/

    https://gitlab.com/scripta/escriptorium https://readcoop.eu/transkribus https://teklia.com/ > Christopher Kermorvant (Teklia) - Naoned, "Que peut l'intelligence artificielle pour les archives : un état de l'art", https://teklia.com/blog/202106-naoned/ (captation, Viméo, 30'57", 25 juin 2021) Futurs fantastiques - FF21: Fantastic Futures, 3rd International Conference on Artificial Intelligence for Librairies, Archives and Museums (AI4LAM), 9-10 décembre 2021, Paris, BnF https://easychair.org/cfp/FantasticFutures21 > Plusieurs projets d’HTR menés avec différents logiciels (libres ou pas) et différentes infrastructures seront présentés.