OpenLab OCR-Xtract 07102021

OpenLab OCR-Xtract 7 octobre 2021 Lab IA d’Etalab

Programme - 16h-18h OpenLab OCR-Xtract 🎯 Présentation du projet (20
min) ⚙ Démonstration sur les cartes d’identité (10 min) 󰡇 Questions / Réponses (15 min) 🎨 Répartition dans les ateliers (45 min) 📝 Restitutions des ateliers (15 min)

Présentation du projet

Présentation du Lab IA Au sein du département Etalab de
la Direction interministérielle du numérique (DINUM), le Laboratoire pour l’intelligence artificielle (Lab IA) accompagne les administrations dans le déploiement de leurs projets IA et renforce leurs capacités en data science.

Les outils mutualisés ⚙ Proposer des solutions d’intelligence artificielle en
open source qui répondent à des besoins récurrents des administrations 🎯 Exemples: Outil de pseudonymisation de textes PIAF (Pour des intelligences artificielles francophones) Lab IA d’Etalab

OCR-Xtract - Présentation Contexte : Les administrations ont régulièrement besoin
d’exploiter en masse des documents administratifs sous des formats non directement exploitable (PDF scannés, images, etc.). Irritant : L’information contenue dans ces documents, pour être exploitées, doit passer par une étape d'extraction et de structuration de l’information, qui est vite très chronophage si elle doit être réalisée à la main.

OCR-Xtract - Solution proposée ⚙ Outil qui prend en entrée
des documents et qui permet de: • OCRiser les documents au format image (PDF scannées, photos, images, etc) • Extraire des informations ciblées • Annoter des documents pour entraîner un modèle “customisé” lorsque les informations à extraire ne sont pas standards

Exemples de cas d’usage • Extraction des noms, prénoms, date
de naissance des cartes d’identité pour vérifier automatiquement la validité des pièces d’un dossier • Extraction des noms, prénoms, employeur, salaire des fiches de paye • Numérisation et extraction d’informations des documents juridiques (délibérations, décisions de justices, etc)

En quoi l’IA est-elle une bonne solution ? • Technologies
d’OCR éprouvées, nombreuses solutions disponibles en open source • L’extraction d’information est une tâche plus complexe, les performances d’algorithmes de machine learning dépendront de la complexité des informations à extraire • Les gains à automatiser le processus d'extraction d’information, par rapport à une extraction manuelle, sont potentiellement très importants • Garder en tête qu’une précision de 100% n’est pas atteignable dans la majorité des cas. L’automatisation est pertinente lorsque les gains de temps compensent largement la perte en précision qui peut résulter de l’automatisation par rapport à la tâche manuelle

Les bénéfices attendus • Gain de temps pour traiter des
documents pour des agents publics • Accélérer le traitement des dossiers des usagers d’un service numérique : exemple de DossierFacile: l’automatisation permettra aux personnes qui déposent des dossiers d’obtenir une validation en temps réél lorsque les informations extraites des dossiers sont cohérentes • Proposer de nouveaux services grâce à l’exploitation de documents jusque là inexploités: Exemple pour les hôpitaux et des moteurs de de recherche pour les dossiers patients: un volume très important de pièces de dossiers scannés qui ne sont pas exploitées et qui contiennent pourtant des informations médicales sur le patient

Pourquoi développer une solution plutôt qu’avoir recours à une solution
existante ? Les solutions disponibles sont chères Une solution en propre permet de mieux sécuriser les données confidentielles

Comment notre offre se démarque ? • Coût des solutions
propriétaires est élevé et souvent décourageant • Capitalisation du code et des modèles sur les différents cas d’usages • Meilleure sécurisation des données • A l’heure actuelle, difficulté pour les administrations d’identifier l’acteur privé le plus pertinent devant la multiplicité des offres

Notre feuille de route (1/2) Les livrables à 6 mois
: MVP de la solution avec • Une application pour les cartes d’identités (CNI) et les feuilles de paye avec les fonctionnalités suivantes: ◦ Charger les documents sous différents formats ◦ Classifier le type de document ◦ Extraire les informations pertinentes (nom, prénom) • Une solution d’annotation pour annoter de nouveaux documents

Notre feuille de route (2/2) Les livrables à 12 mois
: MVP de la solution avec • Une application permettant de lancer l’entraînement du modèle facilement avec une option pour ré-entraîner le modèle avec les corrections manuelles ou les nouvelles annotations • Amélioration des modèles • Extraction de nouveaux contenus.

Comment ça marche

Il faut environ 200 documents annotés pour constituer une base
de données annotées Les documents sont OCRisés et annotés avec Label-Studio Comment constituer une base d’annotation ?

L’utilisateur vient sélectionner des catégories pour les mots identifiés

Nom : Prénom : BERTHIER Corinne Mot Pos Nom Pos
Prénom Is_nom ? Is_numb er ? Label Nom: 0 En haut 0. 0. O Prénom: En bas 0 0. 0. O Berthier A droite En haut à droite 1. 0. Nom Corinne En bas à droite A droite 0.3 0. Prenom Comment fonctionne le modèle ?

A terme, nous aimerions pouvoir donner à l’agent des outils
pour monitorer les performances du modèle et le réentrainer avec de nouvelles données issues des prédictions corrigées Une App web Une API Comment utiliser le modèle ?

Démonstration

Des questions ?

Ateliers

1 atelier au choix OpenLab OCR-Xtract • Atelier 1 (Tam
Kien): Partage de cas d’usages • Atelier 2 (Kim): Retours d’expériences sur des solutions existantes et tests des applications développées à date par le Lab IA • Atelier 3 (Robin): Retours d’expériences sur les librairies et les modèles pour l’OCR, l’extraction d’informations et l’apprentissage en ligne

Restitution des ateliers

github.com/etalab-ia/o cr-xtract

Nous avons besoin de vous ! [email protected]

OpenLab OCR-Xtract 07102021

OpenLab OCR-Xtract 07102021

etalab-ia

More Decks by etalab-ia

Featured

Transcript

OpenLab OCR-Xtract 7 octobre 2021 Lab IA d’Etalab

Programme - 16h-18h OpenLab OCR-Xtract 🎯 Présentation du projet (20

Présentation du projet

Présentation du Lab IA Au sein du département Etalab de

Les outils mutualisés ⚙ Proposer des solutions d’intelligence artificielle en

OCR-Xtract - Présentation Contexte : Les administrations ont régulièrement besoin

OCR-Xtract - Solution proposée ⚙ Outil qui prend en entrée

Exemples de cas d’usage • Extraction des noms, prénoms, date

En quoi l’IA est-elle une bonne solution ? • Technologies

Les bénéfices attendus • Gain de temps pour traiter des

Pourquoi développer une solution plutôt qu’avoir recours à une solution

Comment notre offre se démarque ? • Coût des solutions

Notre feuille de route (1/2) Les livrables à 6 mois

Notre feuille de route (2/2) Les livrables à 12 mois

Comment ça marche

Il faut environ 200 documents annotés pour constituer une base

L’utilisateur vient sélectionner des catégories pour les mots identifiés

Nom : Prénom : BERTHIER Corinne Mot Pos Nom Pos

A terme, nous aimerions pouvoir donner à l’agent des outils

Démonstration

Des questions ?

Ateliers

1 atelier au choix OpenLab OCR-Xtract • Atelier 1 (Tam

Restitution des ateliers

github.com/etalab-ia/o cr-xtract

Nous avons besoin de vous ! [email protected]