Extrayendo datos de PDFs (sin programar)

Extrayendo datos de PDFs (sin programar) David Cabo (@dcabo)

PDF Generado electrónicamente (buscable) Imagen escaneada Tablas Formato complejo

PDF Generado electrónicamente (buscable) Imagen escaneada Formato complejo Tablas

Tablas 1. Copiar y pegar a Excel no funciona bien
2. Programas de pago: deskUNPDF, Nitro, Acrobat Pro... 3. Servicios web gratuitos: • cometdocs.com • pdftoexcelonline.com • zamzar.com

Tablas PDF Generado electrónicamente (buscable) Imagen escaneada Formato complejo

Formatos complejos • Columnas, datos partidos en varias lineas, datos
intercalados entre el texto... • Las herramientas automáticas no suelen ser capaces de extraer la información • Es necesario: • extraer el texto del PDF (xpdf / poppler) • y crear un programa especíﬁco (Ruby, Python, Perl... + expresiones regulares)

Tablas PDF Generado electrónicamente (buscable) Formato complejo Imagen escaneada

Imágenes • El texto original no está disponible: no podemos
buscar en él, ni copiarlo • Software para reconocer carácteres (OCR) • La ﬁabilidad depende de la calidad de la entrada (limpieza, resolución, tipo de letra) • Bastante trabajo: • Hay que revisar el resultado • Difícil de automatizar para muchos ﬁcheros

OCR Open Source • Tesseract + OCROpus • Usado por
Google • No es fácil de instalar y utilizar Comerciales • AbbyyReader • Adobe Acrobat Pro • Solid • ...

¿Preguntas? David Cabo (@dcabo)

Extrayendo datos de PDFs (sin programar)

Extrayendo datos de PDFs (sin programar)

dcabo

More Decks by dcabo

Other Decks in Technology

Featured

Transcript