Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Extrayendo datos de PDFs (sin programar)

dcabo
January 13, 2012

Extrayendo datos de PDFs (sin programar)

Parte de la sesión del Grupo de Periodismo de Datos del Medialab Prado, Madrid. Enero 2012
http://medialab-prado.es/article/sesion_formativa_periodismo_datos

dcabo

January 13, 2012
Tweet

More Decks by dcabo

Other Decks in Technology

Transcript

  1. Tablas 1. Copiar y pegar a Excel no funciona bien

    2. Programas de pago: deskUNPDF, Nitro, Acrobat Pro... 3. Servicios web gratuitos: • cometdocs.com • pdftoexcelonline.com • zamzar.com
  2. Formatos complejos • Columnas, datos partidos en varias lineas, datos

    intercalados entre el texto... • Las herramientas automáticas no suelen ser capaces de extraer la información • Es necesario: • extraer el texto del PDF (xpdf / poppler) • y crear un programa específico (Ruby, Python, Perl... + expresiones regulares)
  3. Imágenes • El texto original no está disponible: no podemos

    buscar en él, ni copiarlo • Software para reconocer carácteres (OCR) • La fiabilidad depende de la calidad de la entrada (limpieza, resolución, tipo de letra) • Bastante trabajo: • Hay que revisar el resultado • Difícil de automatizar para muchos ficheros
  4. OCR Open Source • Tesseract + OCROpus • Usado por

    Google • No es fácil de instalar y utilizar Comerciales • AbbyyReader • Adobe Acrobat Pro • Solid • ...