Extrayendo datos de PDFs (sin programar)

582c3149594a35cbff558b815db651c5?s=47 dcabo
January 13, 2012

Extrayendo datos de PDFs (sin programar)

Parte de la sesión del Grupo de Periodismo de Datos del Medialab Prado, Madrid. Enero 2012
http://medialab-prado.es/article/sesion_formativa_periodismo_datos

582c3149594a35cbff558b815db651c5?s=128

dcabo

January 13, 2012
Tweet

Transcript

  1. Extrayendo datos de PDFs (sin programar) David Cabo (@dcabo)

  2. None
  3. None
  4. PDF Generado electrónicamente (buscable) Imagen escaneada Tablas Formato complejo

  5. PDF Generado electrónicamente (buscable) Imagen escaneada Formato complejo Tablas

  6. Tablas 1. Copiar y pegar a Excel no funciona bien

    2. Programas de pago: deskUNPDF, Nitro, Acrobat Pro... 3. Servicios web gratuitos: • cometdocs.com • pdftoexcelonline.com • zamzar.com
  7. None
  8. Tablas PDF Generado electrónicamente (buscable) Imagen escaneada Formato complejo

  9. None
  10. None
  11. Formatos complejos • Columnas, datos partidos en varias lineas, datos

    intercalados entre el texto... • Las herramientas automáticas no suelen ser capaces de extraer la información • Es necesario: • extraer el texto del PDF (xpdf / poppler) • y crear un programa específico (Ruby, Python, Perl... + expresiones regulares)
  12. None
  13. Tablas PDF Generado electrónicamente (buscable) Formato complejo Imagen escaneada

  14. Imágenes • El texto original no está disponible: no podemos

    buscar en él, ni copiarlo • Software para reconocer carácteres (OCR) • La fiabilidad depende de la calidad de la entrada (limpieza, resolución, tipo de letra) • Bastante trabajo: • Hay que revisar el resultado • Difícil de automatizar para muchos ficheros
  15. OCR Open Source • Tesseract + OCROpus • Usado por

    Google • No es fácil de instalar y utilizar Comerciales • AbbyyReader • Adobe Acrobat Pro • Solid • ...
  16. None
  17. None
  18. None
  19. None
  20. None
  21. None
  22. None
  23. ¿Preguntas? David Cabo (@dcabo)