Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Preparando datos para su análisis

dcabo
May 27, 2013
370

Preparando datos para su análisis

Cómo conseguir datos de distintas fuentes y convertir PDFs a formatos reutilizables.

dcabo

May 27, 2013
Tweet

Transcript

  1. Tablas 1. Copiar y pegar a Excel no funciona bien

    2. Programas de pago: deskUNPDF, Nitro, Acrobat Pro... 3. Servicios web gratuitos: • cometdocs.com • pdftoexcelonline.com • zamzar.com
  2. Formatos complejos • Columnas, datos partidos en varias lineas, datos

    intercalados entre el texto... • Las herramientas automáticas no suelen ser capaces de extraer la información • Es necesario: • extraer el texto del PDF (xpdf / poppler) • y crear un programa específico (Ruby, Python, Perl... + expresiones regulares)
  3. Imágenes • El texto original no está disponible: no podemos

    buscar en él, ni copiarlo • Software para reconocer carácteres (OCR) • La fiabilidad depende de la calidad de la entrada (limpieza, resolución, tipo de letra) • Bastante trabajo: • Hay que revisar el resultado • Difícil de automatizar para muchos ficheros
  4. OCR Open Source • Tesseract + OCROpus • Usado por

    Google • No es fácil de instalar y utilizar Comerciales • AbbyyReader • Adobe Acrobat Pro • Solid • Google Docs (gratis)