Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Preparando datos para su análisis

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for dcabo dcabo
May 27, 2013
620

Preparando datos para su análisis

Cómo conseguir datos de distintas fuentes y convertir PDFs a formatos reutilizables.

Avatar for dcabo

dcabo

May 27, 2013
Tweet

Transcript

  1. Tablas 1. Copiar y pegar a Excel no funciona bien

    2. Programas de pago: deskUNPDF, Nitro, Acrobat Pro... 3. Servicios web gratuitos: • cometdocs.com • pdftoexcelonline.com • zamzar.com
  2. Formatos complejos • Columnas, datos partidos en varias lineas, datos

    intercalados entre el texto... • Las herramientas automáticas no suelen ser capaces de extraer la información • Es necesario: • extraer el texto del PDF (xpdf / poppler) • y crear un programa específico (Ruby, Python, Perl... + expresiones regulares)
  3. Imágenes • El texto original no está disponible: no podemos

    buscar en él, ni copiarlo • Software para reconocer carácteres (OCR) • La fiabilidad depende de la calidad de la entrada (limpieza, resolución, tipo de letra) • Bastante trabajo: • Hay que revisar el resultado • Difícil de automatizar para muchos ficheros
  4. OCR Open Source • Tesseract + OCROpus • Usado por

    Google • No es fácil de instalar y utilizar Comerciales • AbbyyReader • Adobe Acrobat Pro • Solid • Google Docs (gratis)