Preparando datos para su análisis

582c3149594a35cbff558b815db651c5?s=47 dcabo
May 27, 2013
200

Preparando datos para su análisis

Cómo conseguir datos de distintas fuentes y convertir PDFs a formatos reutilizables.

582c3149594a35cbff558b815db651c5?s=128

dcabo

May 27, 2013
Tweet

Transcript

  1. ... Preparación de datos para su análisis David Cabo @dcabo

    CC BY-NC-SA
  2. None
  3. None
  4. http://datos.fundacionctic.org/sandbox/ catalog/faceted/

  5. None
  6. http://opendata.euskadi.net/w79-home/es

  7. http://www.navarra.es/home_es/Open-Data/

  8. PDF Generado electrónicamente (buscable) Imagen escaneada Tablas Formato complejo

  9. PDF Generado electrónicamente (buscable) Imagen escaneada Formato complejo Tablas

  10. Tablas 1. Copiar y pegar a Excel no funciona bien

    2. Programas de pago: deskUNPDF, Nitro, Acrobat Pro... 3. Servicios web gratuitos: • cometdocs.com • pdftoexcelonline.com • zamzar.com
  11. None
  12. Tablas PDF Generado electrónicamente (buscable) Imagen escaneada Formato complejo

  13. Formatos complejos • Columnas, datos partidos en varias lineas, datos

    intercalados entre el texto... • Las herramientas automáticas no suelen ser capaces de extraer la información • Es necesario: • extraer el texto del PDF (xpdf / poppler) • y crear un programa específico (Ruby, Python, Perl... + expresiones regulares)
  14. None
  15. None
  16. None
  17. None
  18. Tablas PDF Generado electrónicamente (buscable) Formato complejo Imagen escaneada

  19. Imágenes • El texto original no está disponible: no podemos

    buscar en él, ni copiarlo • Software para reconocer carácteres (OCR) • La fiabilidad depende de la calidad de la entrada (limpieza, resolución, tipo de letra) • Bastante trabajo: • Hay que revisar el resultado • Difícil de automatizar para muchos ficheros
  20. OCR Open Source • Tesseract + OCROpus • Usado por

    Google • No es fácil de instalar y utilizar Comerciales • AbbyyReader • Adobe Acrobat Pro • Solid • Google Docs (gratis)
  21. None
  22. None
  23. None
  24. None
  25. None
  26. None
  27. https://addons.mozilla.org/en-US/firefox/ addon/dafizilla-table2clipboard/

  28. None
  29. https://support.google.com/docs/bin/ answer.py?hl=en&answer=155182

  30. https://scraperwiki.com/

  31. http://open.dapper.net/

  32. https://ws037.juntadeandalucia.es/riibp/ inicio.do

  33. None
  34. None
  35. http://trabajanparati.es

  36. None
  37. None
  38. None
  39. None
  40. DONDEVANMISIMPUESTOS.ES

  41. http://www.propublica.org/nerds/item/ doc-dollars-guides-collecting-the-data Ruby, Google Refine, Firebug, Nokogiri, Tesseract

  42. ¿Preguntas? David Cabo (@dcabo)