Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Trabajando de forma eficaz con datos públicos

Trabajando de forma eficaz con datos públicos

Fernando Blat

June 27, 2016
Tweet

More Decks by Fernando Blat

Other Decks in Technology

Transcript

  1. • Co-fundador, programador y ejecutor en Populate • Papeles de

    Panamá • Crear una cultura crítica basada en datos • Crear herramientas que ayuden a la gente a consumir datos
  2. • Gran variedad de formato: Excel, CSV, MS Access, PDF

    • CSVs que son Excels guardados como CSVs • Limpiar y transformar los datos Datos públicos
  3. • Compartir datos en un equipo • Comunicar y distribuir

    cambios en los datos • Transformaciones reproducibles Trabajar con ficheros de datos
  4. • Formato CSV o JSON • Generación automática de datos

    finales con scripts • Documentación • Ficheros versionados Buenas prácticas v1
  5. • Sistema centralizado en el que guardar todos esos conjuntos

    de datos • Cuando se actualicen estén disponibles para todos • Consultas complejas: filtrar por varios metadatos a la vez • Permite realizar cálculos al vuelo: medias, varianza, sumas… Buenas prácticas v2
  6. • Dato: • 3.510.000 Datos y metadatos • Metadatos: •

    Geo: Alcalá de Henares • Tiempo: 2015 • Provincia: Madrid • Comunidad: Madrid • Unidad: euros • Partida: 171 • Nivel: 3 • Partida padre: 17 • Tipo: gasto
  7. • Dame todas las partidas de gasto de nivel 1

    • Dame todas las partidas de Parques y Jardines de la Comunidad de Madrid • Súmame el gasto medio en Parques y Jardines en España • Crúzame el dato del gasto con el número de habitantes y dame el gasto por habitante Consultas
  8. • Cada conjunto de datos vive en un silo separado

    • Se pueden combinar para realizar consultas cruzando datos • Si se actualiza el dataset, se guarda en el mismo silo con el metadato fecha de la actualización Estructura
  9. • Motor genérico de búsqueda de texto en documentos •

    Conviertes tu documento en un JSON y los indexas • Lenguaje de consultas fácil de aprender • Más de dos millones de registros en menos de 100ms • API JSON para usarla desde D3.js • Sólo se puede utilizar con un lenguaje de programación Elastic Search
  10. • https://github.com/populatetools/ine-places • Librería que te permite acceder a la

    lista de municipios, provincias y autonomías actualiza por año • Código INE: identificador único de casi cualquier dataset del INE • Se conecta con fuentes de datos externas INE Places
  11. Ejemplo: crear un CSV con datos de deuda por habitante

    en base al dataset del censo y al dataset de la deuda INE Places
  12. • Trabajar con datos es complejo • Rigor y meticulosidad

    • 95% de posibilidades de aplicar transformaciones al dataset • Poder reproducir los pasos es condición para poder aplicar un paso Conclusiones