Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Fuentes y formatos de datos para el desarrollo

Pablo Martín
September 10, 2018

Fuentes y formatos de datos para el desarrollo

Pablo Martín

September 10, 2018
Tweet

More Decks by Pablo Martín

Other Decks in Technology

Transcript

  1. Fuentes y
    formatos de datos
    para el desarrollo
    Pablo Martín | PR3SSH
    Creative Commons (Attribution - Share Alike)

    View Slide

  2. Índice
    ● Open Data
    ● Portales de datos
    ● Formatos principales de distribución de datos
    ● Legislación y licenciamiento
    ● Conceptos avanzados de Open Data
    ● Principales fuentes de datos abiertos para el desarrollo

    View Slide

  3. Open Data

    View Slide

  4. La era del dato
    Fuente desconocida

    View Slide

  5. La era del dato
    http://johnkapeleris.com/blog

    View Slide

  6. La era del dato

    View Slide

  7. La era del dato

    View Slide

  8. Open Data
    Los datos abiertos son datos que pueden ser utilizados, reutilizados
    y redistribuidos libremente por cualquier persona.
    Hay diversas variaciones de la definición en relación con el concepto
    de libertad, dependiendo de quién sea el encargado de recopilar, de
    almacenar y de publicar los datos.

    View Slide

  9. Open Data
    https://www.ted.com/talks/tim_berners_lee_on_the_next_web

    View Slide

  10. Open Data
    http://5stardata.info

    View Slide

  11. Open Gov Data
    Las administraciones públicas disponen de gran cantidad de datos
    públicos con un valor incalculable.
    Es por ello que para el beneficio de todas y todos (administraciones,
    ciudadanía, empresas, academia, movimientos sociales) éstos
    deberían ser liberados. Además deberían serlo por una cuestión tan
    básica como reconocer quién es el dueño o con qué fondos se han
    producido.

    View Slide

  12. Open Gov Data
    http://index.okfn.org

    View Slide

  13. Open Gov Data
    Claves al abrir datos:
    ● Publicacion clara
    ● Formatos accesibles
    ● Periodicidad corta
    ● Mecanismo de suscripción
    ● Licenciamiento libre
    ● Anonimato
    ● Seguridad nacional

    View Slide

  14. Open Gov Data
    Beneficios de abrir datos:
    ● Implementación del Gobierno Abierto (transparencia y
    participación)
    ● Mayor eficiencia de las administraciones públicas
    ● Investigación e innovación
    ● Generación de una nueva economía
    ● Nuevo conocimiento mezclando datos
    ● y muchos otros que ni conocemos

    View Slide

  15. Portales de datos

    View Slide

  16. Definición
    Un portal de datos abiertos es un espacio web donde una
    organización publicará todos sus datos para ser consultados y
    reutilizados por otros entes (ya sean personas o programas
    informáticos).
    Los portales de datos, al contrario que otros portales web, están
    enfocados en el dato como unidad semántica básica y fundacional del
    mismo.

    View Slide

  17. Independencia tecnológica
    Los portales de datos pueden ser construidos de diversa forma y por
    ello son independientes de una herramienta concreta/
    Diferentes son los estándares de datos que se usen para la
    publicación del contenido, los mecanismos de publicación y cierta
    homogeneización de buenas prácticas detectadas y ya asumidas por
    la comunidad.

    View Slide

  18. Interacciones básicas
    Buscar
    El sistema de búsqueda debe ser potente y permitir opciones
    avanzadas de la misma así como mecanismos de búsqueda facetadas.
    Publicar
    La publicación debe ser simple, bien estructurada y que aporte toda
    la información necesaria.

    View Slide

  19. Elementos fundamentales
    ● Catálogo de datos
    ● Gestión de datos
    ● Exploración de datos
    ● Previsualización
    ● Metadatos
    ● Federación
    ● Exposición de datos

    View Slide

  20. Elementos generales
    ● Gestión de usuarios
    ● Apariencia
    ● Sindicación
    ● Feedback
    ● Analíticas
    ● Seguridad
    ● Alojamiento
    ● Integración
    ● etc

    View Slide

  21. Herramientas más populares
    ● CKAN (ckan.org)
    ● Socrata (socrata.com)

    View Slide

  22. Buenos ejemplos de portales de datos
    ● Gobierno Reino Unido: data.gov.uk
    ● Gobierno Estados Unidos: data.gov
    ● Unión europea: data.europa.eu
    ● Gobierno de Australia: data.gov.au
    ● Gobierno de España: datos.gob.es
    ● Banco Mundial: data.worldbank.org
    ● FAO Stats: fao.org/faostat

    View Slide

  23. Formatos principales de
    distribución de datos

    View Slide

  24. Qué son los formatos de datos
    ● Los formatos de datos son un conjunto de reglas que definen la
    forma en la que se almacenan y definen los datos.
    ● Al hacer públicas dichas reglas se posibilita que todas las
    personas puedan conocerlas y con ello usarlas. Si se da un
    proceso global, puede que dicho formato de datos se estandarice
    al expandirse y afianzarse su uso.
    ● Los formatos de datos hacen referencia a los tipos de ficheros de
    datos en el que se almacenan. No se está haciendo referencia en
    ningún caso a las bases de datos.
    ● Son normalmente formatos de tipo texto, legibles por cualquier
    software de edición de texto pero a veces mejor procesado con
    software específico para facilitar su comprensión.

    View Slide

  25. Formatos de datos más populares
    ● PDF
    ● XLS
    ● CSV
    ● XML
    ● JSON
    ● GeoJSON
    ● RDF
    ● ...

    View Slide

  26. Formatos de datos: PDF

    View Slide

  27. Formatos de datos: XLS
    ● También conocido como XLSX en los últimos años
    ● Desarrollado por Microsoft para su software de hojas de cálculo
    Excel
    ● Distribución en formato tabla bidimensional
    ● Permite guardar código y estilos además de datos
    ● La popularidad de las hojas de cálculo han hecho
    tremendamente popular este formato
    ● No es recomendable su uso por ser privativo

    View Slide

  28. Formatos de datos: CSV
    ● Fichero de texto de valores separados por comas (o tabuladores
    en formato TSV)
    ● Distribución en formato tabla bidimensional
    ● Alternativa abierta al formato XLS
    ● Solo permite almacenar datos
    ● Amplio uso en el almacenamiento de datos
    ● Suele llevar una primera fila de definición de campos (cabecera)

    View Slide

  29. Formatos de datos: CSV
    Ej.:
    nombre, color, talla
    manzana, rojo, media
    pera, verde, media
    melón, verde, grande
    ciruela, morado, pequeña

    View Slide

  30. Formatos de datos: XML
    ● Extensive Markup Language
    ● Formato de marcado ampliamente usado
    ● Permite jerarquías o niveles de profundidad (estructura arbórea)
    ● xHTML está basado en XML
    ● Se considera tanto human-readable como machine-readable
    ● Se basa en etiquetas (apertura y cierre) completamente
    configurables
    ● Puede contener o estar basado en una gramática en formato
    DTD
    ● Estándar abierto de la W3C (Consorcio de la World Wide Web)

    View Slide

  31. Formatos de datos: XML
    Ej.:

    manzanarojomedia

    peraverdemedia
    fruta>
    melónverdegrande

    ciruelamoradopequeñalla>

    View Slide

  32. Formatos de datos: JSON
    ● Javascript Object Notation
    ● Javascript es el lenguaje de la web
    ● El uso masivo de Javascript ha popularizado este formato
    ● Se basa en {clave: valor}
    ● Permite jerarquías o niveles de profundidad (estructura arbórea)
    ● Bajo coste de almacenamiento (en comparación con XML)
    ● Estándar abierto

    View Slide

  33. Formatos de datos: JSON
    Ej.:
    { “frutas”: [
    {“nombre”: “manzana”, “color”: “rojo”. “Talla”, “media”},
    {“nombre”: “pera”, “color”: “verde”. “Talla”, “media”},
    {“nombre”: “melón”, “color”: “verde”. “Talla”, “grande”},
    {“nombre”: “ciruela”, “color”: “morado”. “Talla”, “pequeña”}
    ] }

    View Slide

  34. Formatos de datos: GeoJSON
    ● Geographic Javascript Object Notation
    ● Basado en JSON
    ● Permite definir una serie de características geográficas
    ● Además permite almacenar elementos no geográficos como
    puntos y polígonos
    ● Estándar abierto

    View Slide

  35. Formatos de datos: RDF
    ● Resource Description Framework
    ● Es un modelo de intercambio de datos en la Web
    ● Extiende el sistema relacional de la Web, usando URIs para
    nombrar las relaciones entre elementos (y sus elementos en sí)
    ● Modelo de tripletas
    ● Diferentes serializaciones: Turtle, RDF/XML, JSON-LD, RDFa
    ● Estándar abierto

    View Slide

  36. Legislación y
    licenciamiento

    View Slide

  37. Legislación
    ● Directiva Europea de Reutilización de la Información del Sector
    Público (2003/98/EC).
    ● Ley 19/2013, de 9 de diciembre, de Transparencia, Acceso a la
    Información Pública y Buen Gobierno. Gobierno de España.
    ● Leyes autonómicas de transparencia y reutilización de
    información.
    ○ Andalucía (1/2014 de 24 de junio))
    ○ Comunitat Valenciana (2/2015 de 2 de abril)
    ○ y otras
    ● Ordenanzas municipales de transparencia.

    View Slide

  38. Licenciamiento
    ● OGL - Open Government License
    ● ODbL - Open Database License
    ● Otras licencias específicas pero de la misma naturaleza

    View Slide

  39. Conceptos avanzados
    de Open Data

    View Slide

  40. Una breve aproximación
    ● REST API
    ● Formato RDF
    ● Formato RDFa
    ● DCAT
    ● Pinceladas de ontologías y web semántica

    View Slide

  41. Qué es una API
    ● API = Application Programming Interface
    ● Conjunto de funciones y definiciones sobre un protocolo
    ● Permite de forma relativamente sencilla integrar datos de unas
    aplicaciones en otras permitiendo así obtener unos niveles
    bastante altos de interoperabilidad entre sistemas
    ● Puede tener mecanismos de autenticación y versionado

    View Slide

  42. REST API
    ● REST = Representational State Transfer
    ● Las REST API son las más populares dentro de los diversos tipos
    de API que existen, o al menos las más comunes en servicios
    digitales existentes por su facilidad de uso
    ● Se basan en el protocolo HTTP usado en la Web para ofrecer
    documentos con hipertexto (HTML)
    ● Consta de una serie de puntos de acceso para los diferentes
    métodos
    ● Ej.: curl https://api.github.com/search/repositories?q=ckan

    View Slide

  43. Formato RDFa
    ● RDFa = RDF in attributes
    ● Se refiere a la inclusión de etiquetas RDF en atributos de los
    elementos HTML
    ● Muy usado para introducir metadatos semánticos en la Web
    ● Otra alternativa: Microdata

    View Slide

  44. DCAT
    ● DCAT es un vocabulario RDF diseñado para facilitar la
    interoperabilidad entre catálogos de datos publicados en la Web
    ● Básicamente su misión es describir conjunto de datos
    ● Esto promueve el descubrimiento y facilita que las aplicaciones
    consuman metadatos de diversos catálogos de datos de forma
    automatizada
    ● Basado en XML
    ● Respaldado por el W3C
    ● Está ampliamente extendido en los portales de datos
    ● Ejemplos de uso en
    www.w3.org/TR/vocab-dcat/#basic-example

    View Slide

  45. Linked Open Data Cloud Diagram

    View Slide

  46. La Wikipedia semántica
    http://wikidata.org

    View Slide

  47. Principales fuentes de
    datos abiertos para el
    desarrollo

    View Slide

  48. The World Bank
    https://data.worldbank.org

    View Slide

  49. FAO
    http://www.fao.org/statistics/databases

    View Slide

  50. Open Data for Development
    http://od4d.net

    View Slide

  51. Global Partnership for Sustainable
    Development Data
    http://data4sdgs.org

    View Slide

  52. Data for Development Festival
    http://www.data4sdgs.org/index.php/news/data-development-festival

    View Slide

  53. Resource Watch
    http://resourcewatch.org

    View Slide

  54. API Highways
    http://apihighways.org

    View Slide