Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Fuentes y formatos de datos para el desarrollo

Pablo Martín
September 10, 2018

Fuentes y formatos de datos para el desarrollo

Pablo Martín

September 10, 2018
Tweet

More Decks by Pablo Martín

Other Decks in Technology

Transcript

  1. Fuentes y formatos de datos para el desarrollo Pablo Martín

    | PR3SSH Creative Commons (Attribution - Share Alike)
  2. Índice • Open Data • Portales de datos • Formatos

    principales de distribución de datos • Legislación y licenciamiento • Conceptos avanzados de Open Data • Principales fuentes de datos abiertos para el desarrollo
  3. Open Data Los datos abiertos son datos que pueden ser

    utilizados, reutilizados y redistribuidos libremente por cualquier persona. Hay diversas variaciones de la definición en relación con el concepto de libertad, dependiendo de quién sea el encargado de recopilar, de almacenar y de publicar los datos.
  4. Open Gov Data Las administraciones públicas disponen de gran cantidad

    de datos públicos con un valor incalculable. Es por ello que para el beneficio de todas y todos (administraciones, ciudadanía, empresas, academia, movimientos sociales) éstos deberían ser liberados. Además deberían serlo por una cuestión tan básica como reconocer quién es el dueño o con qué fondos se han producido.
  5. Open Gov Data Claves al abrir datos: • Publicacion clara

    • Formatos accesibles • Periodicidad corta • Mecanismo de suscripción • Licenciamiento libre • Anonimato • Seguridad nacional
  6. Open Gov Data Beneficios de abrir datos: • Implementación del

    Gobierno Abierto (transparencia y participación) • Mayor eficiencia de las administraciones públicas • Investigación e innovación • Generación de una nueva economía • Nuevo conocimiento mezclando datos • y muchos otros que ni conocemos
  7. Definición Un portal de datos abiertos es un espacio web

    donde una organización publicará todos sus datos para ser consultados y reutilizados por otros entes (ya sean personas o programas informáticos). Los portales de datos, al contrario que otros portales web, están enfocados en el dato como unidad semántica básica y fundacional del mismo.
  8. Independencia tecnológica Los portales de datos pueden ser construidos de

    diversa forma y por ello son independientes de una herramienta concreta/ Diferentes son los estándares de datos que se usen para la publicación del contenido, los mecanismos de publicación y cierta homogeneización de buenas prácticas detectadas y ya asumidas por la comunidad.
  9. Interacciones básicas Buscar El sistema de búsqueda debe ser potente

    y permitir opciones avanzadas de la misma así como mecanismos de búsqueda facetadas. Publicar La publicación debe ser simple, bien estructurada y que aporte toda la información necesaria.
  10. Elementos fundamentales • Catálogo de datos • Gestión de datos

    • Exploración de datos • Previsualización • Metadatos • Federación • Exposición de datos
  11. Elementos generales • Gestión de usuarios • Apariencia • Sindicación

    • Feedback • Analíticas • Seguridad • Alojamiento • Integración • etc
  12. Buenos ejemplos de portales de datos • Gobierno Reino Unido:

    data.gov.uk • Gobierno Estados Unidos: data.gov • Unión europea: data.europa.eu • Gobierno de Australia: data.gov.au • Gobierno de España: datos.gob.es • Banco Mundial: data.worldbank.org • FAO Stats: fao.org/faostat
  13. Qué son los formatos de datos • Los formatos de

    datos son un conjunto de reglas que definen la forma en la que se almacenan y definen los datos. • Al hacer públicas dichas reglas se posibilita que todas las personas puedan conocerlas y con ello usarlas. Si se da un proceso global, puede que dicho formato de datos se estandarice al expandirse y afianzarse su uso. • Los formatos de datos hacen referencia a los tipos de ficheros de datos en el que se almacenan. No se está haciendo referencia en ningún caso a las bases de datos. • Son normalmente formatos de tipo texto, legibles por cualquier software de edición de texto pero a veces mejor procesado con software específico para facilitar su comprensión.
  14. Formatos de datos más populares • PDF • XLS •

    CSV • XML • JSON • GeoJSON • RDF • ...
  15. Formatos de datos: XLS • También conocido como XLSX en

    los últimos años • Desarrollado por Microsoft para su software de hojas de cálculo Excel • Distribución en formato tabla bidimensional • Permite guardar código y estilos además de datos • La popularidad de las hojas de cálculo han hecho tremendamente popular este formato • No es recomendable su uso por ser privativo
  16. Formatos de datos: CSV • Fichero de texto de valores

    separados por comas (o tabuladores en formato TSV) • Distribución en formato tabla bidimensional • Alternativa abierta al formato XLS • Solo permite almacenar datos • Amplio uso en el almacenamiento de datos • Suele llevar una primera fila de definición de campos (cabecera)
  17. Formatos de datos: CSV Ej.: nombre, color, talla manzana, rojo,

    media pera, verde, media melón, verde, grande ciruela, morado, pequeña
  18. Formatos de datos: XML • Extensive Markup Language • Formato

    de marcado ampliamente usado • Permite jerarquías o niveles de profundidad (estructura arbórea) • xHTML está basado en XML • Se considera tanto human-readable como machine-readable • Se basa en etiquetas (apertura y cierre) completamente configurables • Puede contener o estar basado en una gramática en formato DTD • Estándar abierto de la W3C (Consorcio de la World Wide Web)
  19. Formatos de datos: XML Ej.: <frutas> <fruta><nombre>manzana</nombre><color>rojo</color><talla>media</talla> </fruta> <fruta><nombre>pera</nombre><color>verde</color><talla>media</talla></ fruta>

    <fruta><nombre>melón</nombre><color>verde</color><talla>grande</talla> </fruta> <fruta><nombre>ciruela</nombre><color>morado</color><talla>pequeña</ta lla></fruta> </frutas>
  20. Formatos de datos: JSON • Javascript Object Notation • Javascript

    es el lenguaje de la web • El uso masivo de Javascript ha popularizado este formato • Se basa en {clave: valor} • Permite jerarquías o niveles de profundidad (estructura arbórea) • Bajo coste de almacenamiento (en comparación con XML) • Estándar abierto
  21. Formatos de datos: JSON Ej.: { “frutas”: [ {“nombre”: “manzana”,

    “color”: “rojo”. “Talla”, “media”}, {“nombre”: “pera”, “color”: “verde”. “Talla”, “media”}, {“nombre”: “melón”, “color”: “verde”. “Talla”, “grande”}, {“nombre”: “ciruela”, “color”: “morado”. “Talla”, “pequeña”} ] }
  22. Formatos de datos: GeoJSON • Geographic Javascript Object Notation •

    Basado en JSON • Permite definir una serie de características geográficas • Además permite almacenar elementos no geográficos como puntos y polígonos • Estándar abierto
  23. Formatos de datos: RDF • Resource Description Framework • Es

    un modelo de intercambio de datos en la Web • Extiende el sistema relacional de la Web, usando URIs para nombrar las relaciones entre elementos (y sus elementos en sí) • Modelo de tripletas • Diferentes serializaciones: Turtle, RDF/XML, JSON-LD, RDFa • Estándar abierto
  24. Legislación • Directiva Europea de Reutilización de la Información del

    Sector Público (2003/98/EC). • Ley 19/2013, de 9 de diciembre, de Transparencia, Acceso a la Información Pública y Buen Gobierno. Gobierno de España. • Leyes autonómicas de transparencia y reutilización de información. ◦ Andalucía (1/2014 de 24 de junio)) ◦ Comunitat Valenciana (2/2015 de 2 de abril) ◦ y otras • Ordenanzas municipales de transparencia.
  25. Licenciamiento • OGL - Open Government License • ODbL -

    Open Database License • Otras licencias específicas pero de la misma naturaleza
  26. Una breve aproximación • REST API • Formato RDF •

    Formato RDFa • DCAT • Pinceladas de ontologías y web semántica
  27. Qué es una API • API = Application Programming Interface

    • Conjunto de funciones y definiciones sobre un protocolo • Permite de forma relativamente sencilla integrar datos de unas aplicaciones en otras permitiendo así obtener unos niveles bastante altos de interoperabilidad entre sistemas • Puede tener mecanismos de autenticación y versionado
  28. REST API • REST = Representational State Transfer • Las

    REST API son las más populares dentro de los diversos tipos de API que existen, o al menos las más comunes en servicios digitales existentes por su facilidad de uso • Se basan en el protocolo HTTP usado en la Web para ofrecer documentos con hipertexto (HTML) • Consta de una serie de puntos de acceso para los diferentes métodos • Ej.: curl https://api.github.com/search/repositories?q=ckan
  29. Formato RDFa • RDFa = RDF in attributes • Se

    refiere a la inclusión de etiquetas RDF en atributos de los elementos HTML • Muy usado para introducir metadatos semánticos en la Web • Otra alternativa: Microdata
  30. DCAT • DCAT es un vocabulario RDF diseñado para facilitar

    la interoperabilidad entre catálogos de datos publicados en la Web • Básicamente su misión es describir conjunto de datos • Esto promueve el descubrimiento y facilita que las aplicaciones consuman metadatos de diversos catálogos de datos de forma automatizada • Basado en XML • Respaldado por el W3C • Está ampliamente extendido en los portales de datos • Ejemplos de uso en www.w3.org/TR/vocab-dcat/#basic-example