Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Taller de Datos Abiertos

Taller de Datos Abiertos

Taller de Datos Abiertos (#OpenData) impartido en la Escuela Técnica Superior de Ingeniería de la Universidad de Huelva en abril de 2017.

Duración de aproximadamente cinco horas con parte teórica y ejercicios prácticos con código en la que se le da un repaso grande al concepto #OpenData al igual que a su paradigma y se enseñan a cómo reutilizar desde ya datos de las administraciones públicas y las empresas privadas.

El código de los ejercicios está en https://github.com/pr3ssh/opendata-taller-uhu-2017

Pablo Martín

April 20, 2017
Tweet

More Decks by Pablo Martín

Other Decks in Technology

Transcript

  1. Taller de Datos Abiertos
    Escuela Técnica Superior de Ingeniería
    Universidad de Huelva
    Abril de 2017

    View Slide

  2. Pablo Martín Muñoz
    Hacker Cívico | @pr3ssh
    Socio trabajador de Enreda.coop
    Cofundador de Openkratio.org
    Parte de Tipiciudadano.es

    View Slide

  3. Disclaimer
    No soy unos apuntes
    así que relájate, disfruta
    y aprende.

    View Slide

  4. Índice de contenidos

    View Slide

  5. Índice de contenidos
    ● Aproximación inicial
    ● Legislación y licenciamiento
    ● El portal de datos abiertos
    ● Conceptos avanzados
    ● Entidades y experiencias
    ● Ejercicio: visualización básica
    ● Ejercicio: visualización avanzada
    ● Traca final
    ● Seguir profundizando....

    View Slide

  6. En tu memoria, Aaron.

    View Slide

  7. Aproximación inicial

    View Slide

  8. Lo abierto como paradigma
    Nos encontramos en bastantes entornos la inclusión del término open para
    referirse a diversas corrientes que buscan fundamentalmente compartir
    conocimiento.
    Y es en dicha compartición en donde se fundamenta este paradigma que intenta
    avanzar en la cooperación y no en la competencia, en buscar el beneficio de todos
    y no solo el de algunos.

    View Slide

  9. Lo abierto como paradigma
    Algunas corrientes abiertas son:
    ● Software libre
    ● Hardware libre
    ● Acceso abierto
    ● Ciencia abierta
    ● Código abierto

    View Slide

  10. Lo abierto como paradigma

    View Slide

  11. Lo abierto como paradigma

    View Slide

  12. La era del dato
    Fuente desconocida

    View Slide

  13. La era del dato
    http://johnkapeleris.com/blog

    View Slide

  14. La era del dato

    View Slide

  15. La era del dato

    View Slide

  16. La era del dato
    #CowCorollary

    View Slide

  17. La era del dato
    #CowCorollary
    Las vacas se alimentan de hierba en el campo.y todo lo que comen es procesado y
    desechado en forma de heces. Dichas heces son depositadas en el campo, el cuál
    las utiliza como nutriente para generar más hierba y por ello generar más alimento
    para las vacas.
    Las aplicaciones informáticas consumen datos para su funcioamiento y al final
    generan más datos que serán consumidos por ellas mismas o por otras apliaciones
    para generar más datos.

    View Slide

  18. La era del dato
    Generadores masivos de datos:
    ● Administración (pública) electrónica
    ● Internet evolucionado
    ● Telefonía móvil
    ● Domótica
    ● Ciudades inteligentes
    ● Industria
    ● Investigación
    ● ...

    View Slide

  19. #OpenData
    Los datos abiertos son datos que pueden ser utilizados, reutilizados y
    redistribuidos libremente por cualquier persona.
    Hay diversas variaciones de la definición en relación con el concepto de libertad,
    dependiendo de quién sea el encargado de recopilar, de almacenar y de publicar
    los datos.

    View Slide

  20. #OpenData
    https://www.ted.com/talks/tim_berners_lee_on_the_next_web

    View Slide

  21. #OpenData
    http://5stardata.info

    View Slide

  22. #OpenGovData
    Las administraciones públicas disponen de gran cantidad de datos publicos con un
    valor incalculable.
    Es por ello que para el beneficio de todos (administraciones, ciudadanía, empresas)
    éstos deberían ser liberados. Además deberían serlo por una cuestión tan básica
    como identificar quién es el dueño o con qué fondos se han producido.

    View Slide

  23. #OpenGovData
    http://index.okfn.org

    View Slide

  24. #OpenGovData
    Claves al abrir datos:
    ● Publicacion clara
    ● Formatos accesibles
    ● Periodicidad corta
    ● Mecanismo de suscripción
    ● Licenciamiento libre
    ● Anonimato
    ● Seguridad nacional

    View Slide

  25. #OpenGovData
    Beneficios de abrir datos:
    ● Implementación del Gobierno Abierto (transparencia y participación)
    ● Mayor eficiencia de las administraciones públicas
    ● Investigación e innovación
    ● Generación de una nueva economía
    ● Nuevo conocimiento mezclando datos
    ● ...

    View Slide

  26. Legislación y Licenciamiento

    View Slide

  27. Legislación
    ● Directiva Europea de Reutilización de la Información del Sector Público
    (2003/98/EC).
    ● Ley 19/2013, de 9 de diciembre, de Transparencia, Acceso a la Información
    Pública y Buen Gobierno. Gobierno de España.
    ● Ley 1/2014 de 24 de junio de Transparencia Pública de la Junta de Andalucía.
    ● Ordenanzas municipales de transparencia.

    View Slide

  28. Licenciamiento
    ● OGL - Open Goverment License
    ● ODbL - Open Database License
    ● Otras licencias específicas

    View Slide

  29. El portal de datos abiertos

    View Slide

  30. Definición
    Un portal de datos abiertos es un espacio web donde una organización publicará
    todos sus datos para ser consultados y reutilizados por terceras personas.
    Los portales de datos, al contrario que otros portales web, están enfocados en el
    dato como unidad principal de interacción.

    View Slide

  31. Independencia tecnológica
    Los portales de datos pueden ser construidos de diversa forma y por ello son
    independientes de una herramienta concreta/
    Diferentes son los estándares de datos que se usen para la publicación del
    contenido, los mecanismos de publicación y cierta homogeneizacion de buenas
    prácticas detectadas y ya asumidas por la comunidad.

    View Slide

  32. Interacciones clave
    Buscar
    El sistema de búsqueda debe ser potente y permitir opciones avanzadas de la
    misma así como mecanismos de búsqueda facetadas.
    Publicar
    La publicación debe ser simple, bien estructurada y que aporte toda la información
    necesaria.

    View Slide

  33. Elementos fundamentales
    ● Catálogo de datos
    ● Exploración de datos
    ● Previsualización
    ● Categorización
    ● Federación

    View Slide

  34. Elementos generales
    ● Gestión de usuarios
    ● Apariencia
    ● Sindicación
    ● Feedback
    ● Analíticas
    ● Seguridad
    ● Alojamiento
    ● Integración
    ● ...

    View Slide

  35. Herramientas más populares
    ● CKAN (ckan.org)
    ● Socrata (socrata.com)

    View Slide

  36. Buenos ejemplos de portales de datos
    ● Gobierno Reino Unido: data.gov.uk
    ● Gobierno Estados Unidos: data.gov
    ● Unión europea: data.europa.eu
    ● Gobierno de Australia: data.gov.au
    ● Gobierno de España: datos.gob.es
    ● Banco Mundial: data.worldbank.org
    ● FAO Stats: fao.org/faostat

    View Slide

  37. Conceptos avanzados

    View Slide

  38. Qué veremos
    ● REST API
    ● DCAT
    ● Formato RDF
    ● Formato RDFa
    ● Pinceladas de Ontologías y Web Semántica

    View Slide

  39. Qué es una API
    ● API = Application Programming Interface.
    ● Conjunto de funciones, definiciones y protocolos.
    ● Permite de forma relativamente sencilla integrar datos de unas aplicaciones en
    otras permitiendo así obtener unos niveles bastante altos de interoperabilidad
    entre sistemas.
    ● Puede tener mecanismos de autenticación y versionado.

    View Slide

  40. REST API
    ● REST = Representational State Transfer.
    ● Las REST API son las más populares dentro de los diversos tipos de API que
    existen,o al menos las más comunes en servicios digitales existentes por su
    facilidad de uso.
    ● Se basan en el protocolo HTTP usado en la Web para despachar documentos
    con hipertexto.
    ● Consta de una serie de puntos de acceso para los diferentes métodos.
    ● Ej.: curl https://api.github.com/search/repositories?q=ckan

    View Slide

  41. DCAT
    ● DCAT en un vocabulario RDF diseñado para facilitar la interoperabilidad entre
    catálogos de datos publicados en la Web.
    ● Básicamente su misión es describir conjunto de datos.
    ● Esto promueve el descubrimiento y facilita que las aplicaciones consuman
    metadatos de diversos catálogos de datos.
    ● Basado en XML.
    ● Respaldado por el W3C.
    ● Está ampliamente extendido en los portales de datos
    ● Ejemplos de uso en www.w3.org/TR/vocab-dcat/#basic-example

    View Slide

  42. Formato RDF
    ● RDF = Resource Description Framework.
    ● Es un modelo de intercambio de datos en la Web.
    ● Extiende el sistema relacional de la Web, usando URIs para nombrar las
    relaciones entre elementos (y sus elementos en sí).
    ● Modelo de tripletas.
    ● Diferentes serializaciones: Turtle, RDF/XML, JSON-LD, RDFa.
    ● Respaldado por el W3C.

    View Slide

  43. Formato RDFa
    ● RDFa = RDF in attributes.
    ● Se refiere a la inclusión de etiquetas RDF en atributos de los elementos
    HTML5, XHTML y XML.
    ● Muy usado para introducir metadatos semánticos en la Web.

    View Slide

  44. Pinceladas de Ontologías y Web Semántica
    ● Wikipedia semántica
    ● Busca en Wikipedia como si fuera una base datos
    ● dbpedia.org

    View Slide

  45. Pinceladas de Ontologías y Web Semántica
    Linked
    OpenData
    Cloud Diagram

    View Slide

  46. Entidades y experiencias

    View Slide

  47. Entidades
    ● Open Knowledge Foundation: okfn.org
    ● mySociety: mysociety.org
    ● Sunlight Foundation: sunlightfoundation.com
    ● Open Data Institute: theodi.org
    ● School of data: schoolofdata.org
    ● Escuela de datos: es.schoolofdata.org
    ● Ciudadano Inteligente: ciudadanointeligente.org
    ● Openkratio: openkratio.org

    View Slide

  48. Experiencias
    ● Proyecto Colibrí: github.com/openkratio/proyecto-colibri
    ● Tipi Ciudadano: tipiciudadano.es
    ● Adopta un diputado
    ● Adopta una playa: adoptaunaplaya.org
    ● Where does my money go: wheredoesmymoneygo.org
    ● Transparencia presupuestaria: transparenciapresupuestaria.enreda.coop
    ● España en llamas: espanaenllamas.es

    View Slide

  49. Ejercicio: visualización básica

    View Slide

  50. Vamos a jugar con algunas
    herramientas
    rawgraphs.io
    datawrapper.de

    View Slide

  51. Ejercicio: visualización avanzada

    View Slide

  52. Visualizar los terremotos
    globales del último mes
    (marzo-abril 17)
    Ejercicio
    https://github.com/pr3ssh/earthquake-data-visualization

    View Slide

  53. Trabajo de propuestas
    Crea tu propia
    (web)App OpenData
    Ejercicio individual (o en grupo)

    View Slide

  54. Webscraping en entornos no OpenData

    View Slide

  55. WebScraping en entornos no OpenData
    Tanto en diversos portales de datos abiertos como en general en la Web nos
    encontramos con datos o información que no está liberada basada en las
    especificaciones de los datos abiertos y que solo se encuentran dentro de páginas
    web.
    Por desgracia esta práctica es muy común en los portales de datos abiertos como
    mecanismo aglutinador de enlaces a otras webs en donde ya se encontraba dicha
    información que se pretende liberar.
    Para rescatar esa información tenemos que hacer uso de técnicas especiales como
    es la del WebScraping.

    View Slide

  56. WebScraping en entornos no OpenData
    ● WebScraping es una técnica para extraer datos/información de páginas web.
    ● Se genera un automatismo que permite de forma autónoma recopilar una
    serie de elementos que cumplen un determinado patrón.
    ● Usaremos Python como lenguaje de programación ya que es muy fácil parsear
    HTML en dicho lenguaje.
    ● Hay librerías más potentes como por ejemplo Scrapy pero por su sencillez y
    potencial educativo usaremos BeautifulSoup.

    View Slide

  57. Obtener los datos de las
    últimas tesis doctorales
    presentadas en la
    Universidad de Huelva
    Ejercicio
    https://github.com/pr3ssh/webscraper-phdthesis-uhu

    View Slide

  58. morph.io
    Herramienta online para crear, ejecutar y compartir webscrapers

    View Slide

  59. Seguir profundizando...

    View Slide

  60. Algunos recursos de interés
    ● Open Data Handbook (opendatahandbook.org)
    ● Materiales formativos RISP de Iniciativa Aporta
    (datos.gob.es/es/noticia/materiales-formativos-risp-de-iniciativa-aporta-0)
    ● Courses from School of Data (schoolofdata.org/courses)
    ● Cursos de la Escuela de Datos (es.schoolofdata.org/cursos)

    View Slide

  61. ...a solicitar y reutilizar datos!

    View Slide