Taller de Datos Abiertos

Taller de Datos Abiertos

Taller de Datos Abiertos (#OpenData) impartido en la Escuela Técnica Superior de Ingeniería de la Universidad de Huelva en abril de 2017.

Duración de aproximadamente cinco horas con parte teórica y ejercicios prácticos con código en la que se le da un repaso grande al concepto #OpenData al igual que a su paradigma y se enseñan a cómo reutilizar desde ya datos de las administraciones públicas y las empresas privadas.

El código de los ejercicios está en https://github.com/pr3ssh/opendata-taller-uhu-2017

639ea77b2ed92f49e4704caf0af44252?s=128

Pablo Martín

April 20, 2017
Tweet

Transcript

  1. 2.

    Pablo Martín Muñoz Hacker Cívico | @pr3ssh Socio trabajador de

    Enreda.coop Cofundador de Openkratio.org Parte de Tipiciudadano.es
  2. 5.

    Índice de contenidos • Aproximación inicial • Legislación y licenciamiento

    • El portal de datos abiertos • Conceptos avanzados • Entidades y experiencias • Ejercicio: visualización básica • Ejercicio: visualización avanzada • Traca final • Seguir profundizando....
  3. 8.

    Lo abierto como paradigma Nos encontramos en bastantes entornos la

    inclusión del término open para referirse a diversas corrientes que buscan fundamentalmente compartir conocimiento. Y es en dicha compartición en donde se fundamenta este paradigma que intenta avanzar en la cooperación y no en la competencia, en buscar el beneficio de todos y no solo el de algunos.
  4. 9.

    Lo abierto como paradigma Algunas corrientes abiertas son: • Software

    libre • Hardware libre • Acceso abierto • Ciencia abierta • Código abierto
  5. 17.

    La era del dato #CowCorollary Las vacas se alimentan de

    hierba en el campo.y todo lo que comen es procesado y desechado en forma de heces. Dichas heces son depositadas en el campo, el cuál las utiliza como nutriente para generar más hierba y por ello generar más alimento para las vacas. Las aplicaciones informáticas consumen datos para su funcioamiento y al final generan más datos que serán consumidos por ellas mismas o por otras apliaciones para generar más datos.
  6. 18.

    La era del dato Generadores masivos de datos: • Administración

    (pública) electrónica • Internet evolucionado • Telefonía móvil • Domótica • Ciudades inteligentes • Industria • Investigación • ...
  7. 19.

    #OpenData Los datos abiertos son datos que pueden ser utilizados,

    reutilizados y redistribuidos libremente por cualquier persona. Hay diversas variaciones de la definición en relación con el concepto de libertad, dependiendo de quién sea el encargado de recopilar, de almacenar y de publicar los datos.
  8. 22.

    #OpenGovData Las administraciones públicas disponen de gran cantidad de datos

    publicos con un valor incalculable. Es por ello que para el beneficio de todos (administraciones, ciudadanía, empresas) éstos deberían ser liberados. Además deberían serlo por una cuestión tan básica como identificar quién es el dueño o con qué fondos se han producido.
  9. 24.

    #OpenGovData Claves al abrir datos: • Publicacion clara • Formatos

    accesibles • Periodicidad corta • Mecanismo de suscripción • Licenciamiento libre • Anonimato • Seguridad nacional
  10. 25.

    #OpenGovData Beneficios de abrir datos: • Implementación del Gobierno Abierto

    (transparencia y participación) • Mayor eficiencia de las administraciones públicas • Investigación e innovación • Generación de una nueva economía • Nuevo conocimiento mezclando datos • ...
  11. 27.

    Legislación • Directiva Europea de Reutilización de la Información del

    Sector Público (2003/98/EC). • Ley 19/2013, de 9 de diciembre, de Transparencia, Acceso a la Información Pública y Buen Gobierno. Gobierno de España. • Ley 1/2014 de 24 de junio de Transparencia Pública de la Junta de Andalucía. • Ordenanzas municipales de transparencia.
  12. 28.

    Licenciamiento • OGL - Open Goverment License • ODbL -

    Open Database License • Otras licencias específicas
  13. 30.

    Definición Un portal de datos abiertos es un espacio web

    donde una organización publicará todos sus datos para ser consultados y reutilizados por terceras personas. Los portales de datos, al contrario que otros portales web, están enfocados en el dato como unidad principal de interacción.
  14. 31.

    Independencia tecnológica Los portales de datos pueden ser construidos de

    diversa forma y por ello son independientes de una herramienta concreta/ Diferentes son los estándares de datos que se usen para la publicación del contenido, los mecanismos de publicación y cierta homogeneizacion de buenas prácticas detectadas y ya asumidas por la comunidad.
  15. 32.

    Interacciones clave Buscar El sistema de búsqueda debe ser potente

    y permitir opciones avanzadas de la misma así como mecanismos de búsqueda facetadas. Publicar La publicación debe ser simple, bien estructurada y que aporte toda la información necesaria.
  16. 33.

    Elementos fundamentales • Catálogo de datos • Exploración de datos

    • Previsualización • Categorización • Federación
  17. 34.

    Elementos generales • Gestión de usuarios • Apariencia • Sindicación

    • Feedback • Analíticas • Seguridad • Alojamiento • Integración • ...
  18. 36.

    Buenos ejemplos de portales de datos • Gobierno Reino Unido:

    data.gov.uk • Gobierno Estados Unidos: data.gov • Unión europea: data.europa.eu • Gobierno de Australia: data.gov.au • Gobierno de España: datos.gob.es • Banco Mundial: data.worldbank.org • FAO Stats: fao.org/faostat
  19. 38.

    Qué veremos • REST API • DCAT • Formato RDF

    • Formato RDFa • Pinceladas de Ontologías y Web Semántica
  20. 39.

    Qué es una API • API = Application Programming Interface.

    • Conjunto de funciones, definiciones y protocolos. • Permite de forma relativamente sencilla integrar datos de unas aplicaciones en otras permitiendo así obtener unos niveles bastante altos de interoperabilidad entre sistemas. • Puede tener mecanismos de autenticación y versionado.
  21. 40.

    REST API • REST = Representational State Transfer. • Las

    REST API son las más populares dentro de los diversos tipos de API que existen,o al menos las más comunes en servicios digitales existentes por su facilidad de uso. • Se basan en el protocolo HTTP usado en la Web para despachar documentos con hipertexto. • Consta de una serie de puntos de acceso para los diferentes métodos. • Ej.: curl https://api.github.com/search/repositories?q=ckan
  22. 41.

    DCAT • DCAT en un vocabulario RDF diseñado para facilitar

    la interoperabilidad entre catálogos de datos publicados en la Web. • Básicamente su misión es describir conjunto de datos. • Esto promueve el descubrimiento y facilita que las aplicaciones consuman metadatos de diversos catálogos de datos. • Basado en XML. • Respaldado por el W3C. • Está ampliamente extendido en los portales de datos • Ejemplos de uso en www.w3.org/TR/vocab-dcat/#basic-example
  23. 42.

    Formato RDF • RDF = Resource Description Framework. • Es

    un modelo de intercambio de datos en la Web. • Extiende el sistema relacional de la Web, usando URIs para nombrar las relaciones entre elementos (y sus elementos en sí). • Modelo de tripletas. • Diferentes serializaciones: Turtle, RDF/XML, JSON-LD, RDFa. • Respaldado por el W3C.
  24. 43.

    Formato RDFa • RDFa = RDF in attributes. • Se

    refiere a la inclusión de etiquetas RDF en atributos de los elementos HTML5, XHTML y XML. • Muy usado para introducir metadatos semánticos en la Web.
  25. 44.

    Pinceladas de Ontologías y Web Semántica • Wikipedia semántica •

    Busca en Wikipedia como si fuera una base datos • dbpedia.org
  26. 47.

    Entidades • Open Knowledge Foundation: okfn.org • mySociety: mysociety.org •

    Sunlight Foundation: sunlightfoundation.com • Open Data Institute: theodi.org • School of data: schoolofdata.org • Escuela de datos: es.schoolofdata.org • Ciudadano Inteligente: ciudadanointeligente.org • Openkratio: openkratio.org
  27. 48.

    Experiencias • Proyecto Colibrí: github.com/openkratio/proyecto-colibri • Tipi Ciudadano: tipiciudadano.es •

    Adopta un diputado • Adopta una playa: adoptaunaplaya.org • Where does my money go: wheredoesmymoneygo.org • Transparencia presupuestaria: transparenciapresupuestaria.enreda.coop • España en llamas: espanaenllamas.es
  28. 52.

    Visualizar los terremotos globales del último mes (marzo-abril 17) Ejercicio

    https://github.com/pr3ssh/earthquake-data-visualization
  29. 55.

    WebScraping en entornos no OpenData Tanto en diversos portales de

    datos abiertos como en general en la Web nos encontramos con datos o información que no está liberada basada en las especificaciones de los datos abiertos y que solo se encuentran dentro de páginas web. Por desgracia esta práctica es muy común en los portales de datos abiertos como mecanismo aglutinador de enlaces a otras webs en donde ya se encontraba dicha información que se pretende liberar. Para rescatar esa información tenemos que hacer uso de técnicas especiales como es la del WebScraping.
  30. 56.

    WebScraping en entornos no OpenData • WebScraping es una técnica

    para extraer datos/información de páginas web. • Se genera un automatismo que permite de forma autónoma recopilar una serie de elementos que cumplen un determinado patrón. • Usaremos Python como lenguaje de programación ya que es muy fácil parsear HTML en dicho lenguaje. • Hay librerías más potentes como por ejemplo Scrapy pero por su sencillez y potencial educativo usaremos BeautifulSoup.
  31. 57.

    Obtener los datos de las últimas tesis doctorales presentadas en

    la Universidad de Huelva Ejercicio https://github.com/pr3ssh/webscraper-phdthesis-uhu
  32. 60.

    Algunos recursos de interés • Open Data Handbook (opendatahandbook.org) •

    Materiales formativos RISP de Iniciativa Aporta (datos.gob.es/es/noticia/materiales-formativos-risp-de-iniciativa-aporta-0) • Courses from School of Data (schoolofdata.org/courses) • Cursos de la Escuela de Datos (es.schoolofdata.org/cursos)