Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Big Data: Experiencias (académicas) reales

Big Data: Experiencias (académicas) reales

Charla en #BigDataCanarias 2016

Marcos Colebrook

December 22, 2016
Tweet

More Decks by Marcos Colebrook

Other Decks in Technology

Transcript

  1. Big Data: experiencias (académicas) reales Marcos Colebrook Santamaría Carlos J.

    Pérez González José L. Roda García Jornadas #BigDataCanarias 21-22 diciembre 2016
  2. Contenidos ▪ Un poco de retrospectiva ▪ Proyectos Fin de

    Carrera (PFC) y Trabajos Fin de Grado (TFG) sobre Big Data: • PFC: Hadoop + MapReduce (2014) • TFG: Análisis de ficheros log de la WiFi-ULL (2015) • TFG: Análisis de los incidentes del 1·1·2 (2016) • TFG: Módulo BI para la plataforma X4Apps (2016) • TFG: Despliegue de clúster Spark sobre Docker (2016) ▪ PFC y TFG sobre Genómica: • PFC: IonGAP (2014) • TFG: QuiimeApp (2016) • TFG: Notebook de Jupyter para el MinION (2016) ▪ Otros proyectos relacionados: • TFG: Extracción y visualización de info legal (2015) ▪ ¿Preguntas? 2
  3. Conclusiones: ▪ Big Data: tecnología emergente, pero verdadera oportunidad de

    mercado. ▪ Data Scientist/Engineer: • Matemáticas+Estadística • R, Python, Hadoop, Spark, D3, Java, etc. • Curiosidad • Storytelling: comunicación de resultados. ▪ Tendencias: • Visualización de datos • Modelos predictivos • Social Analytics • Spark / Storm vs. Hadoop Un poco de retrospectiva: 16-6-2014 3 Jornadas #BigDataCanarias 21-22 diciembre 2016
  4. PFC: Hadoop+MapReduce (1) 4 Jornadas #BigDataCanarias 21-22 diciembre 2016 Procesando

    Big Data mediante MapReduce (2014) Autores: Alejandro Tejera, Jaime Corrales Directores: José L. Roda, Marcos Colebrook ▪ Primer proyecto dirigido en ETSII y una primera aproximación al tópico Big Data ▪ Esquema: • Introducción a Big Data • Técnicas y algoritmos • Hadoop y MapReduce • Casos de estudio ▪ Tecnología: Java y Hadoop 2 sobre los casi 200 PCs del Centro de Cálculo ETSII.
  5. PFC: Hadoop+MapReduce (2) 5 Jornadas #BigDataCanarias 21-22 diciembre 2016 ▪

    Resultados interesantes: • Cálculo de la temperatura máxima de datos meteorológicos: reducción del tiempo de cómputo en un 90%. • Análisis del weblog del Centro de Cálculo: detección de IPs conflictivas. • Búsqueda de duplicados en el registro de padrón: comparando 106 registros (+detalles luego) • Estudio estadístico del contexto: buenos resultados con corpus de 4GB y solo 16 nodos.
  6. TFG: Análisis de ficheros log de la WiFi-ULL (1) 6

    Jornadas #BigDataCanarias 21-22 diciembre 2016 Análisis de ficheros log de la WiFi-ULL usando técnicas de Big Data (2015) Autor: Víctor Plaza Directores: Marcos Colebrook, José L. Roda ▪ Objetivo: dado un rango de fechas obtener tuplas (Fecha, Hora, Acceso Campus Virtual, IP, MAC, Punto acceso, Coord. GPS) ▪ Esquema: • Estado del arte • Problemática • Fases y Desarrollo del proyecto ▪ Tecnología: Python y Hadoop 2 sobre cluster de 5-7 nodos.
  7. TFG: Análisis de ficheros log de la WiFi-ULL (2) 7

    Jornadas #BigDataCanarias 21-22 diciembre 2016 ▪ Resultados interesantes: se pudieron relacionar diferentes logs de los servidores, del DNS, de la WiFi, del DHCP, y de la geolocalización de los edificios, en base a un rango de fechas y horas, para obtener: ▪ Para + info: riull.ull.es/xmlui/handle/915/1412
  8. TFG: Análisis de ficheros log de la WiFi-ULL (3) 8

    Jornadas #BigDataCanarias 21-22 diciembre 2016
  9. TFG: Análisis de los incidentes del 1·1·2 (1) Análisis de

    los incidentes del CECOES 1·1·2 utilizando técnicas de Ciencia de los Datos (2016) Autor: Teno González Directores: Marcos Colebrook, Carlos J. Pérez ▪ Objetivo: creación de una interfaz que muestra info extraída de los 7 millones de registros (2005-2014) como gráficas dinámicas o mapas. ▪ Esquema: • Estado del arte • Problemática • Fases y desarrollo del proyecto ▪ Tecnología: R+Shiny y RStudio para el desarrollo. 9 Jornadas #BigDataCanarias 21-22 diciembre 2016
  10. TFG: Análisis de los incidentes del 1·1·2 (2) 10 Jornadas

    #BigDataCanarias 21-22 diciembre 2016 ▪ Resultados interesantes: limpieza y carga optimizada de datos, además de una web intuitiva (más detalles en la siguiente charla) ▪ Para + info: riull.ull.es/xmlui/handle/915/2616
  11. TFG: Módulo BI para plataforma X4Apps (1) Módulo de Inteligencia

    de Negocio para la plataforma X4Apps (2016) Autor: Sandro Chinea Director: Marcos Colebrook ▪ Objetivo: diseño de un módulo de BI para la plataforma X4Apps de desarrollo para móviles. ▪ Esquema: • Estado del arte • Desarrollo de la solución ▪ Se analizaron tecnologías como MongoDB, Hadoop, y Pentaho. 11 Jornadas #BigDataCanarias 21-22 diciembre 2016
  12. TFG: Módulo BI para plataforma X4Apps (2) 12 Jornadas #BigDataCanarias

    21-22 diciembre 2016 ▪ Resultados interesantes:
  13. TFG: Despliegue de clúster Spark sobre Docker (1) Despliegue de

    un clúster Spark sobre Docker para Big Data (2016) Autor: Sergio Martín Directores: Marcos Colebrook, Carlos J. Pérez ▪ Objetivo: desarrollo y despliegue de un cluster Spark 2.0.0 sobre Docker 1.12 ▪ Esquema: • Análisis del problema • Solución basada en Docker 1.11 • Solución basada en Docker 1.12 • Ejecución y benchmarks 13 Jornadas #BigDataCanarias 21-22 diciembre 2016
  14. TFG: Despliegue de clúster Spark sobre Docker (2) 14 Jornadas

    #BigDataCanarias 21-22 diciembre 2016 ▪ Resultados interesantes: ▪ Para + info: riull.ull.es/xmlui/handle/915/3088
  15. PFC y TFG en Bioinformática (1) 15 Jornadas #BigDataCanarias 21-22

    diciembre 2016 Fuente: www.genome.gov/sequencingcostsdata
  16. PFC: IonGAP (1) IonGAP – an Integrated Genome Assembly Platform

    for Ion Torrent Data (2014) Autor: Adrián Baez Directores: Marcos Colebrook, José L. Roda ▪ Objetivo: desarrollo de una web pública para el ensamblado de genomas bacterianos y su análisis posterior. ▪ Esquema: • The genome assembler • A genome assembly and analysis pipeline • IonGAP web service • Parallel assembly of large genomes ▪ Tecnologías: Django, Apache Web Server, HTML+CSS+JavaScript y apps libres para análisis genómico. 17 Jornadas #BigDataCanarias 21-22 diciembre 2016
  17. PFC: IonGAP (3) IonGAP: integrative bacterial genome analysis for Ion

    Torrent sequence data (2015). A. Baez-Ortega, F. Lorenzo-Diaz, M. Hernandez, C.I. Gonzalez-Vila, J.L. Roda-Garcia, M. Colebrook, C. Flores, Bioinformatics, 31(17). iongap.hpc.iter.es 19 Jornadas #BigDataCanarias 21-22 diciembre 2016
  18. TFG: QuiimeApp (1) QiimeApp – Una plataforma web para análisis

    metagenómicos (2016) Autor: Víctor Juidías Directores: Marcos Colebrook, José L. Roda ▪ Objetivo: desarrollo de app para procesar y analizar datos metagenómicos obtenidos por secuenciación masiva de ADN. ▪ Esquema: • Estado del arte • Diseño y desarrollo de la app • Resultados ▪ Tecnologías: la app base es QIIME (Python), la cual permite realizar análisis metagenómicos sobre comunidades microbianas. 20 Jornadas #BigDataCanarias 21-22 diciembre 2016 $ split_libraries_fastq.py -i lane1_read1.fastq.gz -b lane1_barcode.fastq.gz --rev_comp_mapping_barcodes -o slout_q20/ -m map.txt -q 19
  19. PFC: QuiimeApp (2) 21 Jornadas #BigDataCanarias 21-22 diciembre 2016 ▪

    Resultados interesantes: ▪ Para + info: riull.ull.es/xmlui/handle/915/2614
  20. TFG: Notebook de Jupyter para el MinION (1) Herramienta bioinformática

    usando Jupyter para el secuenciador de ADN MinION (2016) Autor: Héctor Rodríguez Directores: Marcos Colebrook, José L. Roda ▪ Objetivo: desarrollo de un notebook de Jupyter para trabajar con el secuenciador MinION de Nanopore. ▪ Esquema: • Estado del arte • Diseño y desarrollo de la solución • Resultados ▪ Tecnologías: Jupyter (IPython) y varias apps libres y abiertas específicas del MinION. 22 Jornadas #BigDataCanarias 21-22 diciembre 2016
  21. TFG: Notebook de Jupyter para el MinION (2) 23 Jornadas

    #BigDataCanarias 21-22 diciembre 2016 ▪ Resultados interesantes: ▪ Para + info: riull.ull.es/xmlui/handle/915/3089
  22. TFG: Extracción y visualización de info legal (1) Extracción y

    visualización de información de textos legales (2015) Autor: Francisco J. Rodríguez Directores: Isabel Sánchez, Marcos Colebrook ▪ Objetivo: visualización de info estructurada a partir de un corpus de textos de jurisprudencia (CENDOJ) para obtener conclusiones sobre las sentencias (fav. / desfav. / parcial) usando NLP. ▪ Esquema: • Desarrollo del proyecto • Diseño e implementación • Resultados ▪ Tecnologías: Java, FreeLing, PDFBox, HTML+CSS+JavaScript, D3. 25 Jornadas #BigDataCanarias 21-22 diciembre 2016
  23. TFG: Extracción y visualización de info legal (2) 26 Jornadas

    #BigDataCanarias 21-22 diciembre 2016 ▪ Resultados interesantes: ▪ Para + info: riull.ull.es/xmlui/handle/915/845
  24. ▪ Desde 2014, se han propuesto y desarrollado varios PFC

    y TFG en Big Data usando herramientas abiertas y de software libre. ▪ Son proyectos piloto o PoC (Proof of Concept) que nos permiten adquirir know-how para proyectos más complejos. ▪ A partir de estos PFC/TFG, tenemos buena experiencia con proyectos financiados/subvencionados con contratos menores (<18K) que permiten contratar becarios al menos 12 meses. ▪ Para ello, habrá que firmar un convenio (marco y específico) de colaboración con ULL.Y la autorización para difundir los resultados en forma de publicación científica (revista, congreso, libro). Conclusiones 27 Jornadas #BigDataCanarias 21-22 diciembre 2016