Carrera (PFC) y Trabajos Fin de Grado (TFG) sobre Big Data: • PFC: Hadoop + MapReduce (2014) • TFG: Análisis de ficheros log de la WiFi-ULL (2015) • TFG: Análisis de los incidentes del 1·1·2 (2016) • TFG: Módulo BI para la plataforma X4Apps (2016) • TFG: Despliegue de clúster Spark sobre Docker (2016) ▪ PFC y TFG sobre Genómica: • PFC: IonGAP (2014) • TFG: QuiimeApp (2016) • TFG: Notebook de Jupyter para el MinION (2016) ▪ Otros proyectos relacionados: • TFG: Extracción y visualización de info legal (2015) ▪ ¿Preguntas? 2
mercado. ▪ Data Scientist/Engineer: • Matemáticas+Estadística • R, Python, Hadoop, Spark, D3, Java, etc. • Curiosidad • Storytelling: comunicación de resultados. ▪ Tendencias: • Visualización de datos • Modelos predictivos • Social Analytics • Spark / Storm vs. Hadoop Un poco de retrospectiva: 16-6-2014 3 Jornadas #BigDataCanarias 21-22 diciembre 2016
Big Data mediante MapReduce (2014) Autores: Alejandro Tejera, Jaime Corrales Directores: José L. Roda, Marcos Colebrook ▪ Primer proyecto dirigido en ETSII y una primera aproximación al tópico Big Data ▪ Esquema: • Introducción a Big Data • Técnicas y algoritmos • Hadoop y MapReduce • Casos de estudio ▪ Tecnología: Java y Hadoop 2 sobre los casi 200 PCs del Centro de Cálculo ETSII.
Resultados interesantes: • Cálculo de la temperatura máxima de datos meteorológicos: reducción del tiempo de cómputo en un 90%. • Análisis del weblog del Centro de Cálculo: detección de IPs conflictivas. • Búsqueda de duplicados en el registro de padrón: comparando 106 registros (+detalles luego) • Estudio estadístico del contexto: buenos resultados con corpus de 4GB y solo 16 nodos.
Jornadas #BigDataCanarias 21-22 diciembre 2016 Análisis de ficheros log de la WiFi-ULL usando técnicas de Big Data (2015) Autor: Víctor Plaza Directores: Marcos Colebrook, José L. Roda ▪ Objetivo: dado un rango de fechas obtener tuplas (Fecha, Hora, Acceso Campus Virtual, IP, MAC, Punto acceso, Coord. GPS) ▪ Esquema: • Estado del arte • Problemática • Fases y Desarrollo del proyecto ▪ Tecnología: Python y Hadoop 2 sobre cluster de 5-7 nodos.
Jornadas #BigDataCanarias 21-22 diciembre 2016 ▪ Resultados interesantes: se pudieron relacionar diferentes logs de los servidores, del DNS, de la WiFi, del DHCP, y de la geolocalización de los edificios, en base a un rango de fechas y horas, para obtener: ▪ Para + info: riull.ull.es/xmlui/handle/915/1412
los incidentes del CECOES 1·1·2 utilizando técnicas de Ciencia de los Datos (2016) Autor: Teno González Directores: Marcos Colebrook, Carlos J. Pérez ▪ Objetivo: creación de una interfaz que muestra info extraída de los 7 millones de registros (2005-2014) como gráficas dinámicas o mapas. ▪ Esquema: • Estado del arte • Problemática • Fases y desarrollo del proyecto ▪ Tecnología: R+Shiny y RStudio para el desarrollo. 9 Jornadas #BigDataCanarias 21-22 diciembre 2016
#BigDataCanarias 21-22 diciembre 2016 ▪ Resultados interesantes: limpieza y carga optimizada de datos, además de una web intuitiva (más detalles en la siguiente charla) ▪ Para + info: riull.ull.es/xmlui/handle/915/2616
de Negocio para la plataforma X4Apps (2016) Autor: Sandro Chinea Director: Marcos Colebrook ▪ Objetivo: diseño de un módulo de BI para la plataforma X4Apps de desarrollo para móviles. ▪ Esquema: • Estado del arte • Desarrollo de la solución ▪ Se analizaron tecnologías como MongoDB, Hadoop, y Pentaho. 11 Jornadas #BigDataCanarias 21-22 diciembre 2016
un clúster Spark sobre Docker para Big Data (2016) Autor: Sergio Martín Directores: Marcos Colebrook, Carlos J. Pérez ▪ Objetivo: desarrollo y despliegue de un cluster Spark 2.0.0 sobre Docker 1.12 ▪ Esquema: • Análisis del problema • Solución basada en Docker 1.11 • Solución basada en Docker 1.12 • Ejecución y benchmarks 13 Jornadas #BigDataCanarias 21-22 diciembre 2016
for Ion Torrent Data (2014) Autor: Adrián Baez Directores: Marcos Colebrook, José L. Roda ▪ Objetivo: desarrollo de una web pública para el ensamblado de genomas bacterianos y su análisis posterior. ▪ Esquema: • The genome assembler • A genome assembly and analysis pipeline • IonGAP web service • Parallel assembly of large genomes ▪ Tecnologías: Django, Apache Web Server, HTML+CSS+JavaScript y apps libres para análisis genómico. 17 Jornadas #BigDataCanarias 21-22 diciembre 2016
Torrent sequence data (2015). A. Baez-Ortega, F. Lorenzo-Diaz, M. Hernandez, C.I. Gonzalez-Vila, J.L. Roda-Garcia, M. Colebrook, C. Flores, Bioinformatics, 31(17). iongap.hpc.iter.es 19 Jornadas #BigDataCanarias 21-22 diciembre 2016
metagenómicos (2016) Autor: Víctor Juidías Directores: Marcos Colebrook, José L. Roda ▪ Objetivo: desarrollo de app para procesar y analizar datos metagenómicos obtenidos por secuenciación masiva de ADN. ▪ Esquema: • Estado del arte • Diseño y desarrollo de la app • Resultados ▪ Tecnologías: la app base es QIIME (Python), la cual permite realizar análisis metagenómicos sobre comunidades microbianas. 20 Jornadas #BigDataCanarias 21-22 diciembre 2016 $ split_libraries_fastq.py -i lane1_read1.fastq.gz -b lane1_barcode.fastq.gz --rev_comp_mapping_barcodes -o slout_q20/ -m map.txt -q 19
usando Jupyter para el secuenciador de ADN MinION (2016) Autor: Héctor Rodríguez Directores: Marcos Colebrook, José L. Roda ▪ Objetivo: desarrollo de un notebook de Jupyter para trabajar con el secuenciador MinION de Nanopore. ▪ Esquema: • Estado del arte • Diseño y desarrollo de la solución • Resultados ▪ Tecnologías: Jupyter (IPython) y varias apps libres y abiertas específicas del MinION. 22 Jornadas #BigDataCanarias 21-22 diciembre 2016
visualización de información de textos legales (2015) Autor: Francisco J. Rodríguez Directores: Isabel Sánchez, Marcos Colebrook ▪ Objetivo: visualización de info estructurada a partir de un corpus de textos de jurisprudencia (CENDOJ) para obtener conclusiones sobre las sentencias (fav. / desfav. / parcial) usando NLP. ▪ Esquema: • Desarrollo del proyecto • Diseño e implementación • Resultados ▪ Tecnologías: Java, FreeLing, PDFBox, HTML+CSS+JavaScript, D3. 25 Jornadas #BigDataCanarias 21-22 diciembre 2016
y TFG en Big Data usando herramientas abiertas y de software libre. ▪ Son proyectos piloto o PoC (Proof of Concept) que nos permiten adquirir know-how para proyectos más complejos. ▪ A partir de estos PFC/TFG, tenemos buena experiencia con proyectos financiados/subvencionados con contratos menores (<18K) que permiten contratar becarios al menos 12 meses. ▪ Para ello, habrá que firmar un convenio (marco y específico) de colaboración con ULL.Y la autorización para difundir los resultados en forma de publicación científica (revista, congreso, libro). Conclusiones 27 Jornadas #BigDataCanarias 21-22 diciembre 2016