Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Dataductos en R con dplyr - Sesión 1

Dataductos en R con dplyr - Sesión 1

Dataductos en R con dplyr - Sesión 1

Una de las labores principales de para correr análisis es preparar datos para que sean adecuados para entrar a la función con la ejecutamos el método, o para visualizarlos. Esto incluye acciones como por ejemplo crear subconjuntos, transformar valores, crear nuevas variables basadas en las que ya tenemos.

Mucho de esto se puede hacer con funciones que son parte del R base. Pero dplyr implementa el concepto de la gramática de datos y permite hacerlo de una forma consistente que es fácil de leer (y por lo tanto más fácil de corregir). Además engancha con todos los demás paquetes del así llamado Tidyverso, para extender las opciones que tenemos para manipular datos usando la misma forma de escribir.

Quieres mas infórmación sobre los cursos de Data Latam? Apuntate en nuestra lista de correo para recibir noticias:

http://www.datalatam.com/noticias

Data Latam es una comunidad Latinoamericana de profesionales y académicos aplicando ciencia de datos en su día a día en la industria de datos en Latino América. En sus eventos, cursos y programas de extensión exploramos tecnologías, aprendemos sobre ciencia de datos, hablamos de tendencias y eventos relevantes de la industria, y compartimos novedades del sector.

Frans van Dunné

March 19, 2018
Tweet

More Decks by Frans van Dunné

Other Decks in Programming

Transcript

  1. 08:30 - 09:00 Llegada (café) 09:00 - 09:30 Introducción a

    Dataductos en R 09:30 - 10:00 Gramatica de Datos: hablar en dplyr 10:00 - 10:30 Ejemplos y Ejercicios 10:30 - 11:00 Pausa (café & networking) 11:00 - 11:30 Introducción a programación con dplyr 11:30 - 12:30 Usar variables en dataductos dplyr 12:30 - 13:00 Resumen, discusión y Cierre 13:00 - 14:30 Almuerzo y Networking
  2. 1. Data Dives 2. Pregunta 3. Hipótesis 4. Datos No

    Estructurados Semi Estructurados Estructurados
  3. 1. Data Dives 2. Pregunta 3. Hipótesis 4. Datos 5.

    Data Wrangling Datos Crudos Datos Correctos Datos Consistentes Valor estadístico Output final Limpiar Integrar Validar Transformar Interpretación Comunicación
  4. 5. Data Wrangling 6. Data Products 7. Data Pipelines Analizar

    y Modelar Ingerir y Almacenar Organizar y Limpiar Dataducto (o Data Pipeline) Integrar y Validar Incremento de Valor de los Datos Datos Socio- economicos Datos Core Datos Industria ... Datos SUGEF Datos CRM Datos Modelo Visualización Informe 6. Data Products
  5. 1. Data Dives 2. Pregunta 3. Hipótesis 4. Datos 5.

    Data Wrangling 6. Data Products 7. Data Pipelines 8. Medir Conductos - Depurables - Cambiables - Escalables - Repetibles - Interoperables
  6. Ciclos cortos ayudan a optimizar esfuerzo ¡Reúne y limpia solo

    los datos que necesitas! Fuente: Crowdflower 2016
  7. Base-R - data[1:3, 56:1023] - data[data$variable == "valor", ] -

    subset(data, variable == "valor"] - colnames(data) <- c("var1", "var2", "var3") - names(data)[names(data)=="viejo"] <- "nuevo"
  8. data.table : Extiende 'data.frame' Agregación rápida de datos grandes, rápidas

    uniones ordenadas, rápida / adición, modificación / eliminación de columnas por grupos sin hacer copias, lista de columnas, lector de archivos rápido y paralelo. Ofrece una sintaxis natural y flexible para desarrollo más ágil.
  9. Algo muy importante que dplyr hace por ti es que

    restringe tus opciones. Yo afirmo que la mayoría de problemas en un solo cuadro se pueden resolver con solo cinco verbos: filter, select, mutate, arrange y summarise, junto con el adverbio "by group". - Hadley Wickham
  10. - 2014 - Rccp para agilizar - Gramatica de Datos

    - Conductos - Tidyverso - DBI - 2006 - Rápido - Conciso - pass-by-reference approach - data.table() - 1993 - Depende - Varia - apply, lapply, sapply - Siempre disponible - dplyr data.table base r
  11. ¿Tenemos todo al alcance? (los que quieren seguir de forma

    activa) 1. Saluda al compañer@ del lado 2. Verifica que uno de los dos tiene a. R >= 3.4 b. RStudio c. Conexión a internet 3. Baja los datos y ejemplos a. https://github.com/datalatam/dataductos-r
  12. Leer dataductos dplyr diamonds %>% filter(cut != "Fair") %>% group_by(cut)

    %>% summarize( AvgPrice = mean(price), MedianPrice = as.numeric(median(price)), Count = n() ) %>% arrange(desc(Count)) Ejemplo de Wickham en Stackoverflow