Dataductos en R con dplyr - Sesión 1

dataductos en R con dplyr Curso Profesional San José, 17
de Marzo 2018

08:30 - 09:00 Llegada (café) 09:00 - 09:30 Introducción a
Dataductos en R 09:30 - 10:00 Gramatica de Datos: hablar en dplyr 10:00 - 10:30 Ejemplos y Ejercicios 10:30 - 11:00 Pausa (café & networking) 11:00 - 11:30 Introducción a programación con dplyr 11:30 - 12:30 Usar variables en dataductos dplyr 12:30 - 13:00 Resumen, discusión y Cierre 13:00 - 14:30 Almuerzo y Networking

Introducción a Dataductos en R

1. Data Dives 2. Pregunta 3. Hipótesis

1. Data Dives 2. Pregunta 3. Hipótesis 4. Datos No
Estructurados Semi Estructurados Estructurados

1. Data Dives 2. Pregunta 3. Hipótesis 4. Datos 5.
Data Wrangling Datos Crudos Datos Correctos Datos Consistentes Valor estadístico Output final Limpiar Integrar Validar Transformar Interpretación Comunicación

6. Data Products 1. Data Dives 2. Pregunta 3. Hipótesis
4. Datos 5. Data Wrangling

5. Data Wrangling 6. Data Products 7. Data Pipelines Analizar
y Modelar Ingerir y Almacenar Organizar y Limpiar Dataducto (o Data Pipeline) Integrar y Validar Incremento de Valor de los Datos Datos Socio- economicos Datos Core Datos Industria ... Datos SUGEF Datos CRM Datos Modelo Visualización Informe 6. Data Products

1. Data Dives 2. Pregunta 3. Hipótesis 4. Datos 5.
Data Wrangling 6. Data Products 7. Data Pipelines 8. Medir Conductos - Depurables - Cambiables - Escalables - Repetibles - Interoperables

Ciclos cortos ayudan a optimizar esfuerzo ¡Reúne y limpia solo
los datos que necesitas! Fuente: Crowdflower 2016

dplyr: una gramatica de datos

Base-R - data[1:3, 56:1023] - data[data$variable == "valor", ] -
subset(data, variable == "valor"] - colnames(data) <- c("var1", "var2", "var3") - names(data)[names(data)=="viejo"] <- "nuevo"

data.table : Extiende 'data.frame' Agregación rápida de datos grandes, rápidas
uniones ordenadas, rápida / adición, modificación / eliminación de columnas por grupos sin hacer copias, lista de columnas, lector de archivos rápido y paralelo. Ofrece una sintaxis natural y flexible para desarrollo más ágil.

Algo muy importante que dplyr hace por ti es que
restringe tus opciones. Yo afirmo que la mayoría de problemas en un solo cuadro se pueden resolver con solo cinco verbos: filter, select, mutate, arrange y summarise, junto con el adverbio "by group". - Hadley Wickham

- 2014 - Rccp para agilizar - Gramatica de Datos
- Conductos - Tidyverso - DBI - 2006 - Rápido - Conciso - pass-by-reference approach - data.table() - 1993 - Depende - Varia - apply, lapply, sapply - Siempre disponible - dplyr data.table base r

Características deseadas: - Depurable - Cambiable - Escalable - Repetible
- Conectable ¡Legible!

Gramática de Datos: hablar en dplyr

¿Tenemos todo al alcance? (los que quieren seguir de forma
activa) 1. Saluda al compañer@ del lado 2. Verifica que uno de los dos tiene a. R >= 3.4 b. RStudio c. Conexión a internet 3. Baja los datos y ejemplos a. https://github.com/datalatam/dataductos-r

Leer dataductos dplyr diamonds %>% filter(cut != "Fair") %>% group_by(cut)
%>% summarize( AvgPrice = mean(price), MedianPrice = as.numeric(median(price)), Count = n() ) %>% arrange(desc(Count)) Ejemplo de Wickham en Stackoverflow

Ejemplos

10:30 - 11:00 Pausa (café & galletas)

Dataductos en R con dplyr - Sesión 1

Dataductos en R con dplyr - Sesión 1

Frans van Dunné

More Decks by Frans van Dunné

Other Decks in Programming

Featured

Transcript

dataductos en R con dplyr Curso Profesional San José, 17

08:30 - 09:00 Llegada (café) 09:00 - 09:30 Introducción a

Introducción a Dataductos en R

1. Data Dives 2. Pregunta 3. Hipótesis

1. Data Dives 2. Pregunta 3. Hipótesis 4. Datos No

1. Data Dives 2. Pregunta 3. Hipótesis 4. Datos 5.

6. Data Products 1. Data Dives 2. Pregunta 3. Hipótesis

5. Data Wrangling 6. Data Products 7. Data Pipelines Analizar

1. Data Dives 2. Pregunta 3. Hipótesis 4. Datos 5.

Ciclos cortos ayudan a optimizar esfuerzo ¡Reúne y limpia solo

dplyr: una gramatica de datos

Base-R - data[1:3, 56:1023] - data[data$variable == "valor", ] -

data.table : Extiende 'data.frame' Agregación rápida de datos grandes, rápidas

Algo muy importante que dplyr hace por ti es que

- 2014 - Rccp para agilizar - Gramatica de Datos

Características deseadas: - Depurable - Cambiable - Escalable - Repetible

Gramática de Datos: hablar en dplyr

¿Tenemos todo al alcance? (los que quieren seguir de forma

Leer dataductos dplyr diamonds %>% filter(cut != "Fair") %>% group_by(cut)

Ejemplos

10:30 - 11:00 Pausa (café & galletas)