R para la Innovación Basada en Datos

Presentation Template Subtitle R para la Innovación Basada en Datos
Barranquilla Analitica R 9 de Agosto, 2018 Frans van Dunné @fransvandunne

Introducción • Estrategia e innovación basada en datos • Modelado
de procesos y gestión de datos • Diseño e implementación de algoritmos y dataductos • Interoperabilidad de datos • Arquitecturas de microservicios • Industrias diversas (privado, gobiernos, ONG’s) Frans van Dunné, PhD Chief Data Officer @fransvandunne

Mercado Big Data & Analitica LATAM 2017 USD 2.9 mil
millones LATAM 2023 USD 8.5 mil millones Mercado Global 2017 : USD 21.2 mil millones Fuente: http://www.nearshoreamericas.com/infographic-latin-america-big-data-and-analytics-market/

Ciencia de datos trae beneficios ... 17 - 49% mayor
productividad al incrementar la usabilidad de datos en un 10% 11 - 42% mayor retorno sobre los activos (ROA) al incrementar el acceso a datos en un 10% 241% mayor rentabilidad (ROI) al usar big data para incrementar competitividad 1000% mayor rentabilidad (ROI) al desplegar análisis a lo largo de la organización 5-6% mejora de rendimiento para organizaciones con toma de decisiones con base en datos. … para competir a futuro Fuente: The 2015 Field Guide to Data Science

Source: Matt Turck, Jim Hao & First Mark Capital Data
Science Machine Learning SVM Cross validation Random forest R Studio Linear regression Logistic regression Hadoop Python Neural networks Deep learning K-means Statistical significance Boosting Algorithm xlsx Tableau

Source: Matt Turck, Jim Hao & First Mark Capital Sentimiento
de estar abrumado

Data Science Machine Learning SVM Cross validation Random forest R
Studio Linear regression Logistic regression Tensorflow tidyverse Neural networks Deep learning K-means Statistical significance Boosting Algorithm

Requiere líderes

Implica un salto al vacío

Historia R

Historia R 1976 S :: implementación de un entorno interactivo
de análisis estadístico escrito en Fortran (John Chambers) 1991 R :: una reimplementación de S como código abierto (Rossi Ihaka & Robert Gentleman) 1997 R :: primera publicación - comienzo de la lista de correo 2017 R :: es el lenguaje más popular en ciencia de datos

Historia R en Microsoft 2007 Fundacion de Revolution Analytics -
REvolution R Open - REvolution R Enterprise - ScaleR (on-disk analytics) - DeployR (servicios R como API) 2010 Windows Azure - Azure ML (permite R script) 2015 Microsoft Compra Revolution Analytics - Microsoft R Server - Microsoft R Open 2016 SQL Server 2016 2016 R Tools for Visual Studio 2017 doAzureParallel: Paralelización a Azure Compute desde sesion local Microsoft Machine Learning Server

Historia R en RStudio 2011 RStudio abre puertas - RStudio
IDE - Rstudio Server 2012 R :: Shiny Shiny Server 2014 R :: Rmarkdown R :: dplyr 2016 R :: sparklyr RStudio Connect 2017 R :: tensorflow

Ciencia de Datos

modelar transformar visualizar communicar ingerir limpiar y organizar explorar programar
Fuente: R for Data Science, Grolemund & Wickham

Valor Dificultad Retrospección Comprensión Previsión

Valor Dificultad Retrospección Comprensión Previsión Análisis Descriptivo ¿Qué Paso? Análisis
Diagnóstico ¿Porqué Paso? Análisis Predictivo ¿Qué Pasará? Análisis Prescriptivo ¿Como lograrlo?

Valor Dificultad Retrospección Análisis Descriptivo ¿Qué Paso? Análisis Diagnóstico ¿Porqué
Paso? Análisis Predictivo ¿Qué Pasará? Análisis Prescriptivo ¿Como lograrlo? Comprensión Previsión

Ingenieros de Datos vs Científicos de Datos

Estadisticas Conocim iento del Negocio Ciencia de Com putación Ciencia
de Datos

Estadisticas Conocim iento del Negocio Ciencia de Com putación Ciencia
de Datos Aprendizaje Máquina Infraestructura Despliegue Feature Engineering Parametrización Analisis Exploratorio Enriquecimiento de Datos Bases de Datos

Ingeniería de Datos Ciencia de Datos Aprendizaje Máquina Infraestructura Despliegue
Feature Engineering Parametrización Analisis Exploratorio Enriquecimiento de Datos Bases de Datos

Facebook Expedia AirBnB Stitch Fix Recursos (40+) Core data science
team (300+) Analistas en equipos de producto Enfoque Largo plazo Corto plazo Facebook

team (300+) Analistas en equipos de producto Enfoque Largo plazo Corto plazo Impacto al negocio Facebook

team (300+) Analistas en equipos de producto Enfoque Largo plazo Corto plazo Facebook Objetivos y Métricas (1) Engagement (2) Growth (3) Core (4) Utility Impacto al negocio

Facebook Expedia AirBnB Stitch Fix

Facebook Expedia AirBnB Stitch Fix Procesos

Colaboración e Innovación Abierta Facebook Expedia AirBnB Stitch Fix

• 60 Data Scientists • Modelo distribuído híbrido • En
equipos de producto • Branding para atraer talento • Open Source tools Data Team + Facebook Expedia AirBnB Stitch Fix Products → sprints, A/B tests, prediction, algorithms Search → new models, evolution Talent → policies, recruiting, processes Hosts preferences → understand, model, ML, prediction User experience → metrics, evaluation, patterns Split testing → experimentation Planning → modeling, prediction, dashboards

• 60 Data Scientists • Modelo distribuído híbrido • En
equipos de producto • Branding para atraer talento • Open Source tools Data Team + Products → sprints, A/B tests, prediction, algorithms Search → new models, evolution Talent → policies, recruiting, processes Hosts preferences → understand, model, ML, prediction User experience → metrics, evaluation, patterns Split testing → experimentation Planning → modeling, prediction, dashboards Experimentación Facebook Expedia AirBnB Stitch Fix

Facebook Expedia AirBnB Stitch Fix EL diferenciador Algoritmos son

Control de calidad automatizada en procesos industriales Victor Cortes Figueroa
y Alejandro Navarro Acosta

Big Data Data Science General Caso 1 Caso 2 En
Latam

General Caso 1 Caso 2

Existencia de datos General Caso 1 Caso 2

Existencia de datos Acceso a datos General Caso 1 Caso
2

Existencia de datos Acceso a datos Cultura de datos General
Caso 1 Caso 2

Existencia de datos Acceso a datos Cultura de innovación Cultura
de datos General Caso 1 Caso 2

Existencia de datos Acceso a datos Cultura de innovación Cultura
de datos Habilidades con datos General Caso 1 Caso 2

Tomar procesos en los que DATA puede generar eficiencia Procesos
existentes General Caso 1 Caso 2

Tomar procesos en los que DATA puede generar eficiencia Procesos
existentes Nueva Lógica General Caso 1 Caso 2

Proceso de Innovación con Datos Los 8 pasos

Tengo datos, ¿ahora? 1. Data Dive 2. Pregunta 3. Hipótesis
1. Data Dive 2. Pregunta 3. Hipótesis

1. Data Dive 2. Pregunta 3. Hipótesis 1. Data Dive
2. Pregunta 3. Hipótesis Tengo datos, ¿ahora?

1. Data Dive 2. Pregunta 3. Hipótesis 4. Data 5.
Data Wrangling 6. Data Pipeline Tengo datos, ¿ahora?

No Estructurados Semi Estructurados Estructurados 1. Data Dive 2. Pregunta
3. Hipótesis 4. Data 5. Data Wrangling 6. Data Pipeline Tengo datos, ¿ahora?

1. Data Dive 2. Pregunta 3. Hipótesis 4. Data 5.
Data Wrangling 6. Data Products Tengo datos, ¿ahora?

Fuente: E. de Jonge & M. van der Loo, 2013.
An introduction to data cleaning with R. Technical report, Statistics Netherlands. 1. Data Dive 2. Pregunta 3. Hipótesis 4. Data 5. Data Wrangling 6. Data Products Data Cleaning Data Cleansing Data Scrubbing Tidy Data Interpretación Comunicación Tengo datos, ¿ahora?

Visualizaciones 1. Data Dive 2. Pregunta 3. Hipótesis 4. Data
5. Data Wrangling 6. Data Products Datos Reportes Modelos [ { "Nombre": "Frans", "Apellido": "van Dunné", "score": 0.68 }, { "Nombre": "Diego", "Apellido": "May", "score": 0.68 } ] Tengo datos, ¿ahora?

Data Pipeline 1. Data Dive 2. Pregunta 3. Hipótesis 4.
Data 5. Data Wrangling 6. Data Products 7. Data Pipeline 7 Tengo datos, ¿ahora?

Analizar y Modelar Ingerir y Almacenar Organizar y Limpiar Data
Pipeline Integrar y Validar Incremento de valor de datos 1. Data Dive 2. Pregunta 3. Hipótesis 4. Data 5. Data Wrangling 6. Data Products 7. Data Pipeline 7 Call Center Online behaviors Twitter Past sales Industry Data Facebook Client profiles Employee profiles Data Model Visualization Report Tengo datos, ¿ahora?

Medir y aprender 1. Data Dive 2. Pregunta 3. Hipótesis
4. Data 5. Data Wrangling 6. Data Products 7. Data Pipeline 8. Medición Tengo datos, ¿ahora?

¿Cómo incorporamos Data Science en la organización?

Incorporando Data Science en la organización IT Innovación BI Nueva
Organización ?

Incorporando Data Science en la organización ?

Incorporar Ciencia de Datos Centralized Decentralized Hybrid Independent Un equipo
centralizado maneja los repositorios y prioriza y ejecuta proyectos

Centralized Decentralized Hybrid Independent Las unidades de negocio son las
que definen y ejecutan los proyectos de datos Incorporar Ciencia de Datos

Centralized Decentralized Hybrid Independent Las unidades de negocio lideran con
apoyo de un equipo central Incorporar Ciencia de Datos

Centralized Decentralized Hybrid Independent Un centro de excelencia independiente es
el que supervisa todas las iniciativas de datos Incorporar Ciencia de Datos

www.DataLatam.com

Gracias por su atención! @fransvandunne [email protected] www.datalatam.com www.ixpantia.com

R para la Innovación Basada en Datos

R para la Innovación Basada en Datos

More Decks by Frans van Dunné

Other Decks in Business

Featured

Transcript