Upgrade to Pro — share decks privately, control downloads, hide ads and more …

R para la Innovación Basada en Datos

R para la Innovación Basada en Datos

ara esta ocasión tendremos un invitado especial, Frans van Dunné Científico de Datos. Frans, quien cuenta con más de 15 años de experiencia en análisis e innovación con datos ha colaborado con múltiples empresas en definición de estrategia y productos de datos, como parte de estos procesos ha trabajado en modelado de procesos, minería de datos, y gestión de datos con organizaciones alrededor del mundo. Frans se formó como ecólogo y tiene un doctorado de la Universidad de Amsterdam.

En esta ocasión vamos a hablar sobre la experiencias de empresas que han logrado innovar con datos hasta el punto de ser "data driven". Así como, las diferentes estructuras para organizar grupo analíticos a nivel laboral.
Adicionalmente, se hablara sobre el lenguaje de programación R, su auge en la ciencia y en la industria, su estado actual y los puntos que lo distinguen de otros lenguajes populares para Data Science (como python).

Además damos una vista hacía el futuro para identificar criterios sobre los cuales una empresa, o un grupo analítico, pueda decidir si es estratégico invertir en R a futuro, o no.

Frans van Dunné

August 09, 2018
Tweet

More Decks by Frans van Dunné

Other Decks in Business

Transcript

  1. Presentation Template Subtitle R para la Innovación Basada en Datos

    Barranquilla Analitica R 9 de Agosto, 2018 Frans van Dunné @fransvandunne
  2. Introducción • Estrategia e innovación basada en datos • Modelado

    de procesos y gestión de datos • Diseño e implementación de algoritmos y dataductos • Interoperabilidad de datos • Arquitecturas de microservicios • Industrias diversas (privado, gobiernos, ONG’s) Frans van Dunné, PhD Chief Data Officer @fransvandunne
  3. Mercado Big Data & Analitica LATAM 2017 USD 2.9 mil

    millones LATAM 2023 USD 8.5 mil millones Mercado Global 2017 : USD 21.2 mil millones Fuente: http://www.nearshoreamericas.com/infographic-latin-america-big-data-and-analytics-market/
  4. Ciencia de datos trae beneficios ... 17 - 49% mayor

    productividad al incrementar la usabilidad de datos en un 10% 11 - 42% mayor retorno sobre los activos (ROA) al incrementar el acceso a datos en un 10% 241% mayor rentabilidad (ROI) al usar big data para incrementar competitividad 1000% mayor rentabilidad (ROI) al desplegar análisis a lo largo de la organización 5-6% mejora de rendimiento para organizaciones con toma de decisiones con base en datos. … para competir a futuro Fuente: The 2015 Field Guide to Data Science
  5. Source: Matt Turck, Jim Hao & First Mark Capital Data

    Science Machine Learning SVM Cross validation Random forest R Studio Linear regression Logistic regression Hadoop Python Neural networks Deep learning K-means Statistical significance Boosting Algorithm xlsx Tableau
  6. Data Science Machine Learning SVM Cross validation Random forest R

    Studio Linear regression Logistic regression Tensorflow tidyverse Neural networks Deep learning K-means Statistical significance Boosting Algorithm
  7. Historia R 1976 S :: implementación de un entorno interactivo

    de análisis estadístico escrito en Fortran (John Chambers) 1991 R :: una reimplementación de S como código abierto (Rossi Ihaka & Robert Gentleman) 1997 R :: primera publicación - comienzo de la lista de correo 2017 R :: es el lenguaje más popular en ciencia de datos
  8. Historia R en Microsoft 2007 Fundacion de Revolution Analytics -

    REvolution R Open - REvolution R Enterprise - ScaleR (on-disk analytics) - DeployR (servicios R como API) 2010 Windows Azure - Azure ML (permite R script) 2015 Microsoft Compra Revolution Analytics - Microsoft R Server - Microsoft R Open 2016 SQL Server 2016 2016 R Tools for Visual Studio 2017 doAzureParallel: Paralelización a Azure Compute desde sesion local Microsoft Machine Learning Server
  9. Historia R en RStudio 2011 RStudio abre puertas - RStudio

    IDE - Rstudio Server 2012 R :: Shiny Shiny Server 2014 R :: Rmarkdown R :: dplyr 2016 R :: sparklyr RStudio Connect 2017 R :: tensorflow
  10. Valor Dificultad Retrospección Comprensión Previsión Análisis Descriptivo ¿Qué Paso? Análisis

    Diagnóstico ¿Porqué Paso? Análisis Predictivo ¿Qué Pasará? Análisis Prescriptivo ¿Como lograrlo?
  11. Valor Dificultad Retrospección Análisis Descriptivo ¿Qué Paso? Análisis Diagnóstico ¿Porqué

    Paso? Análisis Predictivo ¿Qué Pasará? Análisis Prescriptivo ¿Como lograrlo? Comprensión Previsión
  12. Valor Dificultad Retrospección Análisis Descriptivo ¿Qué Paso? Análisis Diagnóstico ¿Porqué

    Paso? Análisis Predictivo ¿Qué Pasará? Análisis Prescriptivo ¿Como lograrlo? Comprensión Previsión
  13. Estadisticas Conocim iento del Negocio Ciencia de Com putación Ciencia

    de Datos Aprendizaje Máquina Infraestructura Despliegue Feature Engineering Parametrización Analisis Exploratorio Enriquecimiento de Datos Bases de Datos
  14. Ingeniería de Datos Ciencia de Datos Aprendizaje Máquina Infraestructura Despliegue

    Feature Engineering Parametrización Analisis Exploratorio Enriquecimiento de Datos Bases de Datos
  15. Facebook Expedia AirBnB Stitch Fix Recursos (40+) Core data science

    team (300+) Analistas en equipos de producto Enfoque Largo plazo Corto plazo Facebook
  16. Facebook Expedia AirBnB Stitch Fix Recursos (40+) Core data science

    team (300+) Analistas en equipos de producto Enfoque Largo plazo Corto plazo Impacto al negocio Facebook
  17. Facebook Expedia AirBnB Stitch Fix Recursos (40+) Core data science

    team (300+) Analistas en equipos de producto Enfoque Largo plazo Corto plazo Facebook Objetivos y Métricas (1) Engagement (2) Growth (3) Core (4) Utility Impacto al negocio
  18. • 60 Data Scientists • Modelo distribuído híbrido • En

    equipos de producto • Branding para atraer talento • Open Source tools Data Team + Facebook Expedia AirBnB Stitch Fix Products → sprints, A/B tests, prediction, algorithms Search → new models, evolution Talent → policies, recruiting, processes Hosts preferences → understand, model, ML, prediction User experience → metrics, evaluation, patterns Split testing → experimentation Planning → modeling, prediction, dashboards
  19. • 60 Data Scientists • Modelo distribuído híbrido • En

    equipos de producto • Branding para atraer talento • Open Source tools Data Team + Products → sprints, A/B tests, prediction, algorithms Search → new models, evolution Talent → policies, recruiting, processes Hosts preferences → understand, model, ML, prediction User experience → metrics, evaluation, patterns Split testing → experimentation Planning → modeling, prediction, dashboards Experimentación Facebook Expedia AirBnB Stitch Fix
  20. Existencia de datos Acceso a datos Cultura de innovación Cultura

    de datos Habilidades con datos General Caso 1 Caso 2
  21. Existencia de datos Acceso a datos Cultura de innovación Cultura

    de datos Habilidades con datos General Caso 1 Caso 2
  22. Tomar procesos en los que DATA puede generar eficiencia Procesos

    existentes Nueva Lógica General Caso 1 Caso 2
  23. Tomar procesos en los que DATA puede generar eficiencia Procesos

    existentes Nueva Lógica General Caso 1 Caso 2
  24. Tengo datos, ¿ahora? 1. Data Dive 2. Pregunta 3. Hipótesis

    1. Data Dive 2. Pregunta 3. Hipótesis
  25. 1. Data Dive 2. Pregunta 3. Hipótesis 1. Data Dive

    2. Pregunta 3. Hipótesis Tengo datos, ¿ahora?
  26. 1. Data Dive 2. Pregunta 3. Hipótesis 4. Data 5.

    Data Wrangling 6. Data Pipeline Tengo datos, ¿ahora?
  27. No Estructurados Semi Estructurados Estructurados 1. Data Dive 2. Pregunta

    3. Hipótesis 4. Data 5. Data Wrangling 6. Data Pipeline Tengo datos, ¿ahora?
  28. 1. Data Dive 2. Pregunta 3. Hipótesis 4. Data 5.

    Data Wrangling 6. Data Products Tengo datos, ¿ahora?
  29. Fuente: E. de Jonge & M. van der Loo, 2013.

    An introduction to data cleaning with R. Technical report, Statistics Netherlands. 1. Data Dive 2. Pregunta 3. Hipótesis 4. Data 5. Data Wrangling 6. Data Products Data Cleaning Data Cleansing Data Scrubbing Tidy Data Interpretación Comunicación Tengo datos, ¿ahora?
  30. Fuente: E. de Jonge & M. van der Loo, 2013.

    An introduction to data cleaning with R. Technical report, Statistics Netherlands. 1. Data Dive 2. Pregunta 3. Hipótesis 4. Data 5. Data Wrangling 6. Data Products Data Cleaning Data Cleansing Data Scrubbing Tidy Data Interpretación Comunicación Tengo datos, ¿ahora?
  31. Visualizaciones 1. Data Dive 2. Pregunta 3. Hipótesis 4. Data

    5. Data Wrangling 6. Data Products Datos Reportes Modelos [ { "Nombre": "Frans", "Apellido": "van Dunné", "score": 0.68 }, { "Nombre": "Diego", "Apellido": "May", "score": 0.68 } ] Tengo datos, ¿ahora?
  32. Data Pipeline 1. Data Dive 2. Pregunta 3. Hipótesis 4.

    Data 5. Data Wrangling 6. Data Products 7. Data Pipeline 7 Tengo datos, ¿ahora?
  33. Analizar y Modelar Ingerir y Almacenar Organizar y Limpiar Data

    Pipeline Integrar y Validar Incremento de valor de datos 1. Data Dive 2. Pregunta 3. Hipótesis 4. Data 5. Data Wrangling 6. Data Products 7. Data Pipeline 7 Call Center Online behaviors Twitter Past sales Industry Data Facebook Client profiles Employee profiles Data Model Visualization Report Tengo datos, ¿ahora?
  34. Medir y aprender 1. Data Dive 2. Pregunta 3. Hipótesis

    4. Data 5. Data Wrangling 6. Data Products 7. Data Pipeline 8. Medición Tengo datos, ¿ahora?
  35. Incorporar Ciencia de Datos Centralized Decentralized Hybrid Independent Un equipo

    centralizado maneja los repositorios y prioriza y ejecuta proyectos
  36. Centralized Decentralized Hybrid Independent Las unidades de negocio son las

    que definen y ejecutan los proyectos de datos Incorporar Ciencia de Datos
  37. Centralized Decentralized Hybrid Independent Las unidades de negocio lideran con

    apoyo de un equipo central Incorporar Ciencia de Datos
  38. Centralized Decentralized Hybrid Independent Un centro de excelencia independiente es

    el que supervisa todas las iniciativas de datos Incorporar Ciencia de Datos