Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Cómo visualizar Big Data de forma llamativa y convincente

Cómo visualizar Big Data de forma llamativa y convincente

Presentación durante el TechCamp Peru.

TechCamp es una iniciativa del Departamento de Estado de Estados Unidos dirigida a conectar a líderes que trabajan en desafíos mundiales con herramientas digitales que facilitan sus esfuerzos. TechCamp Perú se centrará en la lucha contra la delincuencia transnacional organizada que afecta al medioambiente y los recursos naturales.

https://techcamp.america.gov/techcamps/techcamp-peru/

Frans van Dunné

November 09, 2018
Tweet

More Decks by Frans van Dunné

Other Decks in Technology

Transcript

  1. Cómo visualizar Big Data de forma llamativa y convincente TechCamp

    Perú 7-10 de Noviembre, 2018 Frans van Dunné @fransvandunne
  2. 0 - 10 10 - 20 20 - 30 30

    - 45 45 - 60 60 - 75 75 - 90
  3. ¿De que hablamos? Registros gubernamentales Monitoreo financiero Aduanas Censos Interpol

    Detección remota Fortalecer coordinación Mayor eficiencia en control Menos corrupción Promover cohesión social Identificar y mitigar riesgos Disminuir delincuencia ?
  4. Source: Matt Turck, Jim Hao & First Mark Capital Big

    Data Landscape 2017 Big Data Computación Distribuida SVM Machine Learning Analytics Infraestructura Inteligencia Artificial Hadoop NoSQL Information accionable Deep learning Internet de las Cosas (IOT) Boosting Algoritmo
  5. Despues del training ... • Se te quitó (un poco)

    el susto de programar • Tienes una opinión más informada sobre R • Tienes una opinión más informada sobre Big Data • Tienes una opinión más informada sobre herramientas para tratar grandes datos • Puedes identificar oportunidades y aplicaciones para la visualización de datos masivos
  6. BIG DATA Oracle Conjuntos de datos más grandes y más

    complejos, especialmente provenientes de fuentes nuevas Gartner Activos de información de alto volumen, alta velocidad y alto variedad Microsoft Datos que son valiosos pero, tradicionalmente, no era práctico de almacenar y analizarlos McKinsey Conjuntos de datos cuyo tamaño va más allá de bases de datos comunes.
  7. Fitbit Mobile Phone Data Apple Siri Web Page Clicks Licence

    Plates Images on Social Media Messages on Social Media ATM Transactions Images on Social Media Cellular Phone Towers Purchase History Phone GPS History Google Maps Waze History In Store RFID Tracking In Store Face Recognition Refrigerator Activity Google Nest Amazon Alexa Google Assistant Apple Watch Medical Records Cow Pedometers
  8. DATA Cuando tu proyecto BIG DATA no tiene tanto volumen,

    variedad o velocidad ... … ¿Cómo lo llamas?
  9. Big Data @ RStudio Hablamos de Big Data cuando: 1.

    datos no caben en la RAM del computador 2. el conducto desde donde están los datos hasta el computador no permiten una velocidad de transmisión adecuada para su procesamiento Fuente: Edgar Ruiz 2018: http://www.datalatam.com/41/
  10. Historia R 1976 S :: implementación de un entorno interactivo

    de análisis estadístico escrito en Fortran (John Chambers) 1991 R :: una reimplementación de S como código abierto (Rossi Ihaka & Robert Gentleman) 1997 R :: primera publicación - comienzo de la lista de correo 2017 R :: es el lenguaje más popular en ciencia de datos
  11. Historia R en Microsoft 2007 Revolution Analytics - REvolution R

    Open - REvolution R Enterprise - ScaleR (on-disk analytics) - DeployR (servicios R como API) 2010 Windows Azure - Azure ML (permite R script) 2015 Microsoft Compra Revolution Analytics - Microsoft R Server - Microsoft R Open 2016 SQL Server 2016 2016 R Tools for Visual Studio 2017 doAzureParallel: Paralelización a Azure Compute desde sesion local Microsoft Machine Learning Server
  12. 0 - 10 10 - 20 20 - 30 30

    - 45 45 - 60 60 - 75 75 - 90
  13. Fuentes de datos Fuente interna ... Fuente externa Analizar y

    modelar Integrar y validar Organizar y limpiar Ingerir y almacenar Producto 1 ... Producto n Productos de datos Dataducto
  14. data.frame (Datos ordenados) - Cada Variable su propia columna -

    Cada Observaciòn su propia fila - Cada Valor su propia celda Sucursal Origen Venta Salario Ocupacion Nicoya Plataforma 500.000 MASAJISTA Aguas Zarcas Ventas 200.000 SACERDOTE San Ramon Plataforma 700.000 EBANISTA Nicoya Ventas 1.796.611 GANADERO Observaciòn Variable Fuente: Wickham 2014. Tidy Data. Journal of Statistical Software 59(i10)
  15. Otra pieza importante: conducto (pipe) %>% permite conectar instrucciones. Una

    traducción podría ser luego > datos %>% instruccion_1 %>% instruccion_2 %>% instruccion_3
  16. Algo muy importante que dplyr hace por ti es que

    restringe tus opciones. Yo afirmo que la mayoría de problemas en un solo cuadro se pueden resolver con solo cinco verbos: filter, select, mutate, arrange y summarise, junto con el adverbio "by group". - Hadley Wickham
  17. shiny Reactividad server.R ui.R Leer Datos Transformar Datos Visualizar logica

    (por ejemplo obtener datos, procesarlos, visualizarlos) Input desde interfaz se marca con input$nombre
  18. shiny Reactividad server.R ui.R Presentar input output Presentacion (por ejemplo

    gadget, informe, página web) Output desde server.R se marca con output$nombre
  19. Computación distribuida Cluster Master scheduling Nodo Tarea Tarea Tarea Tarea

    Nodo Nodo Tarea Tarea Tarea Tarea Tarea Tarea Tarea Tarea
  20. 0 - 10 10 - 20 20 - 30 30

    - 45 45 - 60 60 - 75 75 - 90
  21. Discusión: interactuar con datos masivos • Si queremos tener un

    impacto con datos sobre crimen, no podemos depender de otros para implementarlo. • Necesitamos que investigadores puedan "hablar con datos" tal como pueden "hablar con personas". • Interrogaciones de datos requieren habilidad técnica, pero sobre todo intuición que sólo un experto del dominio tiene.
  22. En resumen :: Visualizar grandes datos convertir datos en acciones

    se puede aprender necesario para mejorar eficiencia y abarcar cambios en la sociedad responder preguntas y reconocer patrones crear productos de datos Trabajo en equipo diferente