Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Big Data: retos y oportunidades por Raúl Ramos

Big Data: retos y oportunidades por Raúl Ramos

RISC Workshop 2013, Manizales. Mayo 16 y 17.

Avatar for Jorge I. Meza

Jorge I. Meza

May 16, 2013
Tweet

More Decks by Jorge I. Meza

Other Decks in Technology

Transcript

  1. RISC  Mzles  Mayo  2013   Big  Data  Analy9cs   1

      Big  Data  Analy,cs   Retos  y  Oportunidades   Raúl  Ramos  Pollán   Mind  Lab   Universidad  Nacional  de  Colombia    
  2. RISC  Mzles  Mayo  2013   Big  Data  Analy9cs   2

      Avalancha  de  datos  –  Data  Deluge  
  3. RISC  Mzles  Mayo  2013   Big  Data  Analy9cs   3

      Data  Science  –  Big  Data         “El  Cuarto  Paradigma  de  la  Ciencia  está  basado  en   computación  intensiva  sobre  grandes  colecciones  de   datos”.     MicrosoC  Research,  2009   hGp://research.microsoC.com/en-­‐us/collabora9on/fourthparadigm/       "...  mankind  created  150  exabytes  (billion  gigabytes)  of  data  in  2005...   ...This  year,  it  will  create  1,200  exabytes...   ...Analysing  it,  to  spot  paRerns  and  extract  useful  informa,on,  is  harder  s,ll...     ...data  deluge  is  already  star,ng  to  transform  business,  government,  science   and  everyday  life.  ...”   "The  Data  Deluge",  The  Economist,  Feb  25th  2010   “Inicia,va  para  Big  Data  I+D”  para  mejorar  la   capacidad  del  país  para  extraer  conocimiento   y  visiones  de  colecciones  de  datos  grandes  y   complejas,  para  contribuir  a  resolver  algunos   de  los  retos  más  acuciantes  de  la  nación     The  Obama  Ini9a9ve,  Mar  2012  
  4. RISC  Mzles  Mayo  2013   Big  Data  Analy9cs   4

      ¿Por  qué  esta  avalancha?   hardware,  asequible,  ubicuo  (mobile,  servers,  storage,  etc.)   universalidad  de  los  sistemas  de  información   sensores,  internet,  redes  sociales  
  5. RISC  Mzles  Mayo  2013   Big  Data  Analy9cs   6

      ¿Qué  es  Big  Data?   de  contenidos   compar,dos  en   Facebook  por  mes   30     billones   millones  de  llamadas  al   día  en  Colombia   200   millones   en  EEUU  ,enen  más   datos  por  empresa  que  la   Biblioteca  del  Congreso   (250  Terabytes)   15/17   sectores     industriales   de  imágenes  en  los   herbarios  de  Colombia   1   millón   crecimiento  global     proyectado  de  datos   generados  por  año   40%   un  secuenciador   Illumina   1   TB/día   por  año  generados   por  el  LHC   15   petabytes   40   TB/día   generados  por  el  LSST,   Chile  
  6. RISC  Mzles  Mayo  2013   Big  Data  Analy9cs   7

      Big  Data   •  manejo  de  datasets  de  tamaño  >>  capacidad  de  las   herramientas  tradicionales  de  bases  de  datos   •  según  la  tecnología  avanza  con  el  9empo,  el  tamaño  de   los  conjuntos  de  datos  a  los  que  denomina  el  término   también  crecerán,  si  cabe,  a  un  aún  ritmo  mayo   •  Requiere  nuevo  modelo  (no  sirven  BBDD  tradicionales,   paquetes  estadís9cos/visualización  desktop)   •  Obje9vo  à  Escalabilidad  «trivial»        
  7. RISC  Mzles  Mayo  2013   Big  Data  Analy9cs   8

      El  cuarto  paradima   empírico  
  8. RISC  Mzles  Mayo  2013   Big  Data  Analy9cs   9

      El  cuarto  paradima   empírico   teórico  
  9. RISC  Mzles  Mayo  2013   Big  Data  Analy9cs   10

      El  cuarto  paradima   empírico   teórico   computacional  
  10. RISC  Mzles  Mayo  2013   Big  Data  Analy9cs   11

      El  cuarto  paradima   empírico   teórico   computacional   data  science  
  11. RISC  Mzles  Mayo  2013   Big  Data  Analy9cs   12

      Fuentes  de  Big  Data   simulaciones   históricos  de   consumo   redes  sociales   bancos  de   documentos   web  logs   sensores   medioambientales,   electrónicos,  …   datos  biológicos   adquisición  de   imágenes   ciencia   industria   mobile  devices   transacciones   financieras   registros  de   pacientes   ¿cuántas  transacciones  ,ene  su  compañía  al  año?   gobierno  
  12. RISC  Mzles  Mayo  2013   Big  Data  Analy9cs   13

      Tipos  de  Big  Data   imágenes   video   texto   audio   mul,modal   real  ,me  data   kilo  103  1.000      (mil)    1795   mega  106  1.000.000        (un  millón)    1960   giga  109  1.000.000.000      (un  billón)    1960   tera  1012  1.000.000.000.000      (un  trillón)    1960   peta  1015  1.000.000.000.000.000      (un  cuatrillón)  1975   exa  1018  1.000.000.000.000.000.000  (un  quin,llón)  1975   registros,  datos   estructurados   datos  no   estructurados  
  13. RISC  Mzles  Mayo  2013   Big  Data  Analy9cs   14

      Límites  del  acceso  de  datos  tradicional   grep  1MB  en  1  seg   grep  1GB  en  1  min   grep  1TB  en  1  día   grep  1PB  en  1  año   Cp  1MB  en  1  seg   Cp  1GB  en  1  min,  1  USD   Cp  1TB  en  1  día,  1K  USD   Cp  1PB  en  1  año,  1M  USD   necesitas  desarrollar  índices,  procesamiento  en   paralelo,  etc.  
  14. RISC  Mzles  Mayo  2013   Big  Data  Analy9cs   15

      •  Infoxificación  (selección,  relevancia)   •  Entendimiento  (descubrimiento)   •  Procesamiento  (análisis,  cálculos)   •  Almacenamiento  (curación,  preservación)   •  Seguridad  y  privacidad  (visibilidad,  encriptado)     Problemá,cas  
  15. RISC  Mzles  Mayo  2013   Big  Data  Analy9cs   16

      •  Infoxificación   •  Entendimiento   •  Procesamiento   •  Almacenamiento   •  Seguridad  y  privacidad     Machine  Learning   Sta,s,cs  /  Mathema,cs   Visualización   Programming  models   NoSQL   Cloud  Compu,ng   Computación  Cienofica   Legislación  y  Tecnología   Problemá,cas  
  16. RISC  Mzles  Mayo  2013   Big  Data  Analy9cs   17

      Data  Science    /  Big  Data  
  17. RISC  Mzles  Mayo  2013   Big  Data  Analy9cs   18

      •  DBA  à  aprende  a  tratar  con  datos  no  estructurados   •  Estadís9co  à  aprende  a  tratar  con  información  que  no   cabe  en  memoria   •  Ingeniero  sw  à  aprente  modelado  estadís9co  y  a   comunicar  los  resultados  a  los  expertos  del  dominio   •  Experto  de  un  dominio  à  aprende  algoritmos  y  los   compromisos  según  aumenta  la  escala  de  tu  problema   El  camino  hacia  big  data  
  18. RISC  Mzles  Mayo  2013   Big  Data  Analy9cs   19

      Descubrimiento  de  conocimiento   •  Extracción  (semi)  automá9ca  de  conocimiento  e   información   –  simplemente  hay  demasiada  información  que  inspeccionar   •  Fusión  automá9ca  de  diferentes  9pos  de  datos   •  Representaciones  aprendidas   •  Descubrimiento  de  relaciones  y  conceptos  nuevos  (función   gené9ca,  sen9ment  analysis)   •  Tres  Vs:   –  Volumen   –  Variedad   –  Velocidad  
  19. RISC  Mzles  Mayo  2013   Big  Data  Analy9cs   20

      •  Extracción  (semi)  automá9ca  de  conocimiento  e   información   –  simplemente  hay  demasiada  información  que  inspeccionar   •  Fusión  automá9ca  de  diferentes  9pos  de  datos   •  Representaciones  aprendidas   •  Descubrimiento  de  relaciones  y  conceptos  nuevos  (función   gené9ca,  sen9ment  analysis)   •  Tres  Vs:   –  Volumen   –  Variedad   –  Velocidad   Descubrimiento  de  conocimiento  
  20. RISC  Mzles  Mayo  2013   Big  Data  Analy9cs   21

      Descubrimiento  de  conocimiento   Árboles  de  decisión   Reglas  de  asociación   Redes  neuronales   Algoritmos  gené,cos   Programación  evolu,va   Máquinas  de  soporte  vectorial   Clustering   Aprendizaje  por  refuerzo   Aprendizaje  de  representación   Semán,ca  latente   Autómatas   Regresión  logís,ca   Aprendizaje  estadís,co   Redes  bayesianas   Cadenas  de  Markov   Mapas  auto  organizados   Representaciones  cuán,cas   Learning  Theory   Años  60   •  Extracción  (semi)  automá9ca  de  conocimiento  e   información   –  simplemente  hay  demasiada  información  que  inspeccionar   •  Fusión  automá9ca  de  diferentes  9pos  de  datos   •  Representaciones  aprendidas   •  Descubrimiento  de  relaciones  y  conceptos  nuevos  (función   gené9ca,  sen9ment  analysis  
  21. RISC  Mzles  Mayo  2013   Big  Data  Analy9cs   22

      Más  de  2.5  millones  de  suscriptores   Datos  históricos  de  consumos  mensuales  de  más  de  5  años   Problema:     proceso  de  detección  de  anomalías  con  alto  número  de  falsos  posi,vos  y  falsos  nega,vos   costos  adicionales  por  inspecciones  innecesarias,  pérdidas  por  consumos  no  facturados!   Pregunta:     Cómo  determinar  con  alta  fiabilidad  si  un  consumo  par9cular  es    anómalo  o  no.   Solución:     construcción  de  un  modelo  predic9vo  para  determinación  de  anomalías  basado  en   técnicas  de  big  data  analy9cs   Resultados:   Un  modelo  predic9vo  para  la  detección  de  anomalías,  reducción  sustancial  de  falsos   posi9vos  y  nega9vos   Una  metodología  para  comparar  obje9vamente  diferentes  modelos  de  detección  de   anomalías   Proyecto  reciente,  empresa  de  servicios  Colombia  
  22. RISC  Mzles  Mayo  2013   Big  Data  Analy9cs   23

      Tecnologías  YA  disponibles   cassandra   hadoop   hbase   virtual  box   kvm   google  apps   amazon  cloud   ms  azure   hyper-­‐v   open  nebula   map-­‐reduce   machine  learning   noSQL   tag  cloud   history  flow   clustergrams   spa,al/map   info   clouds  privadas   servicios   modelos  y   teorías   aplicaciones  y   frameworks   visualización   high  speed   networks   mul,cores   GPUs   large  storage   hardware   eucalyptus   mongo  db   BIGS   mahout   Big  Table  
  23. RISC  Mzles  Mayo  2013   Big  Data  Analy9cs   24

      Bases  de  datos  NoSQL   •  Expresividad  SQL  vs.  Escalabilidad   •  Tablas:  filas  de  keys  +  lista  no  fija  de  columnas/valores   •  Operaciones  simples:    Scan  por  key    Acceso  directo  por  key    Transacciones  mínimas  (check&put)    No  joins,  no  SQL  language   •  Big  table,  Hbase,  DynamoDB,  Azure,  Cassandra,  etc.          
  24. RISC  Mzles  Mayo  2013   Big  Data  Analy9cs   25

      Un  punto  de  inflexión   ciencia   industria   sin  Big  Data  no  juegas   gobierno  
  25. RISC  Mzles  Mayo  2013   Big  Data  Analy9cs   26

      oportunidades   par,cipar  en  los  nuevos  modelos  de  negocio   nuevas  capacidades  para  desarrollar  productos   nueva  forma  de  organizaciones   las  decisiones  se  basarán  cada  vez  más  en  predicciones  analí,cas   explotar  el  valor  de  los  datos  personales   nuevas  relaciones  con  el  cliente   capturar  datos  y  productos  personalizados   dirigidas  por  los  datos  
  26. RISC  Mzles  Mayo  2013   Big  Data  Analy9cs   27

      oportunidades   par,cipar  en  los  nuevos  modelos  de  negocio   nuevas  capacidades  para  desarrollar  productos   nueva  forma  de  organizaciones   las  decisiones  se  basarán  cada  vez  más  en  predicciones  analí,cas   explotar  el  valor  de  los  datos  personales   riesgos   pérdida  de  compe,,vidad   incapacidad  de  descubrir  patrones,  conceptos,   comportamientos  de  nuestro  propio  dominio   inaccesibilidad  a  nuevas  reglas  de  mercado   nuevas  relaciones  con  el  cliente   capturar  datos  y  productos  personalizados   dirigidas  por  los  datos   fundamento  básico  para  las  organizaciones  
  27. RISC  Mzles  Mayo  2013   Big  Data  Analy9cs   28

      modelos  de  proyectos   procesos  de  decisión  y  análisis   formación  de  equipos  mu,disciplinares   arquitecturas  de  TI   retos   diseñar  /  adaptar  nuevas  subestructuras  organizacionales   modelos  predic,vos,  múl,ples  fuentes  de  datos   expertos  del  dominio/negocio,  ingenieros,  estadís,cos   gran  escala,  escalabilidad  trivial,  nubes  privadas,  públicas,  …  
  28. RISC  Mzles  Mayo  2013   Big  Data  Analy9cs   29

      está  empezando  a  parecerse  a  la  ciencia   adquisición  de  muchos  datos   necesidad  de  modelos  predic,vos   necesitan  Data  Scien-sts   en  la  industra   facebook,  google,  transacciones,  etc.   detección  de  fraude,  customer  paRerns,  etc.   data  munging  +  estadís,ca  +  sistemas  ….  
  29. RISC  Mzles  Mayo  2013   Big  Data  Analy9cs   30

      Formación  mul,disciplinar   Conclusión  1:  El  mundo  de  la  computación  es  plano,  cualquiera  puede  acceder.  Lo   que  nos  dis,nguirá  del  resto  del  mundo  es  nuestra  habilidad  para  hacerlo  mejor  y   explotar  las  nuevas  arquitecturas  que  desarrollamos  antes  de  que  dichas   arquitecturas  sean  universalmente  usadas.     Conclusión  2:  La  educación  y  formación  inadecuadas  de  la  siguiente  generación  de   cienoficos  computacionales  amenaza  el  crecimiento  global  de  la  Ciencia  e  Ingeniería   Basadas  en  Simulación.  Esto  es  par,cularmente  urgente  [...];  a  no  ser  que   preparemos  a  los  inves,gadores  para  desarrollar  y  usar  la  próxima  generación  de   algoritmos  y  arquitecturas  de  computadores,  no  seremos  capaces  de  explotar  sus   capacidades  para  cambiar  las  reglas  del  juego.   hGp://www.wtec.org/sbes/    
  30. RISC  Mzles  Mayo  2013   Big  Data  Analy9cs   31

      más  información   MicrosoC  Research,  2009   The  Fourth  Paradigm:  Data-­‐Intensive  Scien,fic  Discovery     hGp://research.microsoC.com/en-­‐us/collabora9on/fourthparadigm/     NSF,  NASA,  DOE,  NIH,  NIST  and  DOD,  2009   Interna,onal  Assessment  of  Research  and  Development  in  Simula,on  Based  Engineering  and  Science   hGp://www.wtec.org/sbes     European  Commission,  2012   ICT  infrastructures  for  e-­‐Science     hGp://europa.eu/legisla9on_summaries/informa9on_society/internet/si0006_en.htm     US  Office  of  Science  and  Technology,  2012   The  Big  Data  Research  and  Development  Ini,a,ve     hGp://www.whitehouse.gov/blog/2012/03/29/big-­‐data-­‐big-­‐deal         McKinsey  Global  Ins9tute,  2011.     Big  data:  The  next  fron,er  for  innova,on,  compe,,on  and  produc,vity.     hGp://www.mckinsey.com/insights/business_technology/big_data_the_next_fron9er_for_innova9on     Oracle,  2012.          IBM,  2012   Mee,ng  the  challenge  of  Big  Data      Harness  the  power  of  Big  Data   hGp://www.oracle.com/us/technologies/big-­‐data/index.html    hGp://www.ibm.com/soCware/data/bigdata/  
  31. RISC  Mzles  Mayo  2013   Big  Data  Analy9cs   32

      [email protected]     Universidad  Nacional  de  Colombia,     Grupo  de  Inves,gación  MindLab    www.unal.edu.co   hRps://sites.google.com/a/unal.edu.co/mindlab/  
  32. RISC  Mzles  Mayo  2013   Big  Data  Analy9cs   33

      Formación  postgrado  Universidad  Nacional  para  empresas   www.ing.unal.edu.co  à  educación  con,nua  à  diplomados