Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Big Data e Cloud Computing: A Próxima Fronteira da Inovação

Big Data e Cloud Computing: A Próxima Fronteira da Inovação

D10cfe1ce96239324a40eea00df03bdb?s=128

Flávio R. C. Sousa

November 08, 2013
Tweet

Transcript

  1. Universidade Federal do Ceará Big Data e Cloud Computing: A

    Próxima Fronteira da Inovação Flávio R. C. Sousa flaviosousa@ufc.br @flaviosousa www.es.ufc.br/~flavio
  2. Introdução 2,5 quintilhões de bytes de dados por dia 90%

    dos dados no mundo hoje foram produzidos nos últimos dois anos 2,7 bilhões de usuários na internet • 5 bilhões de celulares no mundo • 1 bilhões de smartphone vendidos em 2013 2
  3. Introdução 3 Fonte: KPCB

  4. Introdução  Facebook • 1B de usuários, 1,13 Trilhões de

    "likes", 219B de fotos e 140.3B de relacionamentos  Youtube • 100 horas de vídeos adicionado a cada minuto  Yahoo! • + de 650M de usuários, 11B visitas a páginas/mês  Flick • + de 5B de fotos  Twitter • 80 TB e 1B de tweets por dia 4
  5. 5 Introdução  Boeing • 640 TB gerados em um

    voo transatlântico  Wal-Mart • 2,5 PB e 1 milhão de transações/hora  LHC CERN • 15 Petabytes por ano
  6.  2000, 800 Terabytes  2006, 160 Exabytes  2009,

    500 Exabytes(Internet)  2012, 2.7 Zettabytes  2020, 35 Zettabytes, 2020 Introdução
  7.  "Extracting Value from Chaos” - a informação mundial está

    dobrando a cada 2 anos - 1.8 zettabytes foram criados em 2011, crescendo mais que a lei de Moore. Introdução
  8. “As the volume and complexity of data barraging businesses from

    all angles increases, IT organizations have a choice: they can either succumb to information- overload paralysis, or they can take steps to harness the tremendous potential teeming within all of those data streams” Introdução Fonte: EMC
  9. 9 Introdução Fonte: EMC

  10. Big Data

  11. 11 Big Data

  12. 12 “Big Data é a prática de coleta e processamento

    de grandes conjuntos de dados, incluindo sistemas e algoritmos utilizados para analisar estes dados” Big Data Fonte: Begoli and Horey 2012
  13. Big Data  Big Data são dados que excedem o

    armazenamento, processamento e capacidade dos sistemas convencionais • Volume de dados muito grande • Dados são gerados rapidamente • Dados não se encaixam nas estruturas de arquiteturas de sistemas atuais  Além disso, para obter valor a partir desses dados, é preciso mudar a forma de analisá- los 13 Fonte: Jordi Torres
  14. 3 V's do Big Data Mais V’s = Variability e

    Value
  15. Análise para Big Data

  16. 16

  17. 17 “O desafio fundamental para as aplicações de Big Data

    é explorar os grandes volumes de dados e extrair informações úteis ou conhecimento para futuras ações” Fonte: Rajaraman and Ullman 2012 Análise para Big Data
  18. Quem são nossos maiores/ menores clientes? Quem são os meus

    clientes e quais produtos eles estão comprando? Quais clientes são mais propoensos a comprar no concorrente? Qual impacto da venda de novos produtos nos lucros? Quais promoções geram mais lucros? Qual a distribuição mais eficiente? Análise para Big Data Fonte: VLDB 2010
  19. Dados Informação Conhecimento Ação Resultado Análise para Big Data

  20. Homeland Security Finance Smarter Healthcare Multi-channel sales Telecom Manufacturing Traffic

    Control Trading Analytics Fraud and Risk Log Analysis Search Quality Retail: Churn, NBO Análise para Big Data: Gera Valor Fonte: Alberto Laender
  21. Fonte: Alberto Laender

  22. At the moment of the winning goal in the 2010

    World Cup final, people from 81 countries tweeted in 23 different languages 22 Fonte: Alberto Laender
  23. Dengue Watch: Heat Map 23 Fonte: Alberto Laender

  24. Dengue Surveillance: Twitter X Official Data Fonte: Janaína Gomide, Adriano

    Veloso, Wagner Meira Jr., Virgílio Almeida, Fabrício Benevenuto, Fernanda Ferraz, Mauro Teixeira: Dengue Surveillance Based on a Computational Model of Spatio-temporal Locality of Twitter. WebSci 2011: 1-8. 24
  25. World Cup Watch: Twitter View of a Match 25 Fonte:

    Alberto Laender
  26. Waze Social GPS Maps & Traffic 26

  27. Como armazenar e processar este grande volume de dados?

  28. Computação em Nuvem  Serviços básicos e essenciais são todos

    entregues de uma forma transparente  A mesma ideia tem sido aplicada no contexto da informática • Cloud Computing ou Computação em Nuvem  Computação em Nuvem • Ideia antiga: Software como um Serviço (SaaS)  Entrega de aplicações através da Internet • Recentemente: “[Hardware, Infraestrutura, Plataforma] como um serviço”  “X como um serviço” 28
  29. Computação em Nuvem

  30. Computação em Nuvem: Amazon AWS 30

  31. Computação em Nuvem  Lista Top 500 • Elenca os

    500 supercomputadores mais rápidos do mundo  1.064 instâncias do EC2 foram usadas para criar um supercomputador com 17.024 cores  240 teraflops de velocidade • 240 trilhões de operações por segundo  Esse supercomputador é o 72º computador mais rápido do mundo • Lista do Top 500 (jun/2012) Você pode alugá-lo por menos de US$ 1.000/h 31 Fonte: Daniel Cordeiro
  32. Computação em Nuvem: Promessas

  33. Computação em Nuvem: Ameaças  Privacidade • Seus dados e

    de seus cliente são armazenados no provedor  Dependência de provedor de nuvem • Sem controle físico sobre o hardware • E se governo decide encerrar a “nuvem”? ou obrigar o provedor a fornece informações? • E se o datacenter “quebra”?  Limitado ao provedor (lock-in) • Adaptando soluções para serviços específicos (não-padrão) 33
  34. Computação em Nuvem Sem preocupação com infra 99.95 de disponibilidade

    34 Fonte: Amazon
  35. Computação em Nuvem 35

  36. Computação em Nuvem 36

  37. Computação em Nuvem: Mitos  Nuvem é apenas uma “moda”

    passageira  A nuvem não é confiável  A nuvem não é segura  Eu irei perder o controle dos dados  Custo é a única vantagem da nuvem 37
  38. Tecnologias de Cloud Computing para Big Data

  39. Análise de Big Data em Cloud  Escalabilidade para grandes

    volumes de dados • Scan 100 TB em1 node @ 50 MB/sec = 23 dias • Scan em 1000-node cluster = 33 minutos  Possibilidade de Dividir e Conquistar • Estratégias de particionamento dos dados • MapReduce (Hadoop)  Cloud Computing • Baixo Custo • Disponibilidade e desempenho • Fácil de usar
  40. Tecnologias para Big Data

  41. Tecnologias para Big Data  NoSQL Databases • MongoDB, Cassandra

     Map Reduce • Hadoop, Hive, Pig  Storage • S3, HDFS  Servers • EC2  Processing • R, Yahoo! Pipes  NLP • NL Toolkit, OpenNLP  Machine Learning • WEKA, Mahout  Visualization • Gephi, GraphViz  Serialization • JSON, BSON 41
  42. Inovação: Desafios em Big Data

  43. “Em 2018, os EUA enfrentará uma escassez de 140.000 a

    190.000 profissionais com capacidade de realizar análise detalhada, assim como existirá uma carência de 1.5 M de gerentes e analistas com conhecimento em análise de Big Data...” Cientista de Dados Fonte: McKinsey Report on Big Data
  44. 44 Cientista de Dados Fonte: EMC

  45. Novos Sistemas para Big Data  SGBDs Relacionais não podem

    suportar tudo • NoSQL • NewSQL 45
  46. Novos Sistemas para Big Data A informação não é um

    conhecimento acionável  Predição • Mineração de dados • Técnicas de aprendizagem de máquina  Desenvolver algoritmos “elásticos” 46 Observations Forecast
  47. Análise para Big Data

  48. Ferramentas Sofisticadas para Análise  Lidem com 5 V’s do

    Big Data • Análise de padrões temporais • Processamento em tempo real • Incerteza • Subjetividade • Ambiguidade  Devem mover os programas • Não os dados
  49. Novo modelo de Inovação? 49 Fonte: Jordi Torres

  50. Big Data e Cloud Computing estão acelerando a inovação e

    melhorando nossas vidas. “Data is the new gold” Fonte: ODI European Commission
  51. Obrigado! Flávio R. C. Sousa flaviosousa@ufc.br @flaviosousa www.es.ufc.br/~flavio