Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Big Data e Cloud Computing: A Próxima Fronteira...

Big Data e Cloud Computing: A Próxima Fronteira da Inovação

Flávio R. C. Sousa

November 08, 2013
Tweet

More Decks by Flávio R. C. Sousa

Other Decks in Technology

Transcript

  1. Universidade Federal do Ceará Big Data e Cloud Computing: A

    Próxima Fronteira da Inovação Flávio R. C. Sousa [email protected] @flaviosousa www.es.ufc.br/~flavio
  2. Introdução 2,5 quintilhões de bytes de dados por dia 90%

    dos dados no mundo hoje foram produzidos nos últimos dois anos 2,7 bilhões de usuários na internet • 5 bilhões de celulares no mundo • 1 bilhões de smartphone vendidos em 2013 2
  3. Introdução  Facebook • 1B de usuários, 1,13 Trilhões de

    "likes", 219B de fotos e 140.3B de relacionamentos  Youtube • 100 horas de vídeos adicionado a cada minuto  Yahoo! • + de 650M de usuários, 11B visitas a páginas/mês  Flick • + de 5B de fotos  Twitter • 80 TB e 1B de tweets por dia 4
  4. 5 Introdução  Boeing • 640 TB gerados em um

    voo transatlântico  Wal-Mart • 2,5 PB e 1 milhão de transações/hora  LHC CERN • 15 Petabytes por ano
  5.  2000, 800 Terabytes  2006, 160 Exabytes  2009,

    500 Exabytes(Internet)  2012, 2.7 Zettabytes  2020, 35 Zettabytes, 2020 Introdução
  6.  "Extracting Value from Chaos” - a informação mundial está

    dobrando a cada 2 anos - 1.8 zettabytes foram criados em 2011, crescendo mais que a lei de Moore. Introdução
  7. “As the volume and complexity of data barraging businesses from

    all angles increases, IT organizations have a choice: they can either succumb to information- overload paralysis, or they can take steps to harness the tremendous potential teeming within all of those data streams” Introdução Fonte: EMC
  8. 12 “Big Data é a prática de coleta e processamento

    de grandes conjuntos de dados, incluindo sistemas e algoritmos utilizados para analisar estes dados” Big Data Fonte: Begoli and Horey 2012
  9. Big Data  Big Data são dados que excedem o

    armazenamento, processamento e capacidade dos sistemas convencionais • Volume de dados muito grande • Dados são gerados rapidamente • Dados não se encaixam nas estruturas de arquiteturas de sistemas atuais  Além disso, para obter valor a partir desses dados, é preciso mudar a forma de analisá- los 13 Fonte: Jordi Torres
  10. 16

  11. 17 “O desafio fundamental para as aplicações de Big Data

    é explorar os grandes volumes de dados e extrair informações úteis ou conhecimento para futuras ações” Fonte: Rajaraman and Ullman 2012 Análise para Big Data
  12. Quem são nossos maiores/ menores clientes? Quem são os meus

    clientes e quais produtos eles estão comprando? Quais clientes são mais propoensos a comprar no concorrente? Qual impacto da venda de novos produtos nos lucros? Quais promoções geram mais lucros? Qual a distribuição mais eficiente? Análise para Big Data Fonte: VLDB 2010
  13. Homeland Security Finance Smarter Healthcare Multi-channel sales Telecom Manufacturing Traffic

    Control Trading Analytics Fraud and Risk Log Analysis Search Quality Retail: Churn, NBO Análise para Big Data: Gera Valor Fonte: Alberto Laender
  14. At the moment of the winning goal in the 2010

    World Cup final, people from 81 countries tweeted in 23 different languages 22 Fonte: Alberto Laender
  15. Dengue Surveillance: Twitter X Official Data Fonte: Janaína Gomide, Adriano

    Veloso, Wagner Meira Jr., Virgílio Almeida, Fabrício Benevenuto, Fernanda Ferraz, Mauro Teixeira: Dengue Surveillance Based on a Computational Model of Spatio-temporal Locality of Twitter. WebSci 2011: 1-8. 24
  16. Computação em Nuvem  Serviços básicos e essenciais são todos

    entregues de uma forma transparente  A mesma ideia tem sido aplicada no contexto da informática • Cloud Computing ou Computação em Nuvem  Computação em Nuvem • Ideia antiga: Software como um Serviço (SaaS)  Entrega de aplicações através da Internet • Recentemente: “[Hardware, Infraestrutura, Plataforma] como um serviço”  “X como um serviço” 28
  17. Computação em Nuvem  Lista Top 500 • Elenca os

    500 supercomputadores mais rápidos do mundo  1.064 instâncias do EC2 foram usadas para criar um supercomputador com 17.024 cores  240 teraflops de velocidade • 240 trilhões de operações por segundo  Esse supercomputador é o 72º computador mais rápido do mundo • Lista do Top 500 (jun/2012) Você pode alugá-lo por menos de US$ 1.000/h 31 Fonte: Daniel Cordeiro
  18. Computação em Nuvem: Ameaças  Privacidade • Seus dados e

    de seus cliente são armazenados no provedor  Dependência de provedor de nuvem • Sem controle físico sobre o hardware • E se governo decide encerrar a “nuvem”? ou obrigar o provedor a fornece informações? • E se o datacenter “quebra”?  Limitado ao provedor (lock-in) • Adaptando soluções para serviços específicos (não-padrão) 33
  19. Computação em Nuvem: Mitos  Nuvem é apenas uma “moda”

    passageira  A nuvem não é confiável  A nuvem não é segura  Eu irei perder o controle dos dados  Custo é a única vantagem da nuvem 37
  20. Análise de Big Data em Cloud  Escalabilidade para grandes

    volumes de dados • Scan 100 TB em1 node @ 50 MB/sec = 23 dias • Scan em 1000-node cluster = 33 minutos  Possibilidade de Dividir e Conquistar • Estratégias de particionamento dos dados • MapReduce (Hadoop)  Cloud Computing • Baixo Custo • Disponibilidade e desempenho • Fácil de usar
  21. Tecnologias para Big Data  NoSQL Databases • MongoDB, Cassandra

     Map Reduce • Hadoop, Hive, Pig  Storage • S3, HDFS  Servers • EC2  Processing • R, Yahoo! Pipes  NLP • NL Toolkit, OpenNLP  Machine Learning • WEKA, Mahout  Visualization • Gephi, GraphViz  Serialization • JSON, BSON 41
  22. “Em 2018, os EUA enfrentará uma escassez de 140.000 a

    190.000 profissionais com capacidade de realizar análise detalhada, assim como existirá uma carência de 1.5 M de gerentes e analistas com conhecimento em análise de Big Data...” Cientista de Dados Fonte: McKinsey Report on Big Data
  23. Novos Sistemas para Big Data A informação não é um

    conhecimento acionável  Predição • Mineração de dados • Técnicas de aprendizagem de máquina  Desenvolver algoritmos “elásticos” 46 Observations Forecast
  24. Ferramentas Sofisticadas para Análise  Lidem com 5 V’s do

    Big Data • Análise de padrões temporais • Processamento em tempo real • Incerteza • Subjetividade • Ambiguidade  Devem mover os programas • Não os dados
  25. Big Data e Cloud Computing estão acelerando a inovação e

    melhorando nossas vidas. “Data is the new gold” Fonte: ODI European Commission