Big Data: A Próxima Fronteira da Inovação

Big Data: A Próxima Fronteira da Inovação

D10cfe1ce96239324a40eea00df03bdb?s=128

Flávio R. C. Sousa

April 24, 2014
Tweet

Transcript

  1. Universidade Federal do Ceará Departamento de Engenharia de Teleinformática Big

    Data: A Próxima Fronteira da Inovação Flávio R. C. Sousa flaviosousa@ufc.br @flaviosousa www.lia.ufc.br/~flavio X Escola Regional de Banco de Dados (ERBD) – Abril/2014
  2. Introdução 2 640K ought to be enough for anybody.

  3. 3

  4. Introdução 2,5 quintilhões de bytes de dados por dia 90%

    dos dados no mundo hoje foram produzidos nos últimos dois anos 2,7 bilhões no de usuários na internet 5 bilhões de celulares 64 Bilhões de mensagens em 24 horas 4 Fonte: IBM/Whatsapp
  5. Introdução 5 Fonte: KPCB/ SAS Os dados armazenados vão crescer

    50 vezes mais até 2020
  6. Introdução  Facebook • 1B de usuários, 1,13 Trilhões de

    "likes", 219B de fotos e 140.3B de relacionamentos  Youtube • 100 horas de vídeos adicionado a cada minuto  Bolsa de valores de Nova Iorque • + 1 TB de dados a cada sessão do pregão  Flick • + de 5B de fotos  Twitter • 80 TB e 1B de tweets por dia 6
  7. 7 Introdução  Boeing • 640 TB gerados em um

    voo transatlântico  Wal-Mart • 2,5 PB e 1 milhão de transações/hora  LHC CERN • 15 Petabytes por ano  Sloan Digital Sky Survey • 14 milhões de estrelas e galáxias • 80 atributos por objeto • 10 Petabytes gerados a cada varredura  Google • 24 Petabytes processados por dia
  8.  2000, 800 Terabytes  2006, 160 Exabytes  2009,

    500 Exabytes(Internet)  2012, 2.7 Zettabytes  2020, 35 Zettabytes, 2020 Introdução 2.7 ZB = 85 Bilhões x 32 GB
  9. Os dados são “Grandes” 9 Fonte: Amplab UC Berkeley

  10. Os dados são “Sujos” 10 Fonte: Amplab UC Berkeley 

    Diversas fontes de dados  Sem esquema  Sintaxe e semântica inconsistente
  11. Questões “Complexas” 11 Fonte: Amplab UC Berkeley  Perguntas difíceis

    • Qual é o impacto no trânsito e no preços das casas com construção de uma nova ponte?  Perguntas em tempo real • Existe um ataque cibernético acontecendo?  Perguntas em abertas • Quantos supernovas aconteceram no ano passado?
  12. 12 Internet of Things (IoT) Fonte: EMC

  13. Inovação  Inovação é... • Criar algo "melhor" ou "mais

    eficaz" • Uma nova ideia ou método que é economicamente valioso • Fazer algo diferente  Inovação melhora... • Experiência do cliente • Desenvolvimento do produto • Processo operacional 13
  14. Como utilizar dados para a inovação? Inovação orientada a dados

    14
  15. Teoria + Experimentação + Simulação ? 15

  16. None
  17. 17

  18. 18 “Big Data é como sexo no colegial: “Ninguém faz,

    mas todo mundo diz que faz. Então todos pensam que alguém está fazendo e dizem que fazem também” Big Data Fonte: Jay Kidd, CTO da NetApp
  19. Big Data  Big Data são dados que excedem o

    armazenamento, o processamento e a capacidade dos sistemas convencionais • Volume de dados muito grande • Dados são gerados rapidamente • Dados não se encaixam nas estruturas de arquiteturas de sistemas atuais  Além disso, para obter valor a partir desses dados, é preciso mudar a forma de analisá-los 19 Fonte: Jordi Torres
  20. 6 V's do Big Data Valor Veracidade Volatilidade Velocidade Variedade

    Volume Não-estruturado Semi-estruturado Estruturado Terabytes … Exabytes Batch Tempo Real Janela de tempo onde podemos usar os dados Estado verdadeiro da realidade Análise Estratégica de Dados
  21. Big Data 21

  22. Big Data 22

  23. Big Data 23 Fonte: Sogeti

  24. Big Data: Tecnologias

  25. Computação em Nuvem

  26. Tecnologias para Big Data  NoSQL Databases • MongoDB, Cassandra

     Map Reduce • Hadoop, Hive, Pig  Storage • S3, HDFS  Servers • EC2  Processing • R, Yahoo! Pipes  NLP • NL Toolkit, OpenNLP  Machine Learning • WEKA, Mahout  Visualization • Gephi, GraphViz 26
  27. 27

  28. Big Data: Aplicações

  29. Convergência Hardware e Software Análise para Big Data Gerenciamento de

    Dados e Análise de Dados Soluções Open-Source Hardware como commodity
  30. 30

  31. Análise para Big Data  By 2014, 30 percent of

    analytic applications will use predictive capabilities. Gartner Business Intelligence Summit 2012  If you can predict it, you can own it… • Forecasting • Targeting • Fraud detection • Risk • Customer churn, conversion • Propensity • Price Elasticity 31
  32. 32 “O desafio fundamental para as aplicações de Big Data

    é explorar os grandes volumes de dados e extrair informações úteis ou conhecimento para futuras ações” Fonte: Rajaraman and Ullman 2012 Análise para Big Data
  33. Quem são nossos maiores/ menores clientes? Quem são os meus

    clientes e quais produtos eles estão comprando? Quais clientes são mais propoensos a comprar no concorrente? Qual impacto da venda de novos produtos nos lucros? Quais promoções geram mais lucros? Qual a distribuição mais eficiente? Análise para Big Data Fonte: VLDB 2010
  34. 34 Fonte: Sogeti

  35. 35 Análise para Big Data Up to 10,000 Times larger

    Up to 10,000 times faster Traditional Data Warehouse and Business Intelligence Data Scale yr mo wk day hr min sec … ms s Exa Peta Tera Giga Mega Kilo Decision Frequency Occasional Frequent Real-time Data in Motion Data at Rest Telco Promotions 100,000 records/sec, 6B/day 10 ms/decision 270TB for Deep Analytics DeepQA 100s GB for Deep Analytics 3 sec/decision Smart Traffic 250K GPS probes/sec 630K segments/sec 2 ms/decision, 4K vehicles Homeland Security 600,000 records/sec, 50B/day 1-2 ms/decision 320TB for Deep Analytics Fonte: IBM
  36. Homeland Security Finance Smarter Healthcare Multi-channel sales Telecom Manufacturing Traffic

    Control Trading Analytics Fraud and Risk Log Analysis Search Quality Retail: Churn, NBO Análise para Big Data: Gera Valor Fonte: Alberto Laender
  37. Big Data: Desafios

  38. 38 “Um projeto Big Data requer uma transformação sincronizada entre

    pessoas, processos e tecnologias. Todas as três devem marchar em sincronia, caso contrário o projeto falhará.” O que precisamos ? Fonte: Big Data, Big Analytics; Minelli, Chamber, Dhira; Wiley CIO Series, 2013
  39. “Até 2015 serão necessários 4,4 milhões de experts em interpretação

    de dados em larga escala, sendo que 500 mil deles serão para o Brasil”. Cientista de Dados Fonte: Instituto Gartner
  40. 40 Cientista de Dados Fonte: EMC

  41. 41 Fonte: Hilary Mason

  42. Novos Sistemas para Big Data  SGBDs Relacionais não podem

    suportar tudo • NoSQL • NewSQL 42
  43. Novos Sistemas para Big Data 43 Fonte: Jordi Torres

  44. Novos Sistemas para Big Data 44 Fonte: Jordi Torres

  45. Novos Sistemas para Big Data 45 Fonte: Jordi Torres

  46. Novos Sistemas para Big Data A informação não é um

    conhecimento acionável  Predição • Mineração de dados • Técnicas de aprendizagem de máquina  Desenvolver algoritmos “elásticos” 46 Observations Forecast
  47. Novos Sistemas para Big Data 1 Petabyte = 1000 x

    (1 Terabyte Assumindo 100MB/sec Scanning 1 Terabyte: more than 5 hours Scanning 1 Petabyte: more than 5.000 hours 47 Fonte: Jordi Torres
  48. Novos Sistemas para Big Data  Armazenamento • SSD 

    Processamento • MapReduce  Gerenciamento • NoSQL, NewSQL  Análise • Aprendizagem de máquina • Computação autonômica 48 Fonte: Jordi Torres
  49. Novos Sistemas para Big Data  Lidem com 6 V’s

    do Big Data • Heterogeneidade • Análise de padrões temporais • Processamento em tempo real • Incerteza • Subjetividade • Ambiguidade  Novas tecnologias • Big Data + Cloud  Segurança dos dados • Privacidade
  50. Novos Sistemas para Big Data  Análise para Big Data

    • Alta dimensionalidade dos dados • Acúmulo de outliers • Correlação incorreta dos dados • Alto custo computacional • Necessidade de algoritmos complexos 50
  51. 51 Fonte: AMADEUS

  52. Novo modelo de Inovação? 52 Fonte: Jordi Torres

  53. Big Data está acelerando a inovação e melhorando nossas vidas.

    “Data is the new gold” Fonte: ODI European Commission
  54. Obrigado! Flávio R. C. Sousa flaviosousa@ufc.br @flaviosousa www.lia.ufc.br/~flavio