Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Big Data: A Próxima Fronteira da Inovação ...

Big Data: A Próxima Fronteira da Inovação

Flávio R. C. Sousa

April 24, 2014
Tweet

More Decks by Flávio R. C. Sousa

Other Decks in Education

Transcript

  1. Universidade Federal do Ceará Departamento de Engenharia de Teleinformática Big

    Data: A Próxima Fronteira da Inovação Flávio R. C. Sousa [email protected] @flaviosousa www.lia.ufc.br/~flavio X Escola Regional de Banco de Dados (ERBD) – Abril/2014
  2. 3

  3. Introdução 2,5 quintilhões de bytes de dados por dia 90%

    dos dados no mundo hoje foram produzidos nos últimos dois anos 2,7 bilhões no de usuários na internet 5 bilhões de celulares 64 Bilhões de mensagens em 24 horas 4 Fonte: IBM/Whatsapp
  4. Introdução  Facebook • 1B de usuários, 1,13 Trilhões de

    "likes", 219B de fotos e 140.3B de relacionamentos  Youtube • 100 horas de vídeos adicionado a cada minuto  Bolsa de valores de Nova Iorque • + 1 TB de dados a cada sessão do pregão  Flick • + de 5B de fotos  Twitter • 80 TB e 1B de tweets por dia 6
  5. 7 Introdução  Boeing • 640 TB gerados em um

    voo transatlântico  Wal-Mart • 2,5 PB e 1 milhão de transações/hora  LHC CERN • 15 Petabytes por ano  Sloan Digital Sky Survey • 14 milhões de estrelas e galáxias • 80 atributos por objeto • 10 Petabytes gerados a cada varredura  Google • 24 Petabytes processados por dia
  6.  2000, 800 Terabytes  2006, 160 Exabytes  2009,

    500 Exabytes(Internet)  2012, 2.7 Zettabytes  2020, 35 Zettabytes, 2020 Introdução 2.7 ZB = 85 Bilhões x 32 GB
  7. Os dados são “Sujos” 10 Fonte: Amplab UC Berkeley 

    Diversas fontes de dados  Sem esquema  Sintaxe e semântica inconsistente
  8. Questões “Complexas” 11 Fonte: Amplab UC Berkeley  Perguntas difíceis

    • Qual é o impacto no trânsito e no preços das casas com construção de uma nova ponte?  Perguntas em tempo real • Existe um ataque cibernético acontecendo?  Perguntas em abertas • Quantos supernovas aconteceram no ano passado?
  9. Inovação  Inovação é... • Criar algo "melhor" ou "mais

    eficaz" • Uma nova ideia ou método que é economicamente valioso • Fazer algo diferente  Inovação melhora... • Experiência do cliente • Desenvolvimento do produto • Processo operacional 13
  10. 17

  11. 18 “Big Data é como sexo no colegial: “Ninguém faz,

    mas todo mundo diz que faz. Então todos pensam que alguém está fazendo e dizem que fazem também” Big Data Fonte: Jay Kidd, CTO da NetApp
  12. Big Data  Big Data são dados que excedem o

    armazenamento, o processamento e a capacidade dos sistemas convencionais • Volume de dados muito grande • Dados são gerados rapidamente • Dados não se encaixam nas estruturas de arquiteturas de sistemas atuais  Além disso, para obter valor a partir desses dados, é preciso mudar a forma de analisá-los 19 Fonte: Jordi Torres
  13. 6 V's do Big Data Valor Veracidade Volatilidade Velocidade Variedade

    Volume Não-estruturado Semi-estruturado Estruturado Terabytes … Exabytes Batch Tempo Real Janela de tempo onde podemos usar os dados Estado verdadeiro da realidade Análise Estratégica de Dados
  14. Tecnologias para Big Data  NoSQL Databases • MongoDB, Cassandra

     Map Reduce • Hadoop, Hive, Pig  Storage • S3, HDFS  Servers • EC2  Processing • R, Yahoo! Pipes  NLP • NL Toolkit, OpenNLP  Machine Learning • WEKA, Mahout  Visualization • Gephi, GraphViz 26
  15. 27

  16. Convergência Hardware e Software Análise para Big Data Gerenciamento de

    Dados e Análise de Dados Soluções Open-Source Hardware como commodity
  17. 30

  18. Análise para Big Data  By 2014, 30 percent of

    analytic applications will use predictive capabilities. Gartner Business Intelligence Summit 2012  If you can predict it, you can own it… • Forecasting • Targeting • Fraud detection • Risk • Customer churn, conversion • Propensity • Price Elasticity 31
  19. 32 “O desafio fundamental para as aplicações de Big Data

    é explorar os grandes volumes de dados e extrair informações úteis ou conhecimento para futuras ações” Fonte: Rajaraman and Ullman 2012 Análise para Big Data
  20. Quem são nossos maiores/ menores clientes? Quem são os meus

    clientes e quais produtos eles estão comprando? Quais clientes são mais propoensos a comprar no concorrente? Qual impacto da venda de novos produtos nos lucros? Quais promoções geram mais lucros? Qual a distribuição mais eficiente? Análise para Big Data Fonte: VLDB 2010
  21. 35 Análise para Big Data Up to 10,000 Times larger

    Up to 10,000 times faster Traditional Data Warehouse and Business Intelligence Data Scale yr mo wk day hr min sec … ms s Exa Peta Tera Giga Mega Kilo Decision Frequency Occasional Frequent Real-time Data in Motion Data at Rest Telco Promotions 100,000 records/sec, 6B/day 10 ms/decision 270TB for Deep Analytics DeepQA 100s GB for Deep Analytics 3 sec/decision Smart Traffic 250K GPS probes/sec 630K segments/sec 2 ms/decision, 4K vehicles Homeland Security 600,000 records/sec, 50B/day 1-2 ms/decision 320TB for Deep Analytics Fonte: IBM
  22. Homeland Security Finance Smarter Healthcare Multi-channel sales Telecom Manufacturing Traffic

    Control Trading Analytics Fraud and Risk Log Analysis Search Quality Retail: Churn, NBO Análise para Big Data: Gera Valor Fonte: Alberto Laender
  23. 38 “Um projeto Big Data requer uma transformação sincronizada entre

    pessoas, processos e tecnologias. Todas as três devem marchar em sincronia, caso contrário o projeto falhará.” O que precisamos ? Fonte: Big Data, Big Analytics; Minelli, Chamber, Dhira; Wiley CIO Series, 2013
  24. “Até 2015 serão necessários 4,4 milhões de experts em interpretação

    de dados em larga escala, sendo que 500 mil deles serão para o Brasil”. Cientista de Dados Fonte: Instituto Gartner
  25. Novos Sistemas para Big Data A informação não é um

    conhecimento acionável  Predição • Mineração de dados • Técnicas de aprendizagem de máquina  Desenvolver algoritmos “elásticos” 46 Observations Forecast
  26. Novos Sistemas para Big Data 1 Petabyte = 1000 x

    (1 Terabyte Assumindo 100MB/sec Scanning 1 Terabyte: more than 5 hours Scanning 1 Petabyte: more than 5.000 hours 47 Fonte: Jordi Torres
  27. Novos Sistemas para Big Data  Armazenamento • SSD 

    Processamento • MapReduce  Gerenciamento • NoSQL, NewSQL  Análise • Aprendizagem de máquina • Computação autonômica 48 Fonte: Jordi Torres
  28. Novos Sistemas para Big Data  Lidem com 6 V’s

    do Big Data • Heterogeneidade • Análise de padrões temporais • Processamento em tempo real • Incerteza • Subjetividade • Ambiguidade  Novas tecnologias • Big Data + Cloud  Segurança dos dados • Privacidade
  29. Novos Sistemas para Big Data  Análise para Big Data

    • Alta dimensionalidade dos dados • Acúmulo de outliers • Correlação incorreta dos dados • Alto custo computacional • Necessidade de algoritmos complexos 50
  30. Big Data está acelerando a inovação e melhorando nossas vidas.

    “Data is the new gold” Fonte: ODI European Commission