Upgrade to Pro — share decks privately, control downloads, hide ads and more …

O que é Big Data?

O que é Big Data?

Apresentação na XX Semana de Informática da Universidade Federal de Viçosa (http://semanainfo.nobugs.com.br/).

Descrição
Big Data é o termo utilizado para definir dados que não podem ser processados usando os bancos de dados tradicionais, pois são muitos dados, se movendo muito rápido, ou são demasiadamente complexos para as ferramentas de processamento de dados convencionais. Mas agora podemos coletar, integrar e analisar dados de uma forma que não era possível até poucos anos atrás. Encontrar valor em todos estes dados é uma tarefa que demanda técnicas analíticas, além de armazenamento, processamento e tecnologias de integração.

Um estudo feito pela EMC em conjunto com a International Data Corporation (IDC) diz que a quantidade de dados existentes vai saltar de 130 exabytes em 2005 para 40 mil exabytes em 2020. Em valores estimados, 40 mil exabytes é o equivalente a 100 milhões de vezes todos os livros já escritos ou 8 mil vezes a transcrição de todas as palavras já pronunciadas pela raça humana. Dados de 2014 apontam que a cada minuto enviamos mais de 130 milhões de emails, curtimos mais de 1,8 milhões de posts no Facebook e mais de 430 mil tweets são realizados. O Google realiza mais de 1,5 milhões de buscas e o Walmart efetua mais de 16 mil transações a cada minuto.

Além disso, pense em todos os dados de sensores coletados diariamente, em todas as transações de cartão de créditos e nos dados de localização de todos os celulares em uso atualmente. Big Data está começando a transformar a maioria das áreas de negócio, a indústria, a investigação e muitas outras partes de nossas vidas.

Nesta apresentação serão abordados os principais elementos que caracterizam o Big Data, buscando oferecer uma compreensão ampla das tecnologias em uso. Os tópicos serão tratados de forma inter-relacionada e abrangem: NoSQL, Hadoop, MapReduce, Machine Learning, Data Science, Internet of Things, etc. Além disso, será discutido como o Big Data está afetando as nossas vidas, as perspectivas futuras e quais os setores que o estão utilizando. Por fim, será dada uma visão de mercado sobre a crescente demanda de profissionais para trabalharem na área.

Eduardo Miranda

August 07, 2015
Tweet

More Decks by Eduardo Miranda

Other Decks in Technology

Transcript

  1. Agenda - Definições de Big Data - Hadoop - MapReduce

    - Exemplos reais de Big Data - Internet of Things
  2. Big data é a fronteira da habilidade de uma empresa

    em armazenar, processar e acessar todos os dados que ela precisa para operar efetivamente, tomar decisões, reduzir riscos e atender aos clientes. — Forrester
  3. Big data são dados que mesmo quando eficientemente comprimidos ainda

    contêm de 5 a 10 vezes mais informação (...) do que estamos acostumados atualmente. Isso requer uma abordagem diferente para extrair valor. — Vincent Granville Cofundador, Data Science Central
  4. Big data é apenas a habilidade em obter informação e

    consultá-la de forma que possamos aprender coisas sobre o mundo que eram anteriormente inacessíveis para nós. — Hilary Mason Fundadora, Fast Forward Labs
  5. 109 106 Megabyte Gigabyte 1 GB é o espaço necessário

    para armazenar 960 minutos de música
  6. 1012 109 106 Megabyte Gigabyte 1 GB é o espaço

    necessário para armazenar 960 minutos de música Terabyte 1 TB é o espaço necessário para armazenar 310.000 fotos
  7. 1015 1012 109 106 Megabyte Gigabyte 1 GB é o

    espaço necessário para armazenar 960 minutos de música Terabyte 1 TB é o espaço necessário para armazenar 310.000 fotos Petabyte O Grande Colisor de Hádrons de CERN gera 1 PB por segundo
  8. 1018 1015 1012 109 106 Megabyte Gigabyte 1 GB é

    o espaço necessário para armazenar 960 minutos de música Terabyte 1 TB é o espaço necessário para armazenar 310.000 fotos Petabyte O Grande Colisor de Hádrons de CERN gera 1 PB por segundo Exabyte 1 EB é a quantidade de dados criada na internet diariamente
  9. 1021 1018 1015 1012 109 106 Megabyte Gigabyte 1 GB

    é o espaço necessário para armazenar 960 minutos de música Terabyte 1 TB é o espaço necessário para armazenar 310.000 fotos Petabyte O Grande Colisor de Hádrons de CERN gera 1 PB por segundo Exabyte 1 EB é a quantidade de dados criada na internet diariamente Zetabyte 1 GB → 960h de música 1 ZB → 2 bilhões de anos de música
  10. 1024 1021 1018 1015 1012 109 106 Megabyte Gigabyte 1

    GB é o espaço necessário para armazenar 960 minutos de música Terabyte 1 TB é o espaço necessário para armazenar 310.000 fotos Petabyte O Grande Colisor de Hádrons de CERN gera 1 PB por segundo Exabyte 1 EB é a quantidade de dados criada na internet diariamente Zetabyte 1 GB → 960h de música 1 ZB → 2 bilhões de anos de música Yotabyte 250 trilhões de DVDs
  11. 2013 204 milhões de emails 2 milhões de buscas no

    Google 2,5 milhões de posts no Facebook 278.000 tweets 17.000 transações no Walmart
  12. A cada dois dias a humanidade cria mais informações do

    que havia sido criado desde o início da civilização até 2003. Isso é algo em torno de 5 exabytes de dados. — Eric Schmidt Ex-CEO, Google
  13. 5 exabytes de dados são: aproximadamente 12.500 vezes o conteúdo

    de todos os livros já escritos a transcrição de todas as palavras já faladas até hoje!
  14. Estima-se que por volta de 80% de toda informação criada

    e utilizada pelas empresas são compostas por dados não estruturados. Mas o que são dados não estruturados? 1. Tudo o que não está em um SGBD é não estruturado; 2. Se não existe uma forma racional de explicar a estrutura do dado então ele é não estruturado.
  15. Alguns exemplos de dados não estruturados: Dados gerados por computadores

    - Conteúdo de imagens de satélite - Conteúdo de fotos e vídeos - Câmeras de segurança - Dados de radares e sonares Gerados por seres humanos - Conteúdo textual - Conteúdo de documentos, e-mails - Dados de mídias sociais - Post no Twitter, Facebook e LinkedIn. Imagens postadas no Flickr e Instagram. - Dados de celulares - Mensagens de texto e - Dados de GPS - Conteúdo de websites
  16. Em 2003, 3 pesquisadores do Google publicaram o artigo The

    Google File System explicando sobre o sistema de arquivos que eles projetaram e implementaram.
  17. O Google File System (GFS) foi projetado a partir de

    algumas premissas: A falha de componentes é a norma e não a excessão. O GFS consiste de centenas ou milhares de máquinas compostas por peças normais. As falhas podem ocorrer devido bugs das aplicações, erros no sistema operacional, erros humanos, falhas de disco, de memória, dos conectores ou da rede. etc. Os arquivos são tradicionalmente grandes. Arquivos de vários gigabytes são comuns. A maioria dos arquivos são alterados a partir da adição de mais informação ao invés da sobrescrita de informações. Escritas aleatórias nos arquivos praticamente não acontecem. Uma vez escrito os arquivos são apenas lidos e normalmente lidos em sequência.
  18. No primeiro ano de cada cluster, é comum que 1000

    máquinas falhem, milhares de discos rígidos parem de funcionar e uma unidade de distribuição de energia falhe e deixe de 500 a 1000 máquinas inoperantes por até 6 horas. Cada hack irá falhar deixando de 40 a 80 máquinas fora da rede . . . Além disso, ainda existe 50% de chance de superaquecimento desligando a maioria dos servidores em menos de 5 minutos, o que exige de 1 a 2 dias para restaurar. — Jeffrey Dean Pesquisador sênior, Google
  19. Hadoop File System (HDFS) Arquivo com gigabytes ou terabytes de

    dados O HDFS resolveu o problema de armazenamento. Mas ainda existe o problema de processamento.
  20. O HDFS resolveu o problema de armazenamento. Mas ainda existe

    o problema de processamento. os dados são enviados pela rede para serem processados
  21. O HDFS resolveu o problema de armazenamento. Mas ainda existe

    o problema de processamento. os dados são enviados pela rede para serem processados resultado
  22. O HDFS resolveu o problema de armazenamento. Mas ainda existe

    o problema de processamento. os dados são enviados pela rede para serem processados resultado Arquivo de 1 Terabyte rede de 100 Mbit/s demora por volta de 1 dia
  23. O HDFS resolveu o problema de armazenamento. Mas ainda existe

    o problema de processamento. os dados são enviados pela rede para serem processados
  24. O HDFS resolveu o problema de armazenamento. Mas ainda existe

    o problema de processamento. o software que processa os dados é enviado para as máquinas
  25. Em 2004, 2 pesquisadores do Google publicaram o artigo MapReduce:

    Simplified Data Processing on Large Clusters explicando o modelo de programação proposto.
  26. Map Reduce é um modelo de programação para processamento e

    geração de grandes datasets. O programador define uma função de mapeamento (map) que processa um conjunto de dados e gera um conjunto de novos dados de resposta. A função de redução (reduce) concatena as respostas dos mapeamentos.
  27. Os programas escritos neste modelo — Map Reduce — são

    automaticamente paralelizados e executados no cluster. Todos os detalhes de particionamento dos dados de entrada, agendamento de execução dos programas através das máquinas do cluster são controlados por um serviço dedicado. Assim, um programador sem profundos conhecimentos de paralelismo e sistemas distribuídos pode utilizar os recursos de um grande sistema distribuído.
  28. Sensores climáticos coletam dados a cada hora em vários locais

    do planeta e armazenam essa grande quantidade de dados semiestruturados. Exemplo do livro Hadoop: The Definitive Guide, 4th Edition - O'Reilly Media Suponha que todos estes dados estão em um único arquivo no HDFS.
  29. dados de temperatura.txt | National Climatic Data Center (NCDC, http://

    www.ncdc.noaa.gov/) 0067011990999991950051507004...9999999N9+00001+99999999999... 0043011990999991950051512004...9999999N9+00221+99999999999... 0043011990999991950051518004...9999999N9-00111+99999999999... 0043012650999991949032412004...0500001N9+01111+99999999999... 0043012650999991949032418004...0500001N9+00781+99999999999... Exemplo do livro Hadoop: The Definitive Guide, 4th Edition - O'Reilly Media cada linha é um registro
  30. dados de temperatura.txt | National Climatic Data Center (NCDC, http://

    www.ncdc.noaa.gov/) 0067011990999991950051507004...9999999N9+00001+99999999999... 0043011990999991950051512004...9999999N9+00221+99999999999... 0043011990999991950051518004...9999999N9-00111+99999999999... 0043012650999991949032412004...0500001N9+01111+99999999999... 0043012650999991949032418004...0500001N9+00781+99999999999… Exemplo do livro Hadoop: The Definitive Guide, 4th Edition - O'Reilly Media a função map extrai apenas o ano e a temperatura do ar como indicado
  31. dados de temperatura.txt | National Climatic Data Center (NCDC, http://

    www.ncdc.noaa.gov/) 0067011990999991950051507004...9999999N9+00001+99999999999... 0043011990999991950051512004...9999999N9+00221+99999999999... 0043011990999991950051518004...9999999N9-00111+99999999999... 0043012650999991949032412004...0500001N9+01111+99999999999... 0043012650999991949032418004...0500001N9+00781+99999999999… (1950, 0) (1950, 22) (1950, −11) (1949, 111) (1949, 78) Exemplo do livro Hadoop: The Definitive Guide, 4th Edition - O'Reilly Media dados de saída da função map no formato de chave e valor.
  32. dados de temperatura.txt | National Climatic Data Center (NCDC, http://

    www.ncdc.noaa.gov/) (1950, 0) (1950, 22) (1950, −11) (1949, 111) (1949, 78) (1949, [111, 78]) (1950, [0, 22, −11]) Exemplo do livro Hadoop: The Definitive Guide, 4th Edition - O'Reilly Media antes de enviar os dados para a função reduce os resultados da função map são ordenados e agrupados pela chave.
  33. dados de temperatura.txt | National Climatic Data Center (NCDC, http://

    www.ncdc.noaa.gov/) (1950, 0) (1950, 22) (1950, −11) (1949, 111) (1949, 78) (1949, [111, 78]) (1950, [0, 22, −11]) (1949, 111) (1950, 22) Exemplo do livro Hadoop: The Definitive Guide, 4th Edition - O'Reilly Media após o processamento os dados são enviados para a função reduce. a única coisa que a função reduce tem que fazer é percorrer a lista de cada ano e selecionar a maior temperatura
  34. Exemplo do livro Hadoop: The Definitive Guide, 4th Edition -

    O'Reilly Media d0 d1 d2 d3 d4 d5 d6 d7 d8
  35. Exemplo do livro Hadoop: The Definitive Guide, 4th Edition -

    O'Reilly Media d0 d1 d2 d3 d4 d5 d6 d7 d8 map map map
  36. Exemplo do livro Hadoop: The Definitive Guide, 4th Edition -

    O'Reilly Media d0 d1 d2 d3 d4 d5 d6 d7 d8 resultado map resultado map resultado map map map map
  37. Exemplo do livro Hadoop: The Definitive Guide, 4th Edition -

    O'Reilly Media d0 d1 d2 d3 d4 d5 d6 d7 d8 resultado map resultado map resultado map map map map
  38. Exemplo do livro Hadoop: The Definitive Guide, 4th Edition -

    O'Reilly Media d0 d1 d2 d3 d4 d5 d6 d7 d8 resultado map resultado map resultado map map map map
  39. Exemplo do livro Hadoop: The Definitive Guide, 4th Edition -

    O'Reilly Media d0 d1 d2 d3 d4 d5 d6 d7 d8 resultado map resultado map resultado map map map map reduce
  40. Exemplo do livro Hadoop: The Definitive Guide, 4th Edition -

    O'Reilly Media d0 d1 d2 d3 d4 d5 d6 d7 d8 resultado map resultado map resultado map resultado map map map reduce
  41. Dados de setembro de 2014 apontavam que o Yahoo! possuía

    o maior cluster rodando Hadoop com 4500 nós. O Yahoo! no total possuí: - mais de 100.000 CPUs - em mais de 40.000 computadores rodando Hadoop - com capacidade total de armazenamento de 455 Petabytes de dados.
  42. Hipótese Pergunta Dados Resposta Mudança de paradigma com o Big

    Data Abordagem Big Data Abordagem tradicional Dados Exploração dos dados Correlações Insights
  43. A ideia é que ao invés de termos times de

    pesquisadores tentando encontrar correlações, você envia uma tonelada de dados para o algoritmo e deixa os dados falarem por sí só e deixa o software aprender a partir dos dados. — Andrew Ng. Cofundador do Coursera, Professor associado em Stanford, Cientista chefe do Baidu.
  44. Como a maioria das grandes redes, o Walmart utiliza os

    dados meteorológicos para alavancar as vendas de produtos relacionados com o clima fazendo a divulgação de guarda- chuvas, capa de chuva ou pá de neves antes da ocorrência de eventos climáticos.
  45. Como a maioria das grandes redes, o Walmart utiliza os

    dados meteorológicos para alavancar as vendas de produtos relacionados com o clima fazendo a divulgação de guarda- chuvas, capa de chuva ou pá de neves antes da ocorrência de eventos climáticos. Em parceria com Weather Co. eles começaram a encontrar correlações inesperadas entre as condições climáticas e as vendas nas lojas.
  46. Quando o dia está quente com ventos fortes e sem

    chuvas as pessoas estão mais propensas a comer carne.
  47. Eles descobriram também que em dias com temperatura abaixo 26°C

    são ideais para venda de frutas vermellhas. Depois de descobrir esta correlação, o Walmart começou a divulgar frutas vermellhas nos displays digitais das lojas que apresentam esta condição climática e as vendas triplicam.
  48. O mesmo ocorre com a venda de saladas. Em dias

    com temperaturas próximas a 26°C e ventos fracos, eles obtivem uma melhora de 18% na venda de saladas simplismente alterando a propaganda dentro das lojas.
  49. Embora eventos futuros tenham circunstâncias únicas, eles normalmente seguem padrões

    familiares que já ocorreram. Os avanços na computação, armazenamento de dados e algoritmos permitem que esses padrões possam ser encontrados. — Kira Radinsky CTO e cofundadora da SalesPredict
  50. Dra. Kira Radinsky e sua equipe desenvolveram um algoritmo que

    com um alto índice de acurácia previu o primeiro surto de cólera em 130 anos. O algoritmo inferiu um padrão onde o surto de cólera em áreas sem litoral possuem maior tendência de ocorrer após tempestades, especialmente onde houve uma grande seca 2 anos antes. Este padrão apenas acontece em países com baixo PIB e que possuem pouca concentração de água.
  51. O algoritmo também previu os motins da Síria e Sudão

    e a localização dos motins percebendo que motins possuem maiores changes de aconter em regiões não democráticas com um PIB em crescimento mas ainda com baixa renda per capta quando o preço de um produto subsidiado aumenta, causando motins de estudantes e confrontos com a polícia. O algoritmo também é capaz de prever genocídios. Como isso é possível?
  52. Bibliotecas digitais enciclopedias Redes sociais milhões de buscas on-line 150

    anos de artigos The New York Times Toda a Wikipedia + + + O sistema desenvolvido por mais de 8 anos captura dados:
  53. O HealthMap busca informações na Organização mundial da saúde, relatórios

    do centro de controle de doenças, agências de saúde pública, listas de email, Twitter, Google news e outras fontes. 9 dias antes da Organização mundial da saúde emitiu sua primeira declaração pública sobre o surto.
  54. Big Data em geral é definida como alto volume, velocidade

    e variedade de informação que demandam formas eficazes, inovadoras e de baixo custo para processamento de informação a fim de aumentar os insights e melhorar na tomada de decisões. — Gartner
  55. Referências What Is Big Data? | datascience@berkeley Blog http://datascience.berkeley.edu/what-is-big-data/ Eric

    Schmidt at Techonomy https://youtu.be/UAcCIsrAq70 Visual Networking Index IP Traffic Chart http://www.cisco. com/assets/cdc_content_elements/networking_solutions/service_pro vider/visual_networking_ip_traffic_chart.html What happens online in 60 seconds? [Infographic] http://blog.qmee.com/qmee-online-in-60-seconds/ Online in 60 seconds [Infographic] – A Year Later http://blog.qmee.com/online-in-60-seconds-infographic-a-year-later/ A Very Short History Of Big Data http://www.forbes.com/sites/gilpress/2013/05/09/a-very-short- history-of-big-data/ Microsoft Azure Essentials Azure Machine Learning http://blogs.msdn.com/b/microsoft_press/archive/2015/04/15/free- ebook-microsoft-azure-essentials-azure-machine-learning.aspx What is big data? http://www.slideshare.net/dwellman/what-is-big-data-24401517 IBM: Turning Big Data into Big Insights http://www.slideshare.net/ibmcanada/ibm-turning-big-data-into-big- insights Cloudy With a Chance of Meatballs: How Weather Forecast Predicts Walmart's Sales Outlook http://adage.com/article/dataworks/weather-forecast-predicts-sales- outlook-walmart/295544/ HP Information Optimization Press Conference http://www.hp. com/hpinfo/newsroom/press_kits/2012/HPDiscoverFrankfurt2012/HPInf ormationOptimization_PressConferencePresentation.pdf Cisco's VNI Forecast Projects the Internet Will Be Four Times as Large in Four Years http://newsroom.cisco.com/press-release-content? type=webcontent&articleId=888280 HDFS Architecture Guide http://hadoop.apache.org/docs/r1.2.1/hdfs_design.html The Google File System http://static.googleusercontent.com/media/research.google.com/pt- BR//archive/gfs-sosp2003.pdf MapReduce: Simplified Data Processing on Large Clusters http://static.googleusercontent.com/media/research.google.com/pt- BR//archive/mapreduce-osdi04.pdf Google spotlights data center inner workings http://www.cnet.com/news/google-spotlights-data-center-inner- workings/
  56. Microsoft now has one million servers – less than Google,

    but more than Amazon, says Ballmer http://www.extremetech.com/extreme/161772-microsoft-now-has-one- million-servers-less-than-google-but-more-than-amazon-says-ballmer Hadoop: The Definitive Guide, 4th Edition - O'Reilly Media Apply new analytics tools to reveal new opportunities http://www.ibm. com/smarterplanet/us/en/business_analytics/article/it_business_intell igence.html The Digital Universe of Opportunities: Rich Data and the Increasing Value of the Internet of Things http://www.emc.com/leadership/digital-universe/2014iview/executive- summary.htm Untangling the Definition of Unstructured Data http://www.ibmbigdatahub.com/blog/untangling-definition- unstructured-data How A Computer Algorithm Predicted West Africa’s Ebola Outbreak Before It Was Announced https://publichealthwatch.wordpress.com/2014/08/10/how-a- computer-algorithm-predicted-west-africas-ebola-outbreak-before-it- was-announced/ How Dr. Kira Radinsky used algorithms to predict riots in Egypt http://www.haaretz.com/weekend/magazine/.premium-1.554263 Referências 5v big data: entenda a estrutura dos grandes dados http://datastorm.com.br/5v-big-data-estrutura/ Addressing Data Volume, Velocity, and Variety with IBM InfoSphere Streams V3.0 http://www.redbooks.ibm.com/redbooks/pdfs/sg248108.pdf 84% Of Enterprises See Big Data Analytics Changing Their Industries' Competitive Landscapes In The Next Year http://www.forbes.com/sites/louiscolumbus/2014/10/19/84-of- enterprises-see-big-data-analytics-changing-their-industries- competitive-landscapes-in-the-next-year/ Using Algorithms to Predict the Next Outbreak https://hbr.org/2014/11/using-algorithms-to-predict-the-next-outbreak IBM Watson Hard At Work: New Breakthroughs Transform Quality Care for Patients http://www-03.ibm.com/press/us/en/pressrelease/40335.wss Volume, Velocity, Variety: What You Need to Know About Big Data http://www.forbes.com/sites/oreillymedia/2012/01/19/volume-velocity- variety-what-you-need-to-know-about-big-data Teaching IBM's Watson the meaning of 'OMG' http://fortune.com/2013/01/07/teaching-ibms-watson-the-meaning-of- omg/
  57. Why the world's largest Hadoop installation may soon become the

    norm http://www.techrepublic.com/article/why-the-worlds-largest-hadoop- installation-may-soon-become-the-norm/ Referências