Slide 1

Slide 1 text

Eduardo Miranda XX Semana de Informática Universidade Federal de Viçosa Big Data

Slide 2

Slide 2 text

Agenda - Definições de Big Data - Hadoop - MapReduce - Exemplos reais de Big Data - Internet of Things

Slide 3

Slide 3 text

Big data é a fronteira da habilidade de uma empresa em armazenar, processar e acessar todos os dados que ela precisa para operar efetivamente, tomar decisões, reduzir riscos e atender aos clientes. — Forrester

Slide 4

Slide 4 text

Big data são dados que mesmo quando eficientemente comprimidos ainda contêm de 5 a 10 vezes mais informação (...) do que estamos acostumados atualmente. Isso requer uma abordagem diferente para extrair valor. — Vincent Granville Cofundador, Data Science Central

Slide 5

Slide 5 text

Big data é apenas a habilidade em obter informação e consultá-la de forma que possamos aprender coisas sobre o mundo que eram anteriormente inacessíveis para nós. — Hilary Mason Fundadora, Fast Forward Labs

Slide 6

Slide 6 text

No content

Slide 7

Slide 7 text

106 Megabyte

Slide 8

Slide 8 text

109 106 Megabyte Gigabyte 1 GB é o espaço necessário para armazenar 960 minutos de música

Slide 9

Slide 9 text

1012 109 106 Megabyte Gigabyte 1 GB é o espaço necessário para armazenar 960 minutos de música Terabyte 1 TB é o espaço necessário para armazenar 310.000 fotos

Slide 10

Slide 10 text

1015 1012 109 106 Megabyte Gigabyte 1 GB é o espaço necessário para armazenar 960 minutos de música Terabyte 1 TB é o espaço necessário para armazenar 310.000 fotos Petabyte O Grande Colisor de Hádrons de CERN gera 1 PB por segundo

Slide 11

Slide 11 text

1018 1015 1012 109 106 Megabyte Gigabyte 1 GB é o espaço necessário para armazenar 960 minutos de música Terabyte 1 TB é o espaço necessário para armazenar 310.000 fotos Petabyte O Grande Colisor de Hádrons de CERN gera 1 PB por segundo Exabyte 1 EB é a quantidade de dados criada na internet diariamente

Slide 12

Slide 12 text

1021 1018 1015 1012 109 106 Megabyte Gigabyte 1 GB é o espaço necessário para armazenar 960 minutos de música Terabyte 1 TB é o espaço necessário para armazenar 310.000 fotos Petabyte O Grande Colisor de Hádrons de CERN gera 1 PB por segundo Exabyte 1 EB é a quantidade de dados criada na internet diariamente Zetabyte 1 GB → 960h de música 1 ZB → 2 bilhões de anos de música

Slide 13

Slide 13 text

1024 1021 1018 1015 1012 109 106 Megabyte Gigabyte 1 GB é o espaço necessário para armazenar 960 minutos de música Terabyte 1 TB é o espaço necessário para armazenar 310.000 fotos Petabyte O Grande Colisor de Hádrons de CERN gera 1 PB por segundo Exabyte 1 EB é a quantidade de dados criada na internet diariamente Zetabyte 1 GB → 960h de música 1 ZB → 2 bilhões de anos de música Yotabyte 250 trilhões de DVDs

Slide 14

Slide 14 text

O universo digital 4,4 Zetabytes 2013 44 Zetabytes 2020

Slide 15

Slide 15 text

O universo digital 4,4 Zetabytes 2013 44 Zetabytes 2020 44 trilhões de gigabytes =

Slide 16

Slide 16 text

2013 204 milhões de emails 2 milhões de buscas no Google 2,5 milhões de posts no Facebook 278.000 tweets 17.000 transações no Walmart

Slide 17

Slide 17 text

A cada dois dias a humanidade cria mais informações do que havia sido criado desde o início da civilização até 2003. Isso é algo em torno de 5 exabytes de dados. — Eric Schmidt Ex-CEO, Google

Slide 18

Slide 18 text

5 exabytes de dados são: aproximadamente 12.500 vezes o conteúdo de todos os livros já escritos

Slide 19

Slide 19 text

5 exabytes de dados são: aproximadamente 12.500 vezes o conteúdo de todos os livros já escritos a transcrição de todas as palavras já faladas até hoje!

Slide 20

Slide 20 text

Estima-se que por volta de 80% de toda informação criada e utilizada pelas empresas são compostas por dados não estruturados. Mas o que são dados não estruturados? 1. Tudo o que não está em um SGBD é não estruturado; 2. Se não existe uma forma racional de explicar a estrutura do dado então ele é não estruturado.

Slide 21

Slide 21 text

Alguns exemplos de dados não estruturados: Dados gerados por computadores - Conteúdo de imagens de satélite - Conteúdo de fotos e vídeos - Câmeras de segurança - Dados de radares e sonares Gerados por seres humanos - Conteúdo textual - Conteúdo de documentos, e-mails - Dados de mídias sociais - Post no Twitter, Facebook e LinkedIn. Imagens postadas no Flickr e Instagram. - Dados de celulares - Mensagens de texto e - Dados de GPS - Conteúdo de websites

Slide 22

Slide 22 text

onde todos estes Dados estão armazenados?

Slide 23

Slide 23 text

google.com/datacenters

Slide 24

Slide 24 text

google.com/datacenters

Slide 25

Slide 25 text

Datacenter Microsoft em San Antonio, Texas

Slide 26

Slide 26 text

Em 2003, 3 pesquisadores do Google publicaram o artigo The Google File System explicando sobre o sistema de arquivos que eles projetaram e implementaram.

Slide 27

Slide 27 text

O Google File System (GFS) foi projetado a partir de algumas premissas: A falha de componentes é a norma e não a excessão. O GFS consiste de centenas ou milhares de máquinas compostas por peças normais. As falhas podem ocorrer devido bugs das aplicações, erros no sistema operacional, erros humanos, falhas de disco, de memória, dos conectores ou da rede. etc. Os arquivos são tradicionalmente grandes. Arquivos de vários gigabytes são comuns. A maioria dos arquivos são alterados a partir da adição de mais informação ao invés da sobrescrita de informações. Escritas aleatórias nos arquivos praticamente não acontecem. Uma vez escrito os arquivos são apenas lidos e normalmente lidos em sequência.

Slide 28

Slide 28 text

No primeiro ano de cada cluster, é comum que 1000 máquinas falhem, milhares de discos rígidos parem de funcionar e uma unidade de distribuição de energia falhe e deixe de 500 a 1000 máquinas inoperantes por até 6 horas. Cada hack irá falhar deixando de 40 a 80 máquinas fora da rede . . . Além disso, ainda existe 50% de chance de superaquecimento desligando a maioria dos servidores em menos de 5 minutos, o que exige de 1 a 2 dias para restaurar. — Jeffrey Dean Pesquisador sênior, Google

Slide 29

Slide 29 text

Hadoop

Slide 30

Slide 30 text

Hadoop File System (HDFS) Arquivo com gigabytes ou terabytes de dados Super computador

Slide 31

Slide 31 text

Hadoop File System (HDFS) Arquivo com gigabytes ou terabytes de dados

Slide 32

Slide 32 text

Hadoop File System (HDFS) Arquivo com gigabytes ou terabytes de dados O HDFS resolveu o problema de armazenamento. Mas ainda existe o problema de processamento.

Slide 33

Slide 33 text

O HDFS resolveu o problema de armazenamento. Mas ainda existe o problema de processamento.

Slide 34

Slide 34 text

O HDFS resolveu o problema de armazenamento. Mas ainda existe o problema de processamento. os dados são enviados pela rede para serem processados

Slide 35

Slide 35 text

O HDFS resolveu o problema de armazenamento. Mas ainda existe o problema de processamento. os dados são enviados pela rede para serem processados resultado

Slide 36

Slide 36 text

O HDFS resolveu o problema de armazenamento. Mas ainda existe o problema de processamento. os dados são enviados pela rede para serem processados resultado Arquivo de 1 Terabyte rede de 100 Mbit/s demora por volta de 1 dia

Slide 37

Slide 37 text

O HDFS resolveu o problema de armazenamento. Mas ainda existe o problema de processamento. os dados são enviados pela rede para serem processados

Slide 38

Slide 38 text

O HDFS resolveu o problema de armazenamento. Mas ainda existe o problema de processamento. o software que processa os dados é enviado para as máquinas

Slide 39

Slide 39 text

o modelo de programação MapReduce

Slide 40

Slide 40 text

Em 2004, 2 pesquisadores do Google publicaram o artigo MapReduce: Simplified Data Processing on Large Clusters explicando o modelo de programação proposto.

Slide 41

Slide 41 text

Map Reduce é um modelo de programação para processamento e geração de grandes datasets. O programador define uma função de mapeamento (map) que processa um conjunto de dados e gera um conjunto de novos dados de resposta. A função de redução (reduce) concatena as respostas dos mapeamentos.

Slide 42

Slide 42 text

Os programas escritos neste modelo — Map Reduce — são automaticamente paralelizados e executados no cluster. Todos os detalhes de particionamento dos dados de entrada, agendamento de execução dos programas através das máquinas do cluster são controlados por um serviço dedicado. Assim, um programador sem profundos conhecimentos de paralelismo e sistemas distribuídos pode utilizar os recursos de um grande sistema distribuído.

Slide 43

Slide 43 text

exemplo de MapReduce

Slide 44

Slide 44 text

Sensores climáticos coletam dados a cada hora em vários locais do planeta e armazenam essa grande quantidade de dados semiestruturados. Exemplo do livro Hadoop: The Definitive Guide, 4th Edition - O'Reilly Media Suponha que todos estes dados estão em um único arquivo no HDFS.

Slide 45

Slide 45 text

dados de temperatura.txt | National Climatic Data Center (NCDC, http:// www.ncdc.noaa.gov/) 0067011990999991950051507004...9999999N9+00001+99999999999... 0043011990999991950051512004...9999999N9+00221+99999999999... 0043011990999991950051518004...9999999N9-00111+99999999999... 0043012650999991949032412004...0500001N9+01111+99999999999... 0043012650999991949032418004...0500001N9+00781+99999999999... Exemplo do livro Hadoop: The Definitive Guide, 4th Edition - O'Reilly Media cada linha é um registro

Slide 46

Slide 46 text

dados de temperatura.txt | National Climatic Data Center (NCDC, http:// www.ncdc.noaa.gov/) 0067011990999991950051507004...9999999N9+00001+99999999999... 0043011990999991950051512004...9999999N9+00221+99999999999... 0043011990999991950051518004...9999999N9-00111+99999999999... 0043012650999991949032412004...0500001N9+01111+99999999999... 0043012650999991949032418004...0500001N9+00781+99999999999… Exemplo do livro Hadoop: The Definitive Guide, 4th Edition - O'Reilly Media a função map extrai apenas o ano e a temperatura do ar como indicado

Slide 47

Slide 47 text

dados de temperatura.txt | National Climatic Data Center (NCDC, http:// www.ncdc.noaa.gov/) 0067011990999991950051507004...9999999N9+00001+99999999999... 0043011990999991950051512004...9999999N9+00221+99999999999... 0043011990999991950051518004...9999999N9-00111+99999999999... 0043012650999991949032412004...0500001N9+01111+99999999999... 0043012650999991949032418004...0500001N9+00781+99999999999… (1950, 0) (1950, 22) (1950, −11) (1949, 111) (1949, 78) Exemplo do livro Hadoop: The Definitive Guide, 4th Edition - O'Reilly Media dados de saída da função map no formato de chave e valor.

Slide 48

Slide 48 text

dados de temperatura.txt | National Climatic Data Center (NCDC, http:// www.ncdc.noaa.gov/) (1950, 0) (1950, 22) (1950, −11) (1949, 111) (1949, 78) (1949, [111, 78]) (1950, [0, 22, −11]) Exemplo do livro Hadoop: The Definitive Guide, 4th Edition - O'Reilly Media antes de enviar os dados para a função reduce os resultados da função map são ordenados e agrupados pela chave.

Slide 49

Slide 49 text

dados de temperatura.txt | National Climatic Data Center (NCDC, http:// www.ncdc.noaa.gov/) (1950, 0) (1950, 22) (1950, −11) (1949, 111) (1949, 78) (1949, [111, 78]) (1950, [0, 22, −11]) (1949, 111) (1950, 22) Exemplo do livro Hadoop: The Definitive Guide, 4th Edition - O'Reilly Media após o processamento os dados são enviados para a função reduce. a única coisa que a função reduce tem que fazer é percorrer a lista de cada ano e selecionar a maior temperatura

Slide 50

Slide 50 text

Exemplo do livro Hadoop: The Definitive Guide, 4th Edition - O'Reilly Media d0 d1 d2 d3 d4 d5 d6 d7 d8

Slide 51

Slide 51 text

Exemplo do livro Hadoop: The Definitive Guide, 4th Edition - O'Reilly Media d0 d1 d2 d3 d4 d5 d6 d7 d8 map map map

Slide 52

Slide 52 text

Exemplo do livro Hadoop: The Definitive Guide, 4th Edition - O'Reilly Media d0 d1 d2 d3 d4 d5 d6 d7 d8 resultado map resultado map resultado map map map map

Slide 53

Slide 53 text

Exemplo do livro Hadoop: The Definitive Guide, 4th Edition - O'Reilly Media d0 d1 d2 d3 d4 d5 d6 d7 d8 resultado map resultado map resultado map map map map

Slide 54

Slide 54 text

Exemplo do livro Hadoop: The Definitive Guide, 4th Edition - O'Reilly Media d0 d1 d2 d3 d4 d5 d6 d7 d8 resultado map resultado map resultado map map map map

Slide 55

Slide 55 text

Exemplo do livro Hadoop: The Definitive Guide, 4th Edition - O'Reilly Media d0 d1 d2 d3 d4 d5 d6 d7 d8 resultado map resultado map resultado map map map map reduce

Slide 56

Slide 56 text

Exemplo do livro Hadoop: The Definitive Guide, 4th Edition - O'Reilly Media d0 d1 d2 d3 d4 d5 d6 d7 d8 resultado map resultado map resultado map resultado map map map reduce

Slide 57

Slide 57 text

Flexível Tolerante a falhas Escalável Baixo custo Vantagens do Hadoop

Slide 58

Slide 58 text

Ecosistema Hadoop pig hive spark mahout zookeeper oozie solr hbase

Slide 59

Slide 59 text

Dados de setembro de 2014 apontavam que o Yahoo! possuía o maior cluster rodando Hadoop com 4500 nós. O Yahoo! no total possuí: - mais de 100.000 CPUs - em mais de 40.000 computadores rodando Hadoop - com capacidade total de armazenamento de 455 Petabytes de dados.

Slide 60

Slide 60 text

Mudança de paradigma com o Big Data Abordagem tradicional

Slide 61

Slide 61 text

Mudança de paradigma com o Big Data Abordagem tradicional Abordagem Big Data

Slide 62

Slide 62 text

Hipótese Pergunta Dados Resposta Mudança de paradigma com o Big Data Abordagem tradicional

Slide 63

Slide 63 text

Hipótese Pergunta Dados Resposta Mudança de paradigma com o Big Data Abordagem Big Data Abordagem tradicional Dados Exploração dos dados Correlações Insights

Slide 64

Slide 64 text

A ideia é que ao invés de termos times de pesquisadores tentando encontrar correlações, você envia uma tonelada de dados para o algoritmo e deixa os dados falarem por sí só e deixa o software aprender a partir dos dados. — Andrew Ng. Cofundador do Coursera, Professor associado em Stanford, Cientista chefe do Baidu.

Slide 65

Slide 65 text

mas Big data não se trata apenas de volume e variedade dos dados

Slide 66

Slide 66 text

nós precisamos entregar valor

Slide 67

Slide 67 text

No content

Slide 68

Slide 68 text

Como a maioria das grandes redes, o Walmart utiliza os dados meteorológicos para alavancar as vendas de produtos relacionados com o clima fazendo a divulgação de guarda- chuvas, capa de chuva ou pá de neves antes da ocorrência de eventos climáticos.

Slide 69

Slide 69 text

Como a maioria das grandes redes, o Walmart utiliza os dados meteorológicos para alavancar as vendas de produtos relacionados com o clima fazendo a divulgação de guarda- chuvas, capa de chuva ou pá de neves antes da ocorrência de eventos climáticos. Em parceria com Weather Co. eles começaram a encontrar correlações inesperadas entre as condições climáticas e as vendas nas lojas.

Slide 70

Slide 70 text

Quando o dia está quente com ventos fortes e sem chuvas as pessoas estão mais propensas a comer carne.

Slide 71

Slide 71 text

Eles descobriram também que em dias com temperatura abaixo 26°C são ideais para venda de frutas vermellhas. Depois de descobrir esta correlação, o Walmart começou a divulgar frutas vermellhas nos displays digitais das lojas que apresentam esta condição climática e as vendas triplicam.

Slide 72

Slide 72 text

O mesmo ocorre com a venda de saladas. Em dias com temperaturas próximas a 26°C e ventos fracos, eles obtivem uma melhora de 18% na venda de saladas simplismente alterando a propaganda dentro das lojas.

Slide 73

Slide 73 text

mapeando o passado para prever o futuro

Slide 74

Slide 74 text

Embora eventos futuros tenham circunstâncias únicas, eles normalmente seguem padrões familiares que já ocorreram. Os avanços na computação, armazenamento de dados e algoritmos permitem que esses padrões possam ser encontrados. — Kira Radinsky CTO e cofundadora da SalesPredict

Slide 75

Slide 75 text

Dra. Kira Radinsky e sua equipe desenvolveram um algoritmo que com um alto índice de acurácia previu o primeiro surto de cólera em 130 anos. O algoritmo inferiu um padrão onde o surto de cólera em áreas sem litoral possuem maior tendência de ocorrer após tempestades, especialmente onde houve uma grande seca 2 anos antes. Este padrão apenas acontece em países com baixo PIB e que possuem pouca concentração de água.

Slide 76

Slide 76 text

O algoritmo também previu os motins da Síria e Sudão e a localização dos motins percebendo que motins possuem maiores changes de aconter em regiões não democráticas com um PIB em crescimento mas ainda com baixa renda per capta quando o preço de um produto subsidiado aumenta, causando motins de estudantes e confrontos com a polícia. O algoritmo também é capaz de prever genocídios. Como isso é possível?

Slide 77

Slide 77 text

Bibliotecas digitais enciclopedias Redes sociais milhões de buscas on-line 150 anos de artigos The New York Times Toda a Wikipedia + + + O sistema desenvolvido por mais de 8 anos captura dados:

Slide 78

Slide 78 text

No content

Slide 79

Slide 79 text

O HealthMap busca informações na Organização mundial da saúde, relatórios do centro de controle de doenças, agências de saúde pública, listas de email, Twitter, Google news e outras fontes. 9 dias antes da Organização mundial da saúde emitiu sua primeira declaração pública sobre o surto.

Slide 80

Slide 80 text

No content

Slide 81

Slide 81 text

No content

Slide 82

Slide 82 text

No content

Slide 83

Slide 83 text

Big Data em geral é definida como alto volume, velocidade e variedade de informação que demandam formas eficazes, inovadoras e de baixo custo para processamento de informação a fim de aumentar os insights e melhorar na tomada de decisões. — Gartner

Slide 84

Slide 84 text

dúvidas www.emiranda.com.br twitter.com/eduardodpm speakerdeck.com/emiranda/o-que-e-big-data

Slide 85

Slide 85 text

Referências What Is Big Data? | datascience@berkeley Blog http://datascience.berkeley.edu/what-is-big-data/ Eric Schmidt at Techonomy https://youtu.be/UAcCIsrAq70 Visual Networking Index IP Traffic Chart http://www.cisco. com/assets/cdc_content_elements/networking_solutions/service_pro vider/visual_networking_ip_traffic_chart.html What happens online in 60 seconds? [Infographic] http://blog.qmee.com/qmee-online-in-60-seconds/ Online in 60 seconds [Infographic] – A Year Later http://blog.qmee.com/online-in-60-seconds-infographic-a-year-later/ A Very Short History Of Big Data http://www.forbes.com/sites/gilpress/2013/05/09/a-very-short- history-of-big-data/ Microsoft Azure Essentials Azure Machine Learning http://blogs.msdn.com/b/microsoft_press/archive/2015/04/15/free- ebook-microsoft-azure-essentials-azure-machine-learning.aspx What is big data? http://www.slideshare.net/dwellman/what-is-big-data-24401517 IBM: Turning Big Data into Big Insights http://www.slideshare.net/ibmcanada/ibm-turning-big-data-into-big- insights Cloudy With a Chance of Meatballs: How Weather Forecast Predicts Walmart's Sales Outlook http://adage.com/article/dataworks/weather-forecast-predicts-sales- outlook-walmart/295544/ HP Information Optimization Press Conference http://www.hp. com/hpinfo/newsroom/press_kits/2012/HPDiscoverFrankfurt2012/HPInf ormationOptimization_PressConferencePresentation.pdf Cisco's VNI Forecast Projects the Internet Will Be Four Times as Large in Four Years http://newsroom.cisco.com/press-release-content? type=webcontent&articleId=888280 HDFS Architecture Guide http://hadoop.apache.org/docs/r1.2.1/hdfs_design.html The Google File System http://static.googleusercontent.com/media/research.google.com/pt- BR//archive/gfs-sosp2003.pdf MapReduce: Simplified Data Processing on Large Clusters http://static.googleusercontent.com/media/research.google.com/pt- BR//archive/mapreduce-osdi04.pdf Google spotlights data center inner workings http://www.cnet.com/news/google-spotlights-data-center-inner- workings/

Slide 86

Slide 86 text

Microsoft now has one million servers – less than Google, but more than Amazon, says Ballmer http://www.extremetech.com/extreme/161772-microsoft-now-has-one- million-servers-less-than-google-but-more-than-amazon-says-ballmer Hadoop: The Definitive Guide, 4th Edition - O'Reilly Media Apply new analytics tools to reveal new opportunities http://www.ibm. com/smarterplanet/us/en/business_analytics/article/it_business_intell igence.html The Digital Universe of Opportunities: Rich Data and the Increasing Value of the Internet of Things http://www.emc.com/leadership/digital-universe/2014iview/executive- summary.htm Untangling the Definition of Unstructured Data http://www.ibmbigdatahub.com/blog/untangling-definition- unstructured-data How A Computer Algorithm Predicted West Africa’s Ebola Outbreak Before It Was Announced https://publichealthwatch.wordpress.com/2014/08/10/how-a- computer-algorithm-predicted-west-africas-ebola-outbreak-before-it- was-announced/ How Dr. Kira Radinsky used algorithms to predict riots in Egypt http://www.haaretz.com/weekend/magazine/.premium-1.554263 Referências 5v big data: entenda a estrutura dos grandes dados http://datastorm.com.br/5v-big-data-estrutura/ Addressing Data Volume, Velocity, and Variety with IBM InfoSphere Streams V3.0 http://www.redbooks.ibm.com/redbooks/pdfs/sg248108.pdf 84% Of Enterprises See Big Data Analytics Changing Their Industries' Competitive Landscapes In The Next Year http://www.forbes.com/sites/louiscolumbus/2014/10/19/84-of- enterprises-see-big-data-analytics-changing-their-industries- competitive-landscapes-in-the-next-year/ Using Algorithms to Predict the Next Outbreak https://hbr.org/2014/11/using-algorithms-to-predict-the-next-outbreak IBM Watson Hard At Work: New Breakthroughs Transform Quality Care for Patients http://www-03.ibm.com/press/us/en/pressrelease/40335.wss Volume, Velocity, Variety: What You Need to Know About Big Data http://www.forbes.com/sites/oreillymedia/2012/01/19/volume-velocity- variety-what-you-need-to-know-about-big-data Teaching IBM's Watson the meaning of 'OMG' http://fortune.com/2013/01/07/teaching-ibms-watson-the-meaning-of- omg/

Slide 87

Slide 87 text

Why the world's largest Hadoop installation may soon become the norm http://www.techrepublic.com/article/why-the-worlds-largest-hadoop- installation-may-soon-become-the-norm/ Referências