Big Data

17 de Janeiro de 2015 Big Data 1

Big Data Randy Quindai 2 “É preciso trabalhar duro para
fazer o simples” Steve Jobs

Quem sou eu • Graduando em Engenharia da Computação (UFAL)
• Bolsista do NTI(UFAL) • Bolsista da RIM(Blackberry) • Desenvolvedor de diversos projetos acadêmicos em Java, C++, VB6, HTML5, AngularJS • Membro do GDG Luanda ? f g+ in ? 3

O que é Big Data Volume Velocidade Variedade Veracidade Valor
4

O que é Big Data Variedade Veracidade Valor Velocidade Volumes
extremamente grandes de dados: Em 2007 o Google processava mais de 400PB dados/mês Usuários do facebook produzem mais de 300PB dados/diários Volume 5

O que é Big Data Variedade Veracidade Valor Velocidade Informação
disponível para uso em tempo hábil. Tratamento dos dados em tempo real. Empresas que oferecem esse serviço: Facebook, Amazon, Google Volume 6

O que é Big Data Veracidade Valor Velocidade Dados oriundos
de diversos bancos de dados como PostgreSQL e Oracle. Dados não estruturados oriundos de inúmeras fontes: documentos, vídeos, áudios, imagens, se não forem associados uns aos outros podem se tornar inúteis. Volume Variedade 7

O que é Big Data Valor Velocidade Volume+Velocidade+Variedade de nada
adianta se os dados não são conﬁáveis. Informação não é só poder, informação é patrimônio. Volume Variedade Veracidade 8

O que é Big Data Valor Velocidade Além de qualquer
outro aspecto visto, uma solução de Big Data se tornará inviável se o resultado não trouxer benefícios signiﬁcativos e que compensem o investimento. Volume Variedade Veracidade 9

Big Data Áreas de Aplicação ciência governo saúde social ﬁnanças
transporte ensino 10 algoritmos genéticos

Áreas de Aplicação ciência governo saúde social ﬁnanças transporte ensino
O limite é a sua imaginação 11

Quem Usa 12 • Análise de sentimento no Twitter e
exército de apoiadores no Facebook. • Levantamento de dados de mídia • Alcançar o eleitor na hora certa

Como tudo começou PR(A)=(1-d)+d(PR(T1)/C(T1)+…+PR(Tn)/C(Tn))) Gravar grandes volumes de dados não
estruturados(HTML). Processar as páginas para buscar citações(links). Calcular o PageRank das páginas segundo o número de citações. Criar um mecanismo de busca textual. 13

Como tudo começou 2000 - Jeffrey Dean e Sanjay Ghemawat
(criadores da tecnologia MapReduce) http://research.google.com/archive/mapreduce.html 14 Jeffrey Dean http://research.google.com/ people/jeff/ Sanjay Ghemawat http://research.google.com/ pubs/SanjayGhemawat.html

Como tudo começou • Dez/2002 - Primeira biblioteca MapReduce da
Google. • Out/2003 - Artigo sobre GFS. • Dez/2004 - Artigo sobre MapReduce. • Fev/2006 - Hadoop se torna um projeto oﬁcial da Apache. • Abr/2007 - Yahoo! roda Hadoop em um cluster de 1000 nós. • Jan/2008 - Hadoop se torna no projeto principal da Apache 15

Como tudo começou • 2005 - Cria próprio mecanismo de
busca • Nutch é criado • Mesmos problemas que o Google (máquinas quebram) • Criado o HDFS(Hadoop Distributed File System) • Surge Hbase NoSQL baseado no BigTable da Google 16

Quem Usa 17

Soluções Big Data 18

Soluções Big Data • Elasticidade • No ACID (Atomicidade, Consistência,
Isolamento e Durabilidade) • NoSQL • BASE(Basically available, Soft state, Eventually consistency) 19

Soluções Big Data Bancos de dados NoSQL 20

Soluções Big Data • Open Source • Tolerante a falhas
• Escalável • Processamento paralelo • EMR • Coerência de dados 21

Ecossistema Hadoop 22

Sandbox • Projeto Hortonworks que torna o Hadoop portátil permitindo
rodar no seu computador pessoal de forma simples e ágil. • Possui ﬁns educacionais • Ambiente de virtualização VirtualBox 23

Sandbox • Baixar SandBox http:// hortonworks.com/products/hortonworks- sandbox/#install 24

Sandbox • Baixar Cloudera distribuição linux centOS 6.4 http:// www.cloudera.com/content/cloudera/en/
downloads/quickstart_vms/cdh-5-3-x.html • Pig http://pig.apache.org • Hive https://hive.apache.org 25 vs

Sandbox 26 vs SELECT * FROM Tabela WHERE Campo =
“ABC”; SELECT a.* FROM a JOIN b ON (a.id = b.id) SELECT MARCA, sum(vl_pedido) Valor_Pedidos FROM `default.tb_orders` Group by MARCA ORDER by Valor_Pedidos DESC A = LOAD 'tabela' USING org.apache.hcatalog.pig.HCatLoader(); B = LIMIT A 100; C = FILTER B BY campo1 == 'Teste'; D = FOREACH C GENERATE symbol, date, close; E = DISTINCT D; F = GROUP E BY (campo1, campo2); G = ORDER F BY (campo1, campo2); H = JOIN G BY campo1, F BY campo1; DUMP C; A = LOAD 'default.tb_orders' USING org.apache.hcatalog.pig.HCatLoader(); B = GROUP A BY marca; X = FOREACH B GENERATE group, SUM(A.vl_pedido); DUMP X;

• Links Interessantes: • http://ohundo.tempsite.ws • http://www.cloudera.com/content/cloudera/en/downloads/quickstart_vms/cdh-5-3-x.html • https://www.vagrantup.com/downloads.html •
https://www.hashicorp.com • https://www.virtualbox.org/wiki/Downloads • http://hortonworks.com/hdp/downloads/ • http://mahout.apache.org/ • https://crunch.apache.org/ • http://avro.apache.org/docs/1.7.7/gettingstartedjava.html • http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.html • http://bigtop.apache.org/ Big Data 27 Perguntas

Fim Big Data 28

Big Data

Big Data

Randy Quindai

More Decks by Randy Quindai

Other Decks in Technology

Featured

Transcript

17 de Janeiro de 2015 Big Data 1

Big Data Randy Quindai 2 “É preciso trabalhar duro para

Quem sou eu • Graduando em Engenharia da Computação (UFAL)

O que é Big Data Volume Velocidade Variedade Veracidade Valor

O que é Big Data Variedade Veracidade Valor Velocidade Volumes

O que é Big Data Variedade Veracidade Valor Velocidade Informação

O que é Big Data Veracidade Valor Velocidade Dados oriundos

O que é Big Data Valor Velocidade Volume+Velocidade+Variedade de nada

O que é Big Data Valor Velocidade Além de qualquer

Big Data Áreas de Aplicação ciência governo saúde social ﬁnanças

Áreas de Aplicação ciência governo saúde social ﬁnanças transporte ensino

Quem Usa 12 • Análise de sentimento no Twitter e

Como tudo começou PR(A)=(1-d)+d(PR(T1)/C(T1)+…+PR(Tn)/C(Tn))) Gravar grandes volumes de dados não

Como tudo começou 2000 - Jeffrey Dean e Sanjay Ghemawat

Como tudo começou • Dez/2002 - Primeira biblioteca MapReduce da

Como tudo começou • 2005 - Cria próprio mecanismo de

Quem Usa 17

Soluções Big Data 18

Soluções Big Data • Elasticidade • No ACID (Atomicidade, Consistência,

Soluções Big Data Bancos de dados NoSQL 20

Soluções Big Data • Open Source • Tolerante a falhas

Ecossistema Hadoop 22

Sandbox • Projeto Hortonworks que torna o Hadoop portátil permitindo

Sandbox • Baixar SandBox http:// hortonworks.com/products/hortonworks- sandbox/#install 24

Sandbox • Baixar Cloudera distribuição linux centOS 6.4 http:// www.cloudera.com/content/cloudera/en/

Sandbox 26 vs SELECT * FROM Tabela WHERE Campo =

• Links Interessantes: • http://ohundo.tempsite.ws • http://www.cloudera.com/content/cloudera/en/downloads/quickstart_vms/cdh-5-3-x.html • https://www.vagrantup.com/downloads.html •

Fim Big Data 28