Slide 1

Slide 1 text

17 de Janeiro de 2015 Big Data 1

Slide 2

Slide 2 text

Big Data Randy Quindai 2 “É preciso trabalhar duro para fazer o simples” Steve Jobs

Slide 3

Slide 3 text

Quem sou eu • Graduando em Engenharia da Computação (UFAL) • Bolsista do NTI(UFAL) • Bolsista da RIM(Blackberry) • Desenvolvedor de diversos projetos acadêmicos em Java, C++, VB6, HTML5, AngularJS • Membro do GDG Luanda ? f g+ in ? 3

Slide 4

Slide 4 text

O que é Big Data Volume Velocidade Variedade Veracidade Valor 4

Slide 5

Slide 5 text

O que é Big Data Variedade Veracidade Valor Velocidade Volumes extremamente grandes de dados: Em 2007 o Google processava mais de 400PB dados/mês Usuários do facebook produzem mais de 300PB dados/diários Volume 5

Slide 6

Slide 6 text

O que é Big Data Variedade Veracidade Valor Velocidade Informação disponível para uso em tempo hábil. Tratamento dos dados em tempo real. Empresas que oferecem esse serviço: Facebook, Amazon, Google Volume 6

Slide 7

Slide 7 text

O que é Big Data Veracidade Valor Velocidade Dados oriundos de diversos bancos de dados como PostgreSQL e Oracle. Dados não estruturados oriundos de inúmeras fontes: documentos, vídeos, áudios, imagens, se não forem associados uns aos outros podem se tornar inúteis. Volume Variedade 7

Slide 8

Slide 8 text

O que é Big Data Valor Velocidade Volume+Velocidade+Variedade de nada adianta se os dados não são confiáveis. Informação não é só poder, informação é patrimônio. Volume Variedade Veracidade 8

Slide 9

Slide 9 text

O que é Big Data Valor Velocidade Além de qualquer outro aspecto visto, uma solução de Big Data se tornará inviável se o resultado não trouxer benefícios significativos e que compensem o investimento. Volume Variedade Veracidade 9

Slide 10

Slide 10 text

Big Data Áreas de Aplicação ciência governo saúde social finanças transporte ensino 10 algoritmos genéticos

Slide 11

Slide 11 text

Áreas de Aplicação ciência governo saúde social finanças transporte ensino O limite é a sua imaginação 11

Slide 12

Slide 12 text

Quem Usa 12 • Análise de sentimento no Twitter e exército de apoiadores no Facebook. • Levantamento de dados de mídia • Alcançar o eleitor na hora certa

Slide 13

Slide 13 text

Como tudo começou PR(A)=(1-d)+d(PR(T1)/C(T1)+…+PR(Tn)/C(Tn))) Gravar grandes volumes de dados não estruturados(HTML). Processar as páginas para buscar citações(links). Calcular o PageRank das páginas segundo o número de citações. Criar um mecanismo de busca textual. 13

Slide 14

Slide 14 text

Como tudo começou 2000 - Jeffrey Dean e Sanjay Ghemawat (criadores da tecnologia MapReduce) http://research.google.com/archive/mapreduce.html 14 Jeffrey Dean http://research.google.com/ people/jeff/ Sanjay Ghemawat http://research.google.com/ pubs/SanjayGhemawat.html

Slide 15

Slide 15 text

Como tudo começou • Dez/2002 - Primeira biblioteca MapReduce da Google. • Out/2003 - Artigo sobre GFS. • Dez/2004 - Artigo sobre MapReduce. • Fev/2006 - Hadoop se torna um projeto oficial da Apache. • Abr/2007 - Yahoo! roda Hadoop em um cluster de 1000 nós. • Jan/2008 - Hadoop se torna no projeto principal da Apache 15

Slide 16

Slide 16 text

Como tudo começou • 2005 - Cria próprio mecanismo de busca • Nutch é criado • Mesmos problemas que o Google (máquinas quebram) • Criado o HDFS(Hadoop Distributed File System) • Surge Hbase NoSQL baseado no BigTable da Google 16

Slide 17

Slide 17 text

Quem Usa 17

Slide 18

Slide 18 text

Soluções Big Data 18

Slide 19

Slide 19 text

Soluções Big Data • Elasticidade • No ACID (Atomicidade, Consistência, Isolamento e Durabilidade) • NoSQL • BASE(Basically available, Soft state, Eventually consistency) 19

Slide 20

Slide 20 text

Soluções Big Data Bancos de dados NoSQL 20

Slide 21

Slide 21 text

Soluções Big Data • Open Source • Tolerante a falhas • Escalável • Processamento paralelo • EMR • Coerência de dados 21

Slide 22

Slide 22 text

Ecossistema Hadoop 22

Slide 23

Slide 23 text

Sandbox • Projeto Hortonworks que torna o Hadoop portátil permitindo rodar no seu computador pessoal de forma simples e ágil. • Possui fins educacionais • Ambiente de virtualização VirtualBox 23

Slide 24

Slide 24 text

Sandbox • Baixar SandBox http:// hortonworks.com/products/hortonworks- sandbox/#install 24

Slide 25

Slide 25 text

Sandbox • Baixar Cloudera distribuição linux centOS 6.4 http:// www.cloudera.com/content/cloudera/en/ downloads/quickstart_vms/cdh-5-3-x.html • Pig http://pig.apache.org • Hive https://hive.apache.org 25 vs

Slide 26

Slide 26 text

Sandbox 26 vs SELECT * FROM Tabela WHERE Campo = “ABC”; SELECT a.* FROM a JOIN b ON (a.id = b.id) SELECT MARCA, sum(vl_pedido) Valor_Pedidos FROM `default.tb_orders` Group by MARCA ORDER by Valor_Pedidos DESC A = LOAD 'tabela' USING org.apache.hcatalog.pig.HCatLoader(); B = LIMIT A 100; C = FILTER B BY campo1 == 'Teste'; D = FOREACH C GENERATE symbol, date, close; E = DISTINCT D; F = GROUP E BY (campo1, campo2); G = ORDER F BY (campo1, campo2); H = JOIN G BY campo1, F BY campo1; DUMP C; A = LOAD 'default.tb_orders' USING org.apache.hcatalog.pig.HCatLoader(); B = GROUP A BY marca; X = FOREACH B GENERATE group, SUM(A.vl_pedido); DUMP X;

Slide 27

Slide 27 text

• Links Interessantes: • http://ohundo.tempsite.ws • http://www.cloudera.com/content/cloudera/en/downloads/quickstart_vms/cdh-5-3-x.html • https://www.vagrantup.com/downloads.html • https://www.hashicorp.com • https://www.virtualbox.org/wiki/Downloads • http://hortonworks.com/hdp/downloads/ • http://mahout.apache.org/ • https://crunch.apache.org/ • http://avro.apache.org/docs/1.7.7/gettingstartedjava.html • http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.html • http://bigtop.apache.org/ Big Data 27 Perguntas

Slide 28

Slide 28 text

Fim Big Data 28