Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Big Data

Big Data

Saiba um pouco mais sobre soluções Big Data

Randy Quindai

January 20, 2015
Tweet

More Decks by Randy Quindai

Other Decks in Technology

Transcript

  1. Quem sou eu • Graduando em Engenharia da Computação (UFAL)

    • Bolsista do NTI(UFAL) • Bolsista da RIM(Blackberry) • Desenvolvedor de diversos projetos acadêmicos em Java, C++, VB6, HTML5, AngularJS • Membro do GDG Luanda ? f g+ in ? 3
  2. O que é Big Data Variedade Veracidade Valor Velocidade Volumes

    extremamente grandes de dados: Em 2007 o Google processava mais de 400PB dados/mês Usuários do facebook produzem mais de 300PB dados/diários Volume 5
  3. O que é Big Data Variedade Veracidade Valor Velocidade Informação

    disponível para uso em tempo hábil. Tratamento dos dados em tempo real. Empresas que oferecem esse serviço: Facebook, Amazon, Google Volume 6
  4. O que é Big Data Veracidade Valor Velocidade Dados oriundos

    de diversos bancos de dados como PostgreSQL e Oracle. Dados não estruturados oriundos de inúmeras fontes: documentos, vídeos, áudios, imagens, se não forem associados uns aos outros podem se tornar inúteis. Volume Variedade 7
  5. O que é Big Data Valor Velocidade Volume+Velocidade+Variedade de nada

    adianta se os dados não são confiáveis. Informação não é só poder, informação é patrimônio. Volume Variedade Veracidade 8
  6. O que é Big Data Valor Velocidade Além de qualquer

    outro aspecto visto, uma solução de Big Data se tornará inviável se o resultado não trouxer benefícios significativos e que compensem o investimento. Volume Variedade Veracidade 9
  7. Quem Usa 12 • Análise de sentimento no Twitter e

    exército de apoiadores no Facebook. • Levantamento de dados de mídia • Alcançar o eleitor na hora certa
  8. Como tudo começou PR(A)=(1-d)+d(PR(T1)/C(T1)+…+PR(Tn)/C(Tn))) Gravar grandes volumes de dados não

    estruturados(HTML). Processar as páginas para buscar citações(links). Calcular o PageRank das páginas segundo o número de citações. Criar um mecanismo de busca textual. 13
  9. Como tudo começou 2000 - Jeffrey Dean e Sanjay Ghemawat

    (criadores da tecnologia MapReduce) http://research.google.com/archive/mapreduce.html 14 Jeffrey Dean http://research.google.com/ people/jeff/ Sanjay Ghemawat http://research.google.com/ pubs/SanjayGhemawat.html
  10. Como tudo começou • Dez/2002 - Primeira biblioteca MapReduce da

    Google. • Out/2003 - Artigo sobre GFS. • Dez/2004 - Artigo sobre MapReduce. • Fev/2006 - Hadoop se torna um projeto oficial da Apache. • Abr/2007 - Yahoo! roda Hadoop em um cluster de 1000 nós. • Jan/2008 - Hadoop se torna no projeto principal da Apache 15
  11. Como tudo começou • 2005 - Cria próprio mecanismo de

    busca • Nutch é criado • Mesmos problemas que o Google (máquinas quebram) • Criado o HDFS(Hadoop Distributed File System) • Surge Hbase NoSQL baseado no BigTable da Google 16
  12. Soluções Big Data • Elasticidade • No ACID (Atomicidade, Consistência,

    Isolamento e Durabilidade) • NoSQL • BASE(Basically available, Soft state, Eventually consistency) 19
  13. Soluções Big Data • Open Source • Tolerante a falhas

    • Escalável • Processamento paralelo • EMR • Coerência de dados 21
  14. Sandbox • Projeto Hortonworks que torna o Hadoop portátil permitindo

    rodar no seu computador pessoal de forma simples e ágil. • Possui fins educacionais • Ambiente de virtualização VirtualBox 23
  15. Sandbox • Baixar Cloudera distribuição linux centOS 6.4 http:// www.cloudera.com/content/cloudera/en/

    downloads/quickstart_vms/cdh-5-3-x.html • Pig http://pig.apache.org • Hive https://hive.apache.org 25 vs
  16. Sandbox 26 vs SELECT * FROM Tabela WHERE Campo =

    “ABC”; SELECT a.* FROM a JOIN b ON (a.id = b.id) SELECT MARCA, sum(vl_pedido) Valor_Pedidos FROM `default.tb_orders` Group by MARCA ORDER by Valor_Pedidos DESC A = LOAD 'tabela' USING org.apache.hcatalog.pig.HCatLoader(); B = LIMIT A 100; C = FILTER B BY campo1 == 'Teste'; D = FOREACH C GENERATE symbol, date, close; E = DISTINCT D; F = GROUP E BY (campo1, campo2); G = ORDER F BY (campo1, campo2); H = JOIN G BY campo1, F BY campo1; DUMP C; A = LOAD 'default.tb_orders' USING org.apache.hcatalog.pig.HCatLoader(); B = GROUP A BY marca; X = FOREACH B GENERATE group, SUM(A.vl_pedido); DUMP X;
  17. • Links Interessantes: • http://ohundo.tempsite.ws • http://www.cloudera.com/content/cloudera/en/downloads/quickstart_vms/cdh-5-3-x.html • https://www.vagrantup.com/downloads.html •

    https://www.hashicorp.com • https://www.virtualbox.org/wiki/Downloads • http://hortonworks.com/hdp/downloads/ • http://mahout.apache.org/ • https://crunch.apache.org/ • http://avro.apache.org/docs/1.7.7/gettingstartedjava.html • http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.html • http://bigtop.apache.org/ Big Data 27 Perguntas