Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Acate: Processamento distribuído - Como processamos milhões de dados diariamente

Leonardo Rifeli
June 02, 2022
7

Acate: Processamento distribuído - Como processamos milhões de dados diariamente

É cada vez mais difícil o processamento de grande quantidade de dados, alinhando o baixo custo, maior extração de inteligência e ganho na qualidade das informações extraídas.

Nesta palestra, apresentarei os desafios e lições aprendidas com o projeto desenvolvido aqui na harmo.me, onde coletamos, consolidamos e processamos milhões de dados diariamente. Um case que mostra como atingimos baixíssimo custo, alta performance e qualidade nos dados. Também as lições aprendidas ao longo dos anos.

Leonardo Rifeli

June 02, 2022
Tweet

Transcript

  1. Como processamos milhões de dados diariamente seo local | reviews

    | pesquisas
  2. None
  3. Agora a experiência é o novo marketing

  4. Somos a Harmo, a plataforma de marketing de experiência mais

    completa do Brasil.
  5. SEO Local A única plataforma 3 x 1 do Brasil

    Faça a gestão da presença digital da sua rede de lojas e seja encontrado no topo do ranking das pesquisas de forma 100% orgânica. 1 2 3
  6. Reviews A única plataforma 3 x 1 do Brasil Colete,

    analise e responda todos os reviews dos seus clientes, conquiste a confiança do consumidor e seja a marca escolhida. 1 2 3
  7. A única plataforma 3 x 1 do Brasil Pesquisas multimétricas

    para medir a experiência do cliente durante toda a jornada. Identifique promotores e ative o programa de indicação de reviews. Pesquisas 1 2 3
  8. Harmo, uma poderosa máquina de geração de ROI. Escute, interaja,

    analise e atue focado nos anseios dos clientes, durante toda a jornada, transformando os seus clientes no principal canal de aquisição de novos clientes.
  9. Grandes marcas atestam a qualidade da nossa plataforma e metodologia

    com foco em resultados
  10. NUMBERS Establishments +30k Reviews +10kk Sources +48k Emails +5,6kk SMS

    +230k Answer of Review +815k
  11. ▷ Harmo ▷ Processamento Distribuído ▷ Estrutura de Coleta ▷

    Hadoop, Spark, EMR e Scala ▷ Custos e Métricas ▷ Lições Aprendidas ▷ Conclusão Tópicos
  12. Processamento Distribuído

  13. None
  14. Sobre Hadoop

  15. Um framework para aplicações distribuídas

  16. Tudo começou com o HDFS

  17. Armazenamento de grandes arquivos

  18. Rodar em hardware padrão e baixo custo

  19. Alta escalabilidade e confiabilidade

  20. Possui tolerância a falhas

  21. Principais projetos Hadoop Commons, HDFS e MapReduce

  22. Muitos dados, porém sem Hadoop

  23. None
  24. Sobre Spark

  25. Framework para big-data

  26. Com foco em velocidade, fácil uso e análises sofisticadas

  27. Roda em diversas arquiteturas

  28. APIs em alto nível Scala, Python e Java

  29. Carrega dados de diversas fontes S3, MySQL, HDFS…

  30. É totalmente in-memory

  31. Se o Hadoop é um livro em Mandarim, Spark é

    um dicionário
  32. Sobre EMR

  33. Fornece uma estrutura hadoop gerenciada

  34. Torna fácil, rápido e econômico processar grandes quantidades de dados

  35. Utiliza instâncias EC2 escaláveis dinamicamente

  36. Sobre Scala

  37. Acrônimo para Scalable Language

  38. Surgiu publicamente em 2004

  39. Recursos de linguagens O.O e funcionais

  40. Roda na JVM

  41. Sobre o RRi

  42. RRi fator data

  43. Consolidação do RRi para marca X no período Y

  44. Comparar marcas e estabelecimentos por RRi

  45. Mais performance nas aplicações que usam RRi

  46. Equação ex

  47. None
  48. None
  49. Arquiteturas Coleta e Processamento

  50. None
  51. None
  52. Custos EMR e EC2

  53. Lições Aprendidas

  54. EC2 Spot Instances

  55. Performance dos Jobs

  56. None
  57. None
  58. Spark Stages & Tasks

  59. None
  60. None
  61. None
  62. None
  63. Previsibilidade de custos

  64. Integração Contínua

  65. Faça mais com menos

  66. Faça testes desde o início

  67. None
  68. A MELHOR DE TODAS

  69. Como NÃO ler dados do S3 não use: textFiles(s3n://bucket/2022_03_29/ACATE/*)

  70. None
  71. None
  72. Como NÃO ler dados do S3

  73. ▷ MapReduce: Simplified Data Processing on Large Clusters ▷ Bigtable:

    A Distributed Storage System for Structured Data ▷ The Google File System ▷ The history of Hadoop ▷ Untangling Apache Hadoop YARN, Part 1: Cluster and YARN Basics ▷ How to calculate node and executors memory in Apache Spark ▷ How NOT to pull from S3 using Apache Spark Links
  74. Leonardo Rifeli | CTO leonardo.rifeli@harmo.me harmo.me seo local | reviews

    | pesquisas