Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Acate: Processamento distribuído - Como processamos milhões de dados diariamente

Leonardo Rifeli
June 02, 2022
14

Acate: Processamento distribuído - Como processamos milhões de dados diariamente

É cada vez mais difícil o processamento de grande quantidade de dados, alinhando o baixo custo, maior extração de inteligência e ganho na qualidade das informações extraídas.

Nesta palestra, apresentarei os desafios e lições aprendidas com o projeto desenvolvido aqui na harmo.me, onde coletamos, consolidamos e processamos milhões de dados diariamente. Um case que mostra como atingimos baixíssimo custo, alta performance e qualidade nos dados. Também as lições aprendidas ao longo dos anos.

Leonardo Rifeli

June 02, 2022
Tweet

Transcript

  1. SEO Local A única plataforma 3 x 1 do Brasil

    Faça a gestão da presença digital da sua rede de lojas e seja encontrado no topo do ranking das pesquisas de forma 100% orgânica. 1 2 3
  2. Reviews A única plataforma 3 x 1 do Brasil Colete,

    analise e responda todos os reviews dos seus clientes, conquiste a confiança do consumidor e seja a marca escolhida. 1 2 3
  3. A única plataforma 3 x 1 do Brasil Pesquisas multimétricas

    para medir a experiência do cliente durante toda a jornada. Identifique promotores e ative o programa de indicação de reviews. Pesquisas 1 2 3
  4. Harmo, uma poderosa máquina de geração de ROI. Escute, interaja,

    analise e atue focado nos anseios dos clientes, durante toda a jornada, transformando os seus clientes no principal canal de aquisição de novos clientes.
  5. ▷ Harmo ▷ Processamento Distribuído ▷ Estrutura de Coleta ▷

    Hadoop, Spark, EMR e Scala ▷ Custos e Métricas ▷ Lições Aprendidas ▷ Conclusão Tópicos
  6. ▷ MapReduce: Simplified Data Processing on Large Clusters ▷ Bigtable:

    A Distributed Storage System for Structured Data ▷ The Google File System ▷ The history of Hadoop ▷ Untangling Apache Hadoop YARN, Part 1: Cluster and YARN Basics ▷ How to calculate node and executors memory in Apache Spark ▷ How NOT to pull from S3 using Apache Spark Links