Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Distributed processing: How we process millions of data daily with EMR

Distributed processing: How we process millions of data daily with EMR

É cada vez mais difícil o processamento de grande quantidade de dados, alinhando o baixo custo, maior extração de inteligência e ganho na qualidade das informações extraídas.

Nesta palestra, apresentarei os desafios e lições aprendidas com o projeto desenvolvido aqui na reviewr.me, onde consolidamos e processamos milhões de dados diariamente. Um case que mostra como atingimos baixíssimo custo, alta performance e qualidade.

Leonardo Rifeli

April 24, 2019
Tweet

More Decks by Leonardo Rifeli

Other Decks in Programming

Transcript

  1. Tópicos ▷ Processamento Distribuído ▷ Hadoop, Spark, EMR e Scala

    ▷ Reviewr ▷ Consolidação de dados ▷ Custos & Métricas ▷ Lições Aprendidas ▷ Conclusão
  2. ▷ MapReduce: Simplified Data Processing on Large Clusters ▷ Bigtable:

    A Distributed Storage System for Structured Data ▷ The Google File System ▷ The history of Hadoop ▷ Untangling Apache Hadoop YARN, Part 1: Cluster and YARN Basics ▷ How to calculate node and executors memory in Apache Spark Links