Acate: Processamento distribuído - Como processamos milhões de dados diariamente

Como processamos milhões de dados diariamente seo local | reviews
| pesquisas

Agora a experiência é o novo marketing

Somos a Harmo, a plataforma de marketing de experiência mais
completa do Brasil.

SEO Local A única plataforma 3 x 1 do Brasil
Faça a gestão da presença digital da sua rede de lojas e seja encontrado no topo do ranking das pesquisas de forma 100% orgânica. 1 2 3

Reviews A única plataforma 3 x 1 do Brasil Colete,
analise e responda todos os reviews dos seus clientes, conquiste a conﬁança do consumidor e seja a marca escolhida. 1 2 3

A única plataforma 3 x 1 do Brasil Pesquisas multimétricas
para medir a experiência do cliente durante toda a jornada. Identiﬁque promotores e ative o programa de indicação de reviews. Pesquisas 1 2 3

Harmo, uma poderosa máquina de geração de ROI. Escute, interaja,
analise e atue focado nos anseios dos clientes, durante toda a jornada, transformando os seus clientes no principal canal de aquisição de novos clientes.

Grandes marcas atestam a qualidade da nossa plataforma e metodologia
com foco em resultados

NUMBERS Establishments +30k Reviews +10kk Sources +48k Emails +5,6kk SMS
+230k Answer of Review +815k

▷ Harmo ▷ Processamento Distribuído ▷ Estrutura de Coleta ▷
Hadoop, Spark, EMR e Scala ▷ Custos e Métricas ▷ Lições Aprendidas ▷ Conclusão Tópicos

Processamento Distribuído

Sobre Hadoop

Um framework para aplicações distribuídas

Tudo começou com o HDFS

Armazenamento de grandes arquivos

Rodar em hardware padrão e baixo custo

Alta escalabilidade e conﬁabilidade

Possui tolerância a falhas

Principais projetos Hadoop Commons, HDFS e MapReduce

Muitos dados, porém sem Hadoop

Sobre Spark

Framework para big-data

Com foco em velocidade, fácil uso e análises soﬁsticadas

Roda em diversas arquiteturas

APIs em alto nível Scala, Python e Java

Carrega dados de diversas fontes S3, MySQL, HDFS…

É totalmente in-memory

Se o Hadoop é um livro em Mandarim, Spark é
um dicionário

Sobre EMR

Fornece uma estrutura hadoop gerenciada

Torna fácil, rápido e econômico processar grandes quantidades de dados

Utiliza instâncias EC2 escaláveis dinamicamente

Sobre Scala

Acrônimo para Scalable Language

Surgiu publicamente em 2004

Recursos de linguagens O.O e funcionais

Roda na JVM

Sobre o RRi

RRi fator data

Consolidação do RRi para marca X no período Y

Comparar marcas e estabelecimentos por RRi

Mais performance nas aplicações que usam RRi

Equação ex

Arquiteturas Coleta e Processamento

Custos EMR e EC2

Lições Aprendidas

EC2 Spot Instances

Performance dos Jobs

Spark Stages & Tasks

Previsibilidade de custos

Integração Contínua

Faça mais com menos

Faça testes desde o início

A MELHOR DE TODAS

Como NÃO ler dados do S3 não use: textFiles(s3n://bucket/2022_03_29/ACATE/*)

Como NÃO ler dados do S3

▷ MapReduce: Simpliﬁed Data Processing on Large Clusters ▷ Bigtable:
A Distributed Storage System for Structured Data ▷ The Google File System ▷ The history of Hadoop ▷ Untangling Apache Hadoop YARN, Part 1: Cluster and YARN Basics ▷ How to calculate node and executors memory in Apache Spark ▷ How NOT to pull from S3 using Apache Spark Links

Leonardo Rifeli | CTO [email protected] harmo.me seo local | reviews
| pesquisas

Acate: Processamento distribuído - Como proces...

Acate: Processamento distribuído - Como processamos milhões de dados diariamente

More Decks by Leonardo Rifeli

Featured

Transcript