Agilidade, escalabilidade, e ordem com Kafka e Dataflow

Kafka <3 Dataﬂow Agilidade, escalabilidade, e ordem

Eu • Engenheiro de Dados na Arquivei • CAASO ◦
BCC 012 ◦ MECAI 017

BCC 012 ◦ MECAI 017 • Corote pêssego - ok • Tauber e Lokal - não ok

BCC 012 ◦ MECAI 017 • Corote pêssego - ok • Tauber e Lokal - não ok • Java - ok • JavaScript - não ok

Temos vagas: arquivei.com.br/vagas

Roadmap • Dataflow • Kafka • Dataflow • Kafka •
Kafka e Dataflow

O que é Dataﬂow?

Dataﬂow model • Akidau, 2015 • “Modern data processing is
a complex and exciting ﬁeld.” • Junta dois papers: ◦ FlumeJava ◦ MillWheel • Batchs existentes ◦ Alta latência • Streaming existentes ◦ Tolerância a falhas, escalabilidade, latência ◦ Complexidade de janelamento

Dataﬂow model • Akidau, 2015 • Propõe um modelo de
programação simples para processamento de dados ◦ Event time ◦ Processing time

Dataﬂow model • Akidau, 2015 • Propõe um modelo de
programação simples para processamento de dados ◦ Divide pipelines em 4 dimensões ▪ Quais resultados computados? ▪ Onde serão computados? (em event time) ▪ Quando serão materializados? (em processing time) ▪ Como reﬁnar dados recentes mais tarde?

Streaming vs Batch • Streaming -> Unbounded • Batch ->
Bounded • Unbounded: processado em batch systems • Streaming systems: capazes de processar batches

Windows • Não é um sistema operacional • Divisão do
dataset para processamento • Aligned: se aplica a todo dataset • Unaligned: se aplica a um subset

Windows • Divisão do dataset para processamento

Watermark • Limite inferior de todos os event times processados
pelo pipeline

Primitivas • ParDo • GroupByKey

Primitivas • AssignWindows • MergeWindows • GroupByKeyAndWindow

Primitivas

Triggers • Determina quando um GroupByKeyAndWindow ocorre • Window: determina
onde os dados serão agrupados (event time) • Trigger: determina quando os resultados dos agrupamentos serão emitidos (processing time)

Triggers • Late data: atraso no event time em relação
ao processing time • Reﬁnamentos: ◦ Descarte: resultados futuros não dependem de dados passados ◦ Acúmulo: resultados futuros dependem de dados passados ◦ Acúmulo + Retração: ▪ resultados futuros dependem de dados passados ▪ resultados passados dependem de dados futuros

O que é Kafka?

Comunicação entre sistemas

Ecossistema de Big Data

Por que Kafka? • Retenção • Escalabilidade • Ordem

Por que Kafka? • Reliable Data Delivery ◦ Dados de
várias criticidades • Garantias ◦ Ordem ◦ Commits ▪ Uma vez commitado, dado não será mais perdido ▪ Somente serão lidos dados commitados

Por que não Kafka? • Reliable Data Delivery ◦ Acaba
gerando muitas arquiteturas ruins • Garantias ◦ Depende de uma série de conﬁgs

Plataforma distribuída de streaming • O que é streaming? ◦
Unbounded == inﬁnite • Streams ◦ Ordenados ◦ Imutáveis ◦ Repetíveis (replayable)

Plataforma distribuída de streaming • Request-response: um sistema espera outro
• Batch: dados processados de tempos em tempos • Streaming ◦ Não é necessário espera ◦ Processamento contínuo

Streaming: conceitos • Tempo ◦ Event time ◦ Processing time
◦ Log append time (tempo no Kafka) • Estado ◦ Interno: acessado apenas por um sistema ◦ Externo: disponível para outros sistemas

Streaming: conceitos • Dualidade tabela-stream ◦ Table: coleção de registros
◦ Stream: cadeias de eventos que modiﬁcam algo • Table != Stream • Tabela pode ser convertida em stream (CDC) • Stream pode ser convertida em tabela (materialização) • Diferentes tipos de redundância

Streaming: diferentes modelos • Single-event processing

Streaming: diferentes modelos • Local state

Streaming: diferentes modelos • Local state • Problemas: ◦ Estado
deve caber em memória ◦ Persistência ◦ Rebalanceamento

Streaming: diferentes modelos • Multiphase processing

Streaming: diferentes modelos • Stream-table Join

Streaming: diferentes modelos • Stream-table Join • Problemas: ◦ Latência
◦ Escalabilidade

Streaming: diferentes modelos • Stream-table Join

The road to Dataﬂow

Por onde começamos? • Python • AWS

Por onde começamos? • Opções: ◦ Airﬂow + Python ◦
Amazon EMR ▪ Spark ▪ Flink

Por onde começamos? • Descobrimos GCP ◦ Google Dataﬂow ▪
Gerenciado ▪ Python ▪ Modelo fácil de programação

Por onde começamos? • Descobrimos GCP ◦ Google Dataﬂow ▪
Gerenciado ▪ Python (Java) ▪ Modelo fácil de programação ▪ Streaming! ▪ ...outra nuvem

Por onde começamos? • Google Dataﬂow ◦ Rápido de aprender
◦ Escalável ◦ Zero infra

Por onde começamos? • Google Dataﬂow ◦ Rápido de aprender
◦ Escalável ◦ Zero infra ◦ Problemas de escalabilidade ▪ Outros sistemas sofrendo

Por onde começamos? • Google Dataﬂow ◦ Streaming!

Por onde começamos? • Google Dataﬂow ◦ Streaming! ▪ Custo
▪ Não saber fazer streaming

Por onde começamos? • Google Dataﬂow ◦ Batch! ▪ Default
◦ Streaming: ▪ Pipe genérico ▪ Backup ▪ Auditorias em “real-time” ▪ DWs “real-time” ◦ Batch+Streaming ▪ Migrações ▪ DWs “real-time” com histórico

The road to Kafka

Por onde começamos? • Google Pub/Sub ◦ Barato ◦ Gerenciado
◦ Simples ◦ Libs prontas

Por onde começamos? • Google Pub/Sub ◦ Barato ◦ Gerenciado
◦ Simples ◦ Libs prontas ◦ Problemas: ▪ Latência para AWS ▪ Ordem ◦ Não sabíamos usar Mensageria

Por onde começamos? • Requisitos do pipeline de dados ◦
Pouca infra ◦ Deploys fáceis para produtores e consumidores ▪ Desacoplado ▪ Independente

Por onde começamos?

Por onde começamos? • Apache Kafka ◦ Baixíssima latência ◦
Escalável ◦ Barato

Por onde começamos? • Apache Kafka ◦ Overhead de Infra
◦ Curva de aprendizado ◦ Escalabilidade ▪ Partições ◦ Modelos de produção ▪ Conﬁável ▪ Escalável ◦ Modelos de consumo ▪ Escalável ◦ Libs limitadas para PHP

Kafka + Dataﬂow

Como é hoje? • Apache Kafka ◦ Principal ferramenta de
mensageria • Google Pub/Sub ◦ Usado para comunicação entre jobs • Google Dataﬂow ◦ Principal ferramenta de processamento de dados • Microsserviços em Go ◦ Principal ferramenta de processamento para sistemas • Kafka Streams ◦ Ferramenta alternativa de processamento em streaming

Kafka vs Pub/Sub? • Apache Kafka ◦ Padrão ◦ Requisito
de ordem ◦ Reprocessamento mais fácil ◦ Ecossistema • Google Pub/Sub ◦ Modelo permite retry ◦ Substitui HTTP Sync

Dataﬂow vs Go? • Dataﬂow ◦ DataEng ◦ Autoscaling ◦
Migrações, reprocessamentos ◦ Replicação de dados • Go ◦ Backend ◦ Baixa latência ◦ Sistemas reativos

Dataﬂow vs Streams? • Dataﬂow ◦ Autoscaling ◦ Reprocessamento •
Streams ◦ Mais leve ◦ Entrada e Saída no Kafka

Formato de mensagens • JSON -> Avro • Schema ◦
ID ◦ Version ◦ Source ◦ Type ◦ Data

Pipeline de Dados • Event router • Pipeline genérico

Arquitetura Kafka

That’s all folks Bom TUSCA a todos! Raça CAASO! Bibliograﬁa
• “I Heart Logs” - Jay Kreps • “The Dataﬂow Model: A Practical Approach to Balancing” - Akidau • “Kafka: The Definitive Guide” - Confluent

Agilidade, escalabilidade, e ordem com Kafka e ...

Agilidade, escalabilidade, e ordem com Kafka e Dataflow

Other Decks in Programming

Featured

Transcript