Slide 1

Slide 1 text

TECNOLOGIAS Distributed Streaming Platforms em Arquiteturas Modernas com Apache Kafka® Ricardo Ferreira

Slide 2

Slide 2 text

Sobre mim: ● Ricardo Ferreira ❑ Developer Advocate @ Confluent ❑ Ex-Oracle, Red Hat, squadra tecnologia ❑ [email protected][email protected] ❑ https://riferrei.net @riferrei

Slide 3

Slide 3 text

@riferrei | @Devisland | @CONFLUENTINC pergunta: o que é um distributed streaming platform?

Slide 4

Slide 4 text

@riferrei | @devisland | @CONFLUENTINC ? ? ?

Slide 5

Slide 5 text

@riferrei | @devisland | @CONFLUENTINC Vamos voltar no tempo?

Slide 6

Slide 6 text

@riferrei | @devisland | @CONFLUENTINC databases 30 anos atrás… você está me envergonhando na frente dos magos… Databases hoje em dia

Slide 7

Slide 7 text

@riferrei | @Devisland | @CONFLUENTINC Qual o Problema dos databases?

Slide 8

Slide 8 text

@riferrei | @devisland | @CONFLUENTINC Muito limitado! Faz muita lambança!

Slide 9

Slide 9 text

@riferrei | @devisland | @CONFLUENTINC Limitado? Tá querendo me sacanear?

Slide 10

Slide 10 text

@riferrei | @devisland | @CONFLUENTINC Por quê você acha que a gente faz cargas batch para o dwh? Sim… limitado.

Slide 11

Slide 11 text

@riferrei | @devisland | @CONFLUENTINC Desenvolvedor mantendo o batch funcionando... …Enquanto o modelo de dados fica mudando…

Slide 12

Slide 12 text

@riferrei | @devisland | @CONFLUENTINC lambança Linha de negócio 01 Linha de negócio 02 Linha de negócio 03

Slide 13

Slide 13 text

@riferrei | @devisland | @CONFLUENTINC Eita que diagrama bunito... Um Monte de licença pra vender!

Slide 14

Slide 14 text

@riferrei | @Devisland | @CONFLUENTINC Workarounds da indústria

Slide 15

Slide 15 text

@riferrei | @devisland | @CONFLUENTINC

Slide 16

Slide 16 text

@riferrei | @devisland | @CONFLUENTINC nosql

Slide 17

Slide 17 text

@riferrei | @devisland | @CONFLUENTINC

Slide 18

Slide 18 text

@riferrei | @Devisland | @CONFLUENTINC Resultado…

Slide 19

Slide 19 text

@riferrei | @devisland | @CONFLUENTINC lambança Linha de negócio 01 Linha de negócio 02 Linha de negócio 03

Slide 20

Slide 20 text

@riferrei | @devisland | @CONFLUENTINC Another day... Another doug

Slide 21

Slide 21 text

@riferrei | @devisland | @CONFLUENTINC Vamos voltar no tempo?

Slide 22

Slide 22 text

@riferrei | @devisland | @CONFLUENTINC

Slide 23

Slide 23 text

@riferrei | @devisland | @CONFLUENTINC Jay kreps Neha narkhede Jun rao

Slide 24

Slide 24 text

@riferrei | @devisland | @CONFLUENTINC

Slide 25

Slide 25 text

25 ETL/integração de dados mensageria Batch Caro de manter Lento demais Difícil de escalar Não têm durabilidade Não têm persistência não possui ordem Não possui replay Super escalável durável Persistente Mantêm ordem replay rápido (baixa latência) O que está acontecendo agora? O que aconteceu no passado?

Slide 26

Slide 26 text

26 ETL/integração de dados mensageria Batch Caro de manter Consome tempo Difícil de escalar Não têm durabilidade Não têm persistência não possui ordem Não possui replay Highly Scalable Durable Persistent Ordered Fast (Low Latency) O que está acontecendo agora? O que aconteceu no passado? Super escalável durável Persistente Mantêm ordem replay rápido (baixa latência) streaming platform

Slide 27

Slide 27 text

@riferrei | @Devisland | @CONFLUENTINC pergunta: o que é um distributed streaming platform?

Slide 28

Slide 28 text

28 01 Mensageria bem feita 02 Processamento de eventos 03 Sistema de armazenamento @riferrei | @devisland | @CONFLUENTINC

Slide 29

Slide 29 text

@riferrei | @Devisland | @CONFLUENTINC 01 Mensageria bem feita

Slide 30

Slide 30 text

@riferrei | @devisland | @CONFLUENTINC http://cidrdb.org/cidr2015/Papers/CIDR15_Paper16.pdf Você realmente acha que você faz consultas em tabelas?

Slide 31

Slide 31 text

@riferrei | @devisland | @CONFLUENTINC Dualidade entre streams e tabelas {"user":"riferrei","score":"1001"} {"user":"riferrei","score":"1002"} {"user":"riferrei","score":"1003"} {"user":"riferrei","score":"1004"} {"user":"riferrei","score":"1005"} {"user":"riferrei","score":"1005"} stream tabela

Slide 32

Slide 32 text

@riferrei | @devisland | @CONFLUENTINC “The truth is the log. The database is a cache of a subset of the log.” — pat helland Immutability changes everything http://cidrdb.org/cidr2015/Papers/CIDR15_Paper16.pdf

Slide 33

Slide 33 text

@riferrei | @devisland | @CONFLUENTINC Logs são simples!

Slide 34

Slide 34 text

@riferrei | @devisland | @CONFLUENTINC O(1) ao invés de o(log n) Graças ao uso Do Sistema de arquivos

Slide 35

Slide 35 text

@riferrei | @devisland | @CONFLUENTINC Maior volume de dados Graças ao uso Do page cache do Sistema operacional

Slide 36

Slide 36 text

@riferrei | @devisland | @CONFLUENTINC Menos uso de cpu e heap Através da api sendfile do linux

Slide 37

Slide 37 text

@riferrei | @Devisland | @CONFLUENTINC 02 processamento de eventos

Slide 38

Slide 38 text

@riferrei | @devisland | @CONFLUENTINC O que é processamento de eventos? ? Tentativa de fraude possível fraude

Slide 39

Slide 39 text

@riferrei | @devisland | @CONFLUENTINC O que é processamento de eventos? CREATE STREAM possible_fraud AS SELECT card_number, count(*) FROM authorization_attempts WINDOW TUMBLING (SIZE 5 MINUTE) GROUP BY card_number HAVING count(*) > 3; Tentativa de fraude possível fraude tópico tópico

Slide 40

Slide 40 text

@riferrei | @Devisland | @CONFLUENTINC 03 Sistema de armazenamento

Slide 41

Slide 41 text

@riferrei | @devisland | @CONFLUENTINC Meh… mas só um database te dá acid…

Slide 42

Slide 42 text

@riferrei | @devisland | @CONFLUENTINC A C I D Transações precisam ser ou tudo ou nada

Slide 43

Slide 43 text

@riferrei | @devisland | @CONFLUENTINC Api de transações para produtores Níveis de isolamento para consumidores aplicação

Slide 44

Slide 44 text

@riferrei | @devisland | @CONFLUENTINC A C I D Reinforçar invariantes que garantam consistência

Slide 45

Slide 45 text

@riferrei | @devisland | @CONFLUENTINC Propriedades do Produtor enable.idempotence=true max.inflight.requests.per.connection=1 acks = “all” retries > 0 (preferably MAX_INT) (pid, seq) [payload] (100, 1) {key: 1234, data: abcd} - offset 3345 (100, 1) {key: 1234, data: abcd} - rejected, ack re-sent (100, 2) {key: 5678, data: efgh} - offset 3346 Sem duplicação!

Slide 46

Slide 46 text

@riferrei | @devisland | @CONFLUENTINC Eventos em ordem por partição

Slide 47

Slide 47 text

@riferrei | @devisland | @CONFLUENTINC Schemas são apis

Slide 48

Slide 48 text

@riferrei | @devisland | @CONFLUENTINC Diga olá ao schema registry

Slide 49

Slide 49 text

@riferrei | @devisland | @CONFLUENTINC A C I D Garantir acesso serial mesmo quando threads executam de forma concorrente

Slide 50

Slide 50 text

@riferrei | @devisland | @CONFLUENTINC Produzindo registros sem chave aplicação Registros serão escritos em várias partições diferentes

Slide 51

Slide 51 text

@riferrei | @devisland | @CONFLUENTINC Produzindo registros com chave Aplicação a Aplicação b Aplicação c Aplicação d

Slide 52

Slide 52 text

@riferrei | @devisland | @CONFLUENTINC A C I D Dados commitados devem permanecer assim mesmo em caso de falhas

Slide 53

Slide 53 text

@riferrei | @devisland | @CONFLUENTINC Lembra disso?

Slide 54

Slide 54 text

@riferrei | @devisland | @CONFLUENTINC Tolerância a falhas via replicação

Slide 55

Slide 55 text

@riferrei | @Devisland | @CONFLUENTINC demo

Slide 56

Slide 56 text

No content

Slide 57

Slide 57 text

@riferrei | @Devisland | @CONFLUENTINC LIVROS DE APACHE KAFKA (by CONFLUENT) https://www.confluent.io/apache-kafka-stream-processing-book-bundle

Slide 58

Slide 58 text

@riferrei | @devisland | @CONFLUENTINC

Slide 59

Slide 59 text

No content