Slide 1

Slide 1 text

Modern data stack Potencializando a análise de dados para decisões estratégias

Slide 2

Slide 2 text

“Data is the new oil”

Slide 3

Slide 3 text

Quem é esse? ● 26 anos ● 4 anos de engenharia de dados ● Google cloud certified ● Dono de gato Cadu Magalhães @1cadumagalhaes cadumagalhaes.dev datacareer.guide

Slide 4

Slide 4 text

Contexto análises

Slide 5

Slide 5 text

Alguns conceitos

Slide 6

Slide 6 text

Pipeline? “Uma série de ações que manipulam e combinam dados de múltiplas fontes para análise ou visualização”

Slide 7

Slide 7 text

ETL?

Slide 8

Slide 8 text

Modern data stack

Slide 9

Slide 9 text

O que é? “A modern data stack é uma abordagem de arquitetura de dados composta por um conjunto de ferramentas e tecnologias integradas, que permitem às empresas coletar, armazenar, processar e analisar dados de forma ágil e escalável, facilitando a tomada de decisões baseadas em dados.” - Chat GPT

Slide 10

Slide 10 text

● Estrutura escalável ● Manutenção simples ● Foco no desenvolvimento Por que?

Slide 11

Slide 11 text

O problema

Slide 12

Slide 12 text

Uma pipeline de dados

Slide 13

Slide 13 text

Ingestão Decidir quais são as fontes de dados, e qual exatamente será o processo de ingestão. Podemos baixar dados via API, utilizando alguma biblioteca pronta, uma ferramenta especializada.

Slide 14

Slide 14 text

Armazenamento Decidir qual será o formato, ferramenta e local onde armazenaremos os dados (tanto brutos quanto transformados, de preferência). Aqui podemos discutir algumas formas de arquitetura, como data lake, data warehouse, data mesh.

Slide 15

Slide 15 text

Transformação Além de definir qual será a estratégia de transformação (ETL x ELT), decidir como e onde será feita.

Slide 16

Slide 16 text

Orquestração Tendo nossas transformações mapeadas, precisamos definir quando e onde serão executadas. E mais importante, garantir que as dependências estejam mapeadas.

Slide 17

Slide 17 text

Monitoramento Garantir que teremos notificações e alertas caso alguma etapa falhe.

Slide 18

Slide 18 text

Qualidade de dados Depois que o processo tiver finalizado, podemos acrescentar validações nos dados em si.

Slide 19

Slide 19 text

E outras etapas Visualizações, análises, etc

Slide 20

Slide 20 text

As soluções

Slide 21

Slide 21 text

Ingestão de dados Airbyte - Open Source Meltano - Open Source Supermetrics, Fivetran, Adverity, Funnel, Stich

Slide 22

Slide 22 text

Armazenamento de dados

Slide 23

Slide 23 text

Transformação de dados

Slide 24

Slide 24 text

Orquestração de dados

Slide 25

Slide 25 text

Monitoramento de dados

Slide 26

Slide 26 text

Qualidade de dados

Slide 27

Slide 27 text

E qual o impacto de tudo isso?

Slide 28

Slide 28 text

- [email protected] - @1cadumagalhaes - datacareer.guide Obrigade!

Slide 29

Slide 29 text

No content

Slide 30

Slide 30 text

No content