Slide 1

Slide 1 text

Descomplicando Arquitetura de Dados Engenharia de Dados não é uma ciência exata #CPBSB6

Slide 2

Slide 2 text

Quem é esse? ● 27 anos, São Paulo ● 5 anos de engenharia de dados ● 10 anos de programação e eventos ● Google Cloud certified ● Dono de gatos ● Nerdola, jogos, musica, cubos mágicos ● Especialista em gambiarras Cadu Magalhães @1cadumagalhaes blog.cadumagalhaes.dev datacareer.guide

Slide 3

Slide 3 text

Por que é importante falar sobre Arquitetura de dados? Nos últimos anos, falar que se usa dados, ou IA, explodiu. Organizações enfrentam cada vez mais desafios para gerenciar, processar e extrair valor dos dados. Sem uma estratégia robusta de arquitetura, elas correm o risco de perder insights importantes e ficar para trás no “mundo orientado por dados”

Slide 4

Slide 4 text

Por que é importante falar sobre Arquitetura de dados? Apesar de dizer que priorizam os dados, a maioria das empresas não quer investir tempo e recursos para desenvolver suas aplicações de dados. Querem os resultados o mais rápido possível. Decisões sem o planejamento necessário, o que compromete a evolução e manutenção do projeto.

Slide 5

Slide 5 text

Desafios e problemas que podem surgir ● Dados sem qualidade ● Dificuldade de desenvolvimento ● Custos altos

Slide 6

Slide 6 text

Antes de começar

Slide 7

Slide 7 text

O que é Engenharia de Dados? A Engenharia de Dados (...) se concentra na concepção, construção e manutenção de sistemas e infraestrutura para a coleta, armazenamento, processamento e análise de de dados. - Chat GPT

Slide 8

Slide 8 text

O que é Arquitetura de Dados? Arquitetura de dados é o conjunto de regras, políticas, padrões e tecnologias que define como os dados são organizados, armazenados, processados e acessados em uma organização - Chat GPT

Slide 9

Slide 9 text

O que é Modelagem de Dados? Modelagem de dados é o processo de criar uma representação estruturada e organizada dos dados de uma organização, que define como os dados são armazenados, relacionados e acessados em um sistema de banco de dados. - Chat GPT

Slide 10

Slide 10 text

Engenharia de Dados Arquitetura de Dados Modelagem de dados

Slide 11

Slide 11 text

Componentes da Arquitetura de Dados

Slide 12

Slide 12 text

Fontes de dados 1. Mapear todas as fontes de dados utilizadas. Por exemplo: a. Sistemas transacionais b. Dispositivos (IoT) c. API’s externas d. Sistemas terceiros É importante entender que provavelmente as fontes aumentarão com o passar do tempo e a evolução do projeto.

Slide 13

Slide 13 text

Armazenamento 2. Definir a forma de armazenamento. a. Qual tecnologia será usada? (bancos relacionais, baseados em coluna, baseados em objetos, sistemas de armazenamento) b. Qual ferramenta? c. Onde (plataforma e região física) serão armazenados? Nessa etapa começamos a decidir o tipo de arquitetura. (Data Warehouse, Data Lake, etc)

Slide 14

Slide 14 text

Processamento 3. Como precisamos processar os dados? a. Batch x Streaming b. Onde/em qual ferramenta? c. Com que frequência serão processados? (no caso de Batch)

Slide 15

Slide 15 text

Metadados 4. Arquiteturas mais maduras usam os metadados! a. Criação de catálogo de dados b. Análises da execução da sua arquitetura c. Linhagem de dados

Slide 16

Slide 16 text

Design de uma Arquitetura de Dados eficiente Precisamos considerar: ● Escalabilidade ● Flexibilidade ● Desempenho ● Manutenção ● Segurança ● Custo

Slide 17

Slide 17 text

Data Warehouse Um data warehouse é um sistema de armazenamento centralizado que coleta e integra dados de diversas fontes ● Escalabilidade: médio ● Flexibilidade: Baixa ● Desempenho: Ótimo ● Complexidade: Baixa

Slide 18

Slide 18 text

Data Lake Um data lake é um repositório de dados que armazena dados brutos e não processados em sua forma nativa até que sejam necessários para análise. ● Escalabilidade: Altissima ● Flexibilidade: Muito ● Desempenho: Depende, médio ● Complexidade: média

Slide 19

Slide 19 text

Data Mart Um data mart é um subconjunto de um data warehouse, focado em fornecer dados específicos para um grupo de usuários ou departamento. ● Escalabilidade: Alta ● Flexibilidade: Alta ● Desempenho: Alto ● Complexidade: Alta

Slide 20

Slide 20 text

Data Mesh O data mesh é uma abordagem emergente que propõe a descentralização e a distribuição de responsabilidades de dados para equipes individuais. ● Escalabilidade: Alta ● Flexibilidade: Alta ● Desempenho: Alto ● Complexidade: Alta

Slide 21

Slide 21 text

Data Lakehouse O data lakehouse combina as capacidades de armazenamento de dados brutos de um data lake com a funcionalidade analítica de um data warehouse. ● Escalabilidade: Alta ● Flexibilidade: Alta ● Desempenho: Meh

Slide 22

Slide 22 text

No content

Slide 23

Slide 23 text

Concluindo ● Arquitetura de dados é importante e pode salvar dinheiro! ● Não existe uma resposta certa ● Entendam melhor os diferentes tipos de arquitetura (e modelagem) ● Testem, experimentem, comparem

Slide 24

Slide 24 text

Dúvidas?

Slide 25

Slide 25 text

Obrigade! @1cadumagalhaes linkedin.com/in/1cadumagalhaes work.cadumagalhaes.dev blog.cadumagalhaes.dev dev.to/1cadumagalhaes spearkerdeck.com/1cadumagalhaes