Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[NodeBR] Roadmap para Engenharia de Dados em 2024

[NodeBR] Roadmap para Engenharia de Dados em 2024

Vamos montar um roteiro de Engenharia de dados para todos os níveis, para quem tem interesse em entrar na área ou quem já está e quer se destacar no mercado. Vamos explorar os fundamentos, conceitos importantes, materiais de estudo e as tendências para esse ano.

Cadu Magalhães

February 07, 2024
Tweet

More Decks by Cadu Magalhães

Other Decks in Technology

Transcript

  1. Quem é esse? • 26 anos • ~5 anos de

    engenharia de dados • ~10 anos de programação • Google Cloud certified • Dono de gatos • Nerd, músico frustrado e cubista • Especialista em gambiarras • Participante de eventos e caçador de brindes Cadu Magalhães @1cadumagalhaes blog.cadumagalhaes.dev datacareer.guide
  2. O que é Engenharia de Dados? A Engenharia de Dados

    (...) se concentra na concepção, construção e manutenção de sistemas e infraestrutura para a coleta, armazenamento, processamento e análise de de dados. - Chat GPT
  3. Um pouco de história 2012 Redshift Data Warehouse 1960 1980

    ETL 2006 AWS 2015 Airflow 2021 dbt 2003 Google Distributed Filesystem 2004 MapReduce Hadoop 2006
  4. O que faz uma pessoa Engenheira de Dados? Depende. As

    responsabilidades vão mudar de acordo com o contexto, time e empresa em que se atua. Por ser uma área tão nova, as atribuições vão mudando com o tempo, além de outros cargos irem surgindo para fazer etapas específicas do trabalho de uma pessoa engenheira de dados.
  5. Por isso, uma pessoa engenheira de dados pode atuar da

    coleta de dados ao processamento e entrega deles. Na prática, as atribuições mais comuns são: • Modelagem de dados: definir quais tabelas serão criadas, quais informações elas terão e como isso vai responder as perguntas de negócio • Transformações de dados: escrever (em SQL ou em qualquer framework) os códigos que vão gerar os modelos planejados • Manutenção da pipeline: garantir a execução de tudo que é necessário O que faz uma pessoa Engenheira de Dados?
  6. Primeiros passos na área, conceitos básicos Fundamentos Solidificar fundamentos e

    aprender ferramentas Intermediário Para quem já tem experiência e quer aprofundar Avançado Observações do mercado em geral Tendências Roadmap de Engenharia de Dados
  7. Aviso • A classificação feita nesse roadmap é 100% baseada

    na minha OPINIÃO (e um pouquinho de experiência e pesquisas). • O que está aqui não é nenhuma verdade absoluta. • “Mas Cadu eu quero estudar um negócio avançado mas sou iniciante, posso?” ◦ Sim, pode
  8. Fundamentos para Iniciantes 1. Conceitos de bancos de dados a.

    Saber quais são os tipos (orientado a coluna, de documentos, de grafos, in-memory, de chave-valor, não relacional, timeseries, relacional) b. Bancos relacionais c. Teorema CAP, ACID 2. Conceitos de pipeline a. O que é uma pipeline de dados b. Processamento em batch x streaming c. ETL x ELT 3. Conceitos de arquitetura de dados a. Data warehouse e data lake, pra começar 4. Uma linguagem de script/programação (python) 5. Git 6. SQL com foco em consultas a. ORDER, GROUP, JOIN's etc
  9. Intermediário Com uma fundação sólida e entendimento dos fundamentos, agora

    podemos aprofundar em alguns tópicos mais complexos e aumentar nosso portfólio. Parte II
  10. Aprofundando os conhecimentos 1. Arquitetura de dados a. Data Warehouse,

    Lake, Mesh, Mart; b. Arquitetura de camadas de dados i. Medallion, Lambda, Kappa 2. Modelagem de dados a. Indexação, otimização de armazenamento e consulta b. Modelagem relacional, dimensional (star schema, snowflake), "tabelão" (one big table), data vault. 3. Transformação de dados a. Apache Spark, Apache Beam, Hadoop b. dbt, dataform, airflow c. SQL avançado: janelas, CTE’s e subconsultas, procedures 4. Plataforma de nuvem a. AWS, Azure, GCP 5. Orquestração de pipelines a. Apache Airflow b. AWS Step Functions, Google Workflows, Azure Data Factory 6. DataOps a. Infra as Code (Terraform, Opentofu) b. Testes (testes unitários, data quality) c. CI/CD
  11. Avançado Depois de adquirir experiência, podemos nos aprofundar em tópicos

    avançados e técnicas mais sofisticadas. Aqui vamos nos aproximar cada vez mais da Engenharia de Software. Parte III
  12. Assuntos complexos 1. Mensageria a. kafka, google pubsub, aws sqs

    2. Processamento de dados em streaming a. Spark, Bean, Flink 3. Observabilidade a. Open Metrics, Open Lineage, Open Telemetry 4. Data Quality 5. Engenharia de software a. Sistemas distribuídos b. Concorrência
  13. Tendências O que há de novidade, desenvolvimentos interessantes e o

    que está sendo usado mundo a fora. Parte IV
  14. Próximos passos do mercado • “Modern Data Stack” ficando madura

    • Cada vez mais DataOps • Multi-cloud é uma necessidade
  15. TODO: referências e sugestões de materiais de estudos • Dataengineering.wiki

    • https://github.com/SartMorgs/data-engineer-roadmap •