engenharia de dados • ~10 anos de programação • Google Cloud certified • Dono de gatos • Nerd, músico e cubista • Especialista em gambiarras • Participante de eventos e caçador de brindes Cadu Magalhães @1cadumagalhaes blog.cadumagalhaes.dev datacareer.guide
ainda é feita em planilhas, extraídas manualmente • Quando não é em planilha, é em notebooks python (ou os dois) • Não costumam usar ferramentas de versionamento • Tendência a reconstruir tudo do 0 • Teste? CI/CD? Padrões de código? Boas práticas?
• O objetivo é garantir que os dados são precisos, confiáveis e úteis Testes • Foco nos processos e na lógica usados para gerenciar e transformar os dados • O objetivo é verificar e validar a operação correta dos sistemas Data Quality
Garantir que os dados extraídos seguem os “contratos” definidos. • Que todos os campos: ◦ estão disponíveis, ◦ são do tipo esperado • Em extração de dados via API, em sistemas de integração (download de arquivos, acesso a um banco de dados).
Ferramentas de mock (ex: Faker) • Escrever manualmente • Gen AI? • Amostra de dados já existentes ◦ De preferência, que não sejam de produção ◦ Utilizar ferramentas de ofuscação para dados sensíveis, se necessário • No caso de integração com sistemas (API’s), pode ser preciso fazer mock da chamada e da resposta.
consultas em amostras de tabelas grandes (geralmente entre 1 e 10% dos dados) para otimizar custos • Crie o costume de pensar em conjuntos de dados que são necessários para satisfazer suas consultas • Sugira a utilização de ferramentas especializadas (inclusive para testes) • Se possível, escreva testes unitários nos seus scripts e códigos. Pelo menos para os casos mais simples • Se o assunto te interessar, estude sobre Test Driven Development (TDD)
Mas em aplicações de dados ele está se desenvolvendo. Além dessas etapas “básicas”, também podemos criar testes de performance, investir mais esforço em fazer uma avaliação de data quality. E por fim, existem materiais complementares sobre testes que mostram como cobrir outras etapas importantes do ambiente de dados.