Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Modern Data Stack - Potencializando a Análise d...

Modern Data Stack - Potencializando a Análise de Dados para Decisões Estratégicas

Embarque em uma jornada pela essência dos Pipelines, ETL e ELT, na apresentação que desvenda o que é a Modern Data Stack. Explore cada etapa, desde a ingestão até a visualização, e descubra como essa abordagem revoluciona a análise de dados para decisões estratégicas. Com exemplos práticos, apresentamos as ferramentas-chave em cada fase, proporcionando uma visão abrangente e pronta para implementação. Prepare-se para maximizar o potencial dos seus dados e transformá-los em insights valiosos para orientar decisões estratégicas de forma eficaz.

Cadu Magalhães

January 31, 2024
Tweet

More Decks by Cadu Magalhães

Other Decks in Technology

Transcript

  1. Quem é esse? • 26 anos • 4 anos de

    engenharia de dados • Google cloud certified • Dono de gato Cadu Magalhães @1cadumagalhaes cadumagalhaes.dev datacareer.guide
  2. Pipeline? “Uma série de ações que manipulam e combinam dados

    de múltiplas fontes para análise ou visualização”
  3. O que é? “A modern data stack é uma abordagem

    de arquitetura de dados composta por um conjunto de ferramentas e tecnologias integradas, que permitem às empresas coletar, armazenar, processar e analisar dados de forma ágil e escalável, facilitando a tomada de decisões baseadas em dados.” - Chat GPT
  4. Ingestão Decidir quais são as fontes de dados, e qual

    exatamente será o processo de ingestão. Podemos baixar dados via API, utilizando alguma biblioteca pronta, uma ferramenta especializada.
  5. Armazenamento Decidir qual será o formato, ferramenta e local onde

    armazenaremos os dados (tanto brutos quanto transformados, de preferência). Aqui podemos discutir algumas formas de arquitetura, como data lake, data warehouse, data mesh.
  6. Orquestração Tendo nossas transformações mapeadas, precisamos definir quando e onde

    serão executadas. E mais importante, garantir que as dependências estejam mapeadas.
  7. Ingestão de dados Airbyte - Open Source Meltano - Open

    Source Supermetrics, Fivetran, Adverity, Funnel, Stich