$30 off During Our Annual Pro Sale. View Details »

Construindo Data Lake no Google Cloud

Construindo Data Lake no Google Cloud

Data Lake é um conceito, não uma ferramenta!

Avatar for Fernando Sedrez

Fernando Sedrez

June 07, 2022
Tweet

More Decks by Fernando Sedrez

Other Decks in Technology

Transcript

  1. CLOUD SUMMIT CERRADO Fernando Sedrez Senior Data Engineer at Globo

    Organizer at GDG Pelotas @fmsedrez Construindo Data Lake no Google Cloud
  2. Data Lake é um conceito, não uma ferramenta! • Repositório

    que armazena dados em qualquer escala; • Dados brutos, em formato nativo, em uma visão não refinada dos dados; • Dados refinados, agrupados (parquet, avro) e processados. • Dados estruturados, semi-estruturados (JSON, CSV), não-estruturados (vídeos, áudio)
  3. Boas práticas • Evite muitos dados pequenos, tente usar dados

    em formatos serializados (parquet, avro); • ELT em vez de ETL; • Consultas federadas entre GCS e BQ para carregar e transformar os dados em um único passo; • Use particionamento e clusterização; • Crie passos intermediários (raw, stage) antes de entregar os dados;