Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Carregando Dados Para Azure SQL Data Warehouse ...

Carregando Dados Para Azure SQL Data Warehouse com Polybase e Datafactory - SQL Saturday Salvador 2018

Nesta sessão conhecemos um pouco do processo de ELT utilizando
o poder do Massively Parallel Processing (MPP) do Azure SQL Data Warehouse,
extraindo e carregando as informações com Azure Data Factory e Polybase.
O intuito será mostrar uma forma diferente de se realizar o tradicional
processo de ETL utilizando os recursos que a nuvem pode nos oferecer.
Link: https://www.sqlsaturday.com/799/eventhome.aspx

sidney cirqueira

October 28, 2018
Tweet

More Decks by sidney cirqueira

Other Decks in Technology

Transcript

  1. Carregando dados para SQL Data Warehouse com Data Factory e

    PolyBase Raiane Lins Sidney Cirqueira
  2. Apresentação pessoal Raiane Lins • Trabalha com Banco de Dados

    há 6 anos; • DBA na empresa SICOOB Confederação; • Colaboradora do Blog Comunidade SQL Server; • Contatos: • Linkedin: https://www.linkedin.c om/in/raiane-flores-borba-lins- 07567463/; • Email: [email protected]. Sidney Cirqueira • Trabalha com Banco de Dados há 4 anos; • DBA na empresa WIZ Soluções; • Participante da comunidade SQLServerDF, BrasiliaDataGroup e BSB IA, Data Science, BigData & Analytics; • Linkedin: https://linkedin.com/in/sidn eyoliveiracirqueira/; • Email: [email protected]
  3. Objetivo • Conhecer brevemente cada estrutura dessa solução; • Carregar

    informações das fontes do SQL Server e do blob storage para o SQL Data Warehouse.
  4. Azure SQL Data Warehouse • É uma solução disponível no

    azure no formato de plataforma como serviço (PaaS). • É um sistema MPP (Massively Parallel Processing), diferente do sistema de armazenamento tradicional, onde, em vez de tudo consolidado em uma única máquina, é na verdade um sistema distribuído em que diferentes computadores, chamados nós, trabalham juntos para fornecer dados para suas consultas. • A divisão do SQL Data Warehouse do Azure em várias máquinas o torna dependente do armazenamento distribuído, bem como na computação distribuída.
  5. Azure storage • Hash • Melhor desempenho de consulta para

    junções e agregações em tabelas grandes. • Round Robin​ • Melhor desempenho para tabelas de carga. • Replicate • Melhor desempenho de consulta para tabelas pequenas.
  6. O que é ELT? É o processo pelo qual o

    dados são carregados de um sistema de origem para um Data Warehouse de destino. • Primeiro carrega os dados e depois transforma • Economiza o custo computacional de oferecer recursos próprios • Aproveita o sistema MPP para realizar as transformações
  7. Etapas básicas para utilização do ELT: 1. Extraia os dados

    de origem em arquivos de texto; 2. Coloque os dados no armazenamento do Azure Blob ou no Azure Data Lake Store; 3. Prepare os dados para o carregamento; 4. Carregue os dados nas tabelas de migração do SQL Data; Warehouse usando o PolyBase; 5. Transforme os dados; 6. Insira os dados nas tabelas de produção.
  8. O que é o Polybase? • É uma tecnologia que

    acessa dados fora da base de dados do SQL Server via T-SQL.; • A partir do SQL Server 2016 isso permite você rodar consultas em dados externos no Hadoop ou importar/exportar dados de um Azure Blob Storage; • No SQL Server 2019 CTP 2.0 é possível acessar dados externos no SQL Server, Oracle, Teradata e MongoDB.
  9. Opções para carga de dados com Polybase​ • T-SQL; •

    SSIS​; • Azure Data Factory; • Databricks.
  10. Integração Polybase com o Azure Permite que o SQL Data

    Warehouse importe/exporte dados do Azure Blob Store e Azure Data Lake Store.