Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Carregando Dados Para Azure SQL Data Warehouse ...

Carregando Dados Para Azure SQL Data Warehouse com Polybase e Datafactory - SQL Saturday Salvador 2018

Nesta sessão conhecemos um pouco do processo de ELT utilizando
o poder do Massively Parallel Processing (MPP) do Azure SQL Data Warehouse,
extraindo e carregando as informações com Azure Data Factory e Polybase.
O intuito será mostrar uma forma diferente de se realizar o tradicional
processo de ETL utilizando os recursos que a nuvem pode nos oferecer.
Link: https://www.sqlsaturday.com/799/eventhome.aspx

Avatar for sidney cirqueira

sidney cirqueira

October 28, 2018
Tweet

More Decks by sidney cirqueira

Other Decks in Technology

Transcript

  1. Carregando dados para SQL Data Warehouse com Data Factory e

    PolyBase Raiane Lins Sidney Cirqueira
  2. Apresentação pessoal Raiane Lins • Trabalha com Banco de Dados

    há 6 anos; • DBA na empresa SICOOB Confederação; • Colaboradora do Blog Comunidade SQL Server; • Contatos: • Linkedin: https://www.linkedin.c om/in/raiane-flores-borba-lins- 07567463/; • Email: [email protected]. Sidney Cirqueira • Trabalha com Banco de Dados há 4 anos; • DBA na empresa WIZ Soluções; • Participante da comunidade SQLServerDF, BrasiliaDataGroup e BSB IA, Data Science, BigData & Analytics; • Linkedin: https://linkedin.com/in/sidn eyoliveiracirqueira/; • Email: [email protected]
  3. Objetivo • Conhecer brevemente cada estrutura dessa solução; • Carregar

    informações das fontes do SQL Server e do blob storage para o SQL Data Warehouse.
  4. Azure SQL Data Warehouse • É uma solução disponível no

    azure no formato de plataforma como serviço (PaaS). • É um sistema MPP (Massively Parallel Processing), diferente do sistema de armazenamento tradicional, onde, em vez de tudo consolidado em uma única máquina, é na verdade um sistema distribuído em que diferentes computadores, chamados nós, trabalham juntos para fornecer dados para suas consultas. • A divisão do SQL Data Warehouse do Azure em várias máquinas o torna dependente do armazenamento distribuído, bem como na computação distribuída.
  5. Azure storage • Hash • Melhor desempenho de consulta para

    junções e agregações em tabelas grandes. • Round Robin​ • Melhor desempenho para tabelas de carga. • Replicate • Melhor desempenho de consulta para tabelas pequenas.
  6. O que é ELT? É o processo pelo qual o

    dados são carregados de um sistema de origem para um Data Warehouse de destino. • Primeiro carrega os dados e depois transforma • Economiza o custo computacional de oferecer recursos próprios • Aproveita o sistema MPP para realizar as transformações
  7. Etapas básicas para utilização do ELT: 1. Extraia os dados

    de origem em arquivos de texto; 2. Coloque os dados no armazenamento do Azure Blob ou no Azure Data Lake Store; 3. Prepare os dados para o carregamento; 4. Carregue os dados nas tabelas de migração do SQL Data; Warehouse usando o PolyBase; 5. Transforme os dados; 6. Insira os dados nas tabelas de produção.
  8. O que é o Polybase? • É uma tecnologia que

    acessa dados fora da base de dados do SQL Server via T-SQL.; • A partir do SQL Server 2016 isso permite você rodar consultas em dados externos no Hadoop ou importar/exportar dados de um Azure Blob Storage; • No SQL Server 2019 CTP 2.0 é possível acessar dados externos no SQL Server, Oracle, Teradata e MongoDB.
  9. Opções para carga de dados com Polybase​ • T-SQL; •

    SSIS​; • Azure Data Factory; • Databricks.
  10. Integração Polybase com o Azure Permite que o SQL Data

    Warehouse importe/exporte dados do Azure Blob Store e Azure Data Lake Store.