Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Introdução ao processo ETL - Pentaho

Bruno Silva
October 10, 2017

Introdução ao processo ETL - Pentaho

Minicurso na 3ª Semana de Informática do CERES/Caicó|UFRN

Bruno Silva

October 10, 2017
Tweet

More Decks by Bruno Silva

Other Decks in Education

Transcript

  1. Agenda 1. O que é ETL; 2. Objetivo; 3. Usabilidade;

    4. Usos da ETL; 5. Ferramentas; 6. Suíte Pentaho; 7. Terminologia; 8. Referências. 3
  2. O que é ETL Extract (Extração): Processamento que visa conectar

    as fontes de dados, extrair os mesmos e torná-los disponíveis para os próximos passos. Transform (Transformação): Etapa onde são realizados os devidos ajustes, podendo assim melhorar a qualidade dos dados e consolidar dados vindos de duas ou mais fontes. Load (Carga): Consiste em carregar os dados no sistema alvo, simulado ou exportá-los. 4
  3. Objetivo Extração de dados de diversos sistemas, transformação desses dados

    conforme determinadas regras de negócios e no carregamento dos dados geralmente para um Data Mart e/ou Data Warehouse, podendo também serem enviados para um determinado sistema, banco de dados ou exportados em arquivos para a organização. 5
  4. Utilidade Tendo em mente os slides anteriores, é realmente necessário

    o uso de uma ferramenta para desempenhar tal atividade? 6
  5. Usos da ETL • Migração de dados entre aplicações/banco de

    dados; • Exportar dados de banco de dados para arquivos texto; • Carregar massivamente dados em banco de dados; • Data Cleansing – disciplina de qualidade/limpeza de dados de data Warehouse; • Integração de aplicações. 7
  6. Algumas ferramentas ◦ IBM InfoSphere DataStage ◦ Informática Power Center

    ◦ SAP BusinessObjects Data Services ◦ Microsoft Integration Server (MSIS) ◦ Pentaho Data Integration ◦ Oracle Data Integrator (ODI) PDI 8
  7. Suíte Pentaho Pentaho® Schema Workbench: Permite criar métricas, dimensões e

    hierarquias entre as informações, por meio de cubos no formato XML oferecendo melhor visualização das definições do cubo. Community Dashboard Editor (CDE): Ferramenta de criação, edição e renderização dos dashboards. Com ele, é possível alterar o layout, escolher os componentes e suas fontes de dados. Mondrian e Saiku: Responsáveis pelo OLAP, ou seja, pela análise de dados sob diferentes perspectivas. Pentaho® Report Designer (PRD): Permite a criação de relatórios possibilitando personalização das apresentações dos indicadores de dados. Pentaho® Data Integration (PDI): Responsável pela integração de dados oriundos de fontes diferentes, por meio de técnicas ETL. 9
  8. Terminologia Transformação: Rotina com um conjunto de passos interligados. Steps:

    Os passos interligados nas transformações. Hops: Representação gráfica do fluxo de dados. Jobs: Rotina que pode executar uma ou mais transformações. Transformação/ Job 10 Extração Transformação (L)Carga Steps Hops
  9. Referências • WIKIPEDIA. Pentaho, 2017. Disponível em: <https://pt.wikipedia.org/wiki/Pentaho> Acesso em:

    25 de set de 2017. • PENTAHO. Pentaho, 2017. Disponível em: <http://www.pentaho.com> Acesso em: 25 de set de 2017. 12