Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Manipulación de datos con Kettle

Manipulación de datos con Kettle

Presentación realizaca en el taller anual del SIU en la Universidad Nacional de Córdoba

Avatar for Marcos Pierri

Marcos Pierri

October 24, 2011
Tweet

Other Decks in Technology

Transcript

  1. Manipulación de datos con Kettle Ing. Marcos Pierri SIU-Datawarehouse [email protected]

    Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 1
  2. Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá -

    15 y 16 de septiembre 2011 – UNCOR 2  ¿Qué es Kettle?  ¿Para qué sirve?  Principales características  Instalación  Ejemplos de uso - DEMO Contenido
  3.  Herramienta de ETL (extracción, transformación y carga) Open Source.

     Creado por Matt Casters - @mattcasters  Adquirido por Pentaho en 2006. Actualmente se llama Pentaho Data Integration (PDI).  Desarrollado integramente en Java.  Licencia GNU LGPL.  Última versión estable 4.1.0 (30-11-2010).  Versión en desarrollo 4.2.0-RC1 (01-07-2011). ¿Qué es Kettle? Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 3
  4.  Integración de datos  Carga de datawarehouses y datamarts

     Limpieza de datos (data cleansing)  Análisis y perfilado de datos (data profiling)  Migración de datos entre Bases de datos  Exportar datos de Bases de datos a archivos planos  Etc, etc ... ¿Para qué sirve? Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 4
  5.  GUI muy avanzada.  Soporte para gran cantidad de

    fuentes de información.  Basado en dos tipos de objetos diferentes: Transformaciones Trabajos  Las T&T utilizan un lenguaje descriptivo (XML).  Cuenta con herramientas y utilidades para crear, administrar y ejecutar T&T.  Permite extender las funcionalidad mediante el desarrollo de Plugins propios. Principales características Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 5
  6. GUI muy avanzada Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche

    y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 6
  7. Fuentes de información Excel Bases de datos (+40): - PostgreSQL

    - MySql - Informix - dBase III, IV o 5 - Firebird SQL - IBM DB2 - MS SQL Server - MS Access - Oracle - SAP ERP System - Teradata - LucidDB - Hypersonic - Apache Derby - etc, etc ... Xml Txt / CSV RSS Salesforce Google Analytics Web services Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 7
  8. Transformaciones  Orientación a los Datos. Representa una tarea ETL.

     Es una colección de “pasos”. Cada paso es una operación particular sobre datos.  Los “pasos” se conectan entre sí a través de “saltos”, que indica cual será el flujo de los datos.  Los “pasos” trabajan de manera simultánea y asincrónica. Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 8
  9. Trabajos  Orientación a la Tarea y a los Datos.

     Usualmente un Trabajo se compone de una o más Transformaciones/Trabajos, que serán ejecutadas secuencialmente.  La ejecución de cada “Entrada de Trabajo” presenta una salida de status, que puede ser analizada para la realización de diferentes acciones. Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 9
  10.  Spoon: IDE gráfico para crear T&T.  Kitchen: herramienta

    de línea de comandos para ejecutar Trabajos.  Pan: herramienta de línea de comandos para ejecutar Transformaciones.  Carte: servidor liviano para ejecutar T&T en host remotos. Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 10 Herramientas y utilidades para crear, administrar y ejecutar T&T
  11.  Pre-requisitos - JRE (o JDK) 5.x o superior. 

    Descarga - http://sourceforge.net/projects/pentaho/files/ - Carpeta “Data Integration” - Versión 4.1.0 – 106.5 MB - Versión 4.2.0-RC1 – 225.3 MB Instalación Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 11
  12. Después de descomprimir el archivo - Ejecutar spoon.sh (Linux) o

    spoon.bat (Windows) Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 12
  13. Pantalla de Bienvenida Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche

    y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 13
  14. Ejemplos de uso - DEMO Los ejemplos fueron extraidos del

    libro Pentaho Data Integration 4 Cookbook – María C. Roldán. (http://www.packtpub.com/support) 01 - leer un archivo txt. 02 - escribir un archivo txt. 03 - leyendo un archivo simple XML. 04 - leyendo un archivo excel. 05 - generando datos de ejemplo para testeo. 06 - cargando datos desde txt en una base postgresql. 07 - leyendo datos desde una base postgresql y exportarlos a un txt. 08 - programando una funcionalidad a medida. 09 - enviando e-mails con archivos adjuntos. 10 - copiando o moviendo uno a más archivos. Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 14
  15. Libros - Información Wiki SIU Pentaho: http://repositorio.siu.edu.ar/trac/dw_pentaho/wiki/WikiStart Foro SIU Comunidad:

    http://comunidad.siu.edu.ar/index.php?board=49.0 --------------------------------------------------------------------------------------------------------------- Sitio de PDI - Kettle: http://kettle.pentaho.com/ Foros Pentaho: http://forums.pentaho.com/ Pentaho Solutions - Roland Bouman, Jos van Dongen – Wiley - ISBN:978-0-470-48432-6 Pentaho 3.2 Data Integration: Beginner's Guide - María Carina Roldán - Packt Publishing - ISBN:1847199542 Pentaho Kettle Solutions - Matt Casters, Roland Bouman, Jos van Dongen – Wiley - ISBN:978-0-470-63517-9 Pentaho Data Integration 4 Cookbook - Adrián Sergio Pulvirenti, María Carina Roldán - Pack Publishing - ISBN: 978- 1-84951-524-5 Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 15
  16. ¿Preguntas? ¿Preguntas? Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y

    SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 16
  17. Más información: www.siu.edu.ar [email protected] Muchas Gracias!!! Taller Anual de los

    sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 17