15 y 16 de septiembre 2011 – UNCOR 2 ¿Qué es Kettle? ¿Para qué sirve? Principales características Instalación Ejemplos de uso - DEMO Contenido
Creado por Matt Casters - @mattcasters Adquirido por Pentaho en 2006. Actualmente se llama Pentaho Data Integration (PDI). Desarrollado integramente en Java. Licencia GNU LGPL. Última versión estable 4.1.0 (30-11-2010). Versión en desarrollo 4.2.0-RC1 (01-07-2011). ¿Qué es Kettle? Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 3
Limpieza de datos (data cleansing) Análisis y perfilado de datos (data profiling) Migración de datos entre Bases de datos Exportar datos de Bases de datos a archivos planos Etc, etc ... ¿Para qué sirve? Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 4
fuentes de información. Basado en dos tipos de objetos diferentes: Transformaciones Trabajos Las T&T utilizan un lenguaje descriptivo (XML). Cuenta con herramientas y utilidades para crear, administrar y ejecutar T&T. Permite extender las funcionalidad mediante el desarrollo de Plugins propios. Principales características Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 5
- MySql - Informix - dBase III, IV o 5 - Firebird SQL - IBM DB2 - MS SQL Server - MS Access - Oracle - SAP ERP System - Teradata - LucidDB - Hypersonic - Apache Derby - etc, etc ... Xml Txt / CSV RSS Salesforce Google Analytics Web services Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 7
Es una colección de “pasos”. Cada paso es una operación particular sobre datos. Los “pasos” se conectan entre sí a través de “saltos”, que indica cual será el flujo de los datos. Los “pasos” trabajan de manera simultánea y asincrónica. Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 8
Usualmente un Trabajo se compone de una o más Transformaciones/Trabajos, que serán ejecutadas secuencialmente. La ejecución de cada “Entrada de Trabajo” presenta una salida de status, que puede ser analizada para la realización de diferentes acciones. Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 9
de línea de comandos para ejecutar Trabajos. Pan: herramienta de línea de comandos para ejecutar Transformaciones. Carte: servidor liviano para ejecutar T&T en host remotos. Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 10 Herramientas y utilidades para crear, administrar y ejecutar T&T
Descarga - http://sourceforge.net/projects/pentaho/files/ - Carpeta “Data Integration” - Versión 4.1.0 – 106.5 MB - Versión 4.2.0-RC1 – 225.3 MB Instalación Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 11
libro Pentaho Data Integration 4 Cookbook – María C. Roldán. (http://www.packtpub.com/support) 01 - leer un archivo txt. 02 - escribir un archivo txt. 03 - leyendo un archivo simple XML. 04 - leyendo un archivo excel. 05 - generando datos de ejemplo para testeo. 06 - cargando datos desde txt en una base postgresql. 07 - leyendo datos desde una base postgresql y exportarlos a un txt. 08 - programando una funcionalidad a medida. 09 - enviando e-mails con archivos adjuntos. 10 - copiando o moviendo uno a más archivos. Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 14