Jornadas Técnicas Uex-CIEMAT // 10-12 Febrero 2015 Procesando grandes volúmenes de datos con HADOOP María Botón Fernández [email protected] Primeros Pasos con Hadoop
BIG DATA Término cada vez más utilizado Wikipedia «Big Data es en el sector de tecnologías de la información y la comunicación una referencia a los sistemas que manipulan grandes conjuntos de datos (o data sets). Las dificultades más habituales en estos casos se centran en la captura, el almacenamiento, búsqueda, compartición, análisis, y visualización» 6
Nuestro mundo gira en torno a los datos Ciencia: bases de datos en astronomía, genómica, datos medioambientales, etc. Humanidades y Ciencias Sociales: libros escaneados, documentos históricos, datos de interacciones sociales, etc. Negocios y Comercio: ventas corporativas, operaciones bursátiles, censos, tráfico aéreo, etc. Entretenimiento: imágenes internet, películas, ficheros mp3, etc. Medicina: resonancias magnéticas, tomografías, registros de pacientes, etc. BIG DATA 7
¿Pero realmente generamos tanta información? Yahoo maneja 82PB – 25k nodos Facebook Genera 15TB de datos nuevos al día 6k mensajes/seg, 50k mensajes instantáneos/seg Twitter Genera 1TB de datos nuevos al día Ebay, Linkedin, NYTimes, etc. BIG DATA 8
Estas cantidades de datos generan tres retos estratégico y operacionales: Estrategia de información Análisis de datos Interpretación de los datos De la información que generamos 20% información estructurada BIG DATA 9
¿Qué es Hadoop? Framework Apache Creación software seguro y escalable Procesamiento distribuido de grandes volúmenes de datos HADOOP. ORÍGENES «The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver high-availability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-available service on top of a cluster of computers, each of which may be prone to failures.» 11
¿De dónde viene? Creado por Doug Cutting (chairman of board of directors of the Apache Software Foundation, 2010) Comenzó como funcionalidad de Nutch Basado en Google GFS (Google File System) HADOOP. ORÍGENES 12
Otras características: Permite montar de forma fácil y fiable clústers multinodos. Implementa Map/Reduce y un sistema de archivos distribuido (HDFS). Basado en Java Tolerancia a fallos Divide y vencerás HADOOP. ORÍGENES 13
Ahora es un proyecto Apache Incluye los siguientes módulos: Hadoop Common: utilidades comunes que apoyan otros módulos Hadoop HDFS: sistema de ficheros de almacenamiento Hadoop YARN: marco para manejo de recursos de programación Hadoop MapReduce: sistema basado en YARN para procesamiento paralelo de datos HADOOP. ORÍGENES 15
Chuckwa: sistema de recogida de datos para monitorizar y analizar grandes sistemas distribuidos Apache Flume: sistema para obtención, agregación y movimiento de datos log a HDFS Hive: infraestructura de data-warehouse Apache HBase: base de datos distribuida no relacional EL ECOSISTEMA DE HADOOP 17
Apache Mahout: algoritmos escalables de machine learning y minería de datos Apache Sqoop: herramienta para transferencia eficiente de datos entre Hadoop y bases de datos relacionales Apache ZooKeeper: servicio centralizado de configuración, nombrado, sincronización distribuida y servicios de grupos para grandes sistemas distribuidos EL ECOSISTEMA DE HADOOP 18
Apache Lucene: librería para buscar textos Apache Pig: lenguaje data-flow de alto nivel para facilitar la programación MapReduce Jaql: lenguaje de consulta funcional y declarativo que facilita la explotación de información organizada en JSON EL ECOSISTEMA DE HADOOP 19
Apache Avro: sistema de serialización de datos Apache UIMA: framework para analizar grandes volúmenes de datos no estructurados EL ECOSISTEMA DE HADOOP 20
VENTAJAS Y DESVENTAJAS Ventajas Menor coste Robustez Tolerancia a fallos Schema on-read Accedera la información y procesarla independientemente de su tipo Enfoque distribuido Escala de forma lineal y transparente 22
VENTAJAS Y DESVENTAJAS Desventajas Latencia Cantidades grandes de ficheros pequeños No se puede acceder con los comandos tradicionales de linux No todos los algoritmos se pueden escribir con MapReduce Difícil de depurar 23
Framework de procesamiento distribuido en memoria (In-Memory) Originalmente desarrollado como un proyecto de investigación en AMPLab de la UC Berkeley Computación híbrida OTROS FRAMEWORKS BIG DATA 25
Ejecuta los trabajos por lotes de procesamiento de entre 10 a 100 veces más rápido MapReduce Permite manipular los datos en tiempo real Alta tolerancia a fallos Facilidad de uso Multiplataforma OTROS FRAMEWORKS BIG DATA 26
Soporte de Hadoop para empresas Despliegue en minutos del Pack completo de Hadoop Administración centralizada de los servicios del sistema a través de una interfaz fácil de usar Gestión de la configuración en tiempo real OTROS FRAMEWORKS BIG DATA 27
Capacidad para aprobar los cambios del clúster mientras se está ejecutando Validación integral y control de errores Automatiza la expansión de los servicios a nuevos nodos en línea Cloudera Management propietario OTROS FRAMEWORKS BIG DATA 28
Colección de servicios de computación en la nube que ofrece una plataforma de computación Infraestructura flexible Escalabilidad simple y automática Seguridad mediante certificaciones y auditorías reconocidas en el sector OTROS FRAMEWORKS BIG DATA 29
Bajo coste Plataforma independiente del lenguaje y el SO Proporciona infraestructura en red global masiva Permite procesar datos empresariales y científicos OTROS FRAMEWORKS BIG DATA 30
Distribución reciente de Hadoop para empresas Incluye Apache Ambari para gestión y administración del clúster No incluye software propietario en su distribución La distribución HDP2.0 puede descargarse desde su página web, libre de coste OTROS FRAMEWORKS BIG DATA 31
Acerca Hadoop a Windows junto con Microsoft HDP componente nativo del servidor de Windows Licencia open-source Completamente libre OTROS FRAMEWORKS BIG DATA 32
Ofrece análisis Big Data de alto rendimiento Más reciente que sus competidoras MapRFS sustituye a HDFS Gestión más eficiente de los datos Fácil uso OTROS FRAMEWORKS BIG DATA 33
¡Recapitulemos! Cómo y por qué surge Big Data Sobre Hadoop Funcionalidades Características Tecnologías que lo complementan Otras distribuciones 35
Libro Big Data Now editorial O’Reilly Libro Big Data: A Revolution That Will Transform How We Live, Work, and Think editorial Hardcover Libro Hadoop For Dummies editorial Paperback Página Proyecto Hadoop Página de Chuckwa Página de Apache Flume Referencias y enlaces de interés
Página de Hive Página de Apache Hbase Página de Apache Mahout Página de Apache Sqoop Página de Apache ZooKeeper Página de Apache Lucene Página de Apache Pig Referencias y enlaces de interés