Slide 1

Slide 1 text

Jornadas Técnicas Uex-CIEMAT // 10-12 Febrero 2015 Procesando grandes volúmenes de datos con HADOOP María Botón Fernández [email protected] Primeros Pasos con Hadoop

Slide 2

Slide 2 text

ÍNDICE  Big Data  Hadoop. Orígenes  El ecosistema de Hadoop  Ventajas y Desventajas  Otras Distribuciones  Referencias y enlaces de interés 2

Slide 3

Slide 3 text

Conozcámonos…  Nombre  Ocupación  Interés en el curso  Experiencia previa 3

Slide 4

Slide 4 text

Objetivos  Conocer qué es Big Data.  Qué necesidades cubre Hadoop.  Componentes esenciales de Hadoop. 4

Slide 5

Slide 5 text

¿Cómo definirías Big Data? 5

Slide 6

Slide 6 text

BIG DATA  Término cada vez más utilizado  Wikipedia «Big Data es en el sector de tecnologías de la información y la comunicación una referencia a los sistemas que manipulan grandes conjuntos de datos (o data sets). Las dificultades más habituales en estos casos se centran en la captura, el almacenamiento, búsqueda, compartición, análisis, y visualización» 6

Slide 7

Slide 7 text

 Nuestro mundo gira en torno a los datos  Ciencia: bases de datos en astronomía, genómica, datos medioambientales, etc.  Humanidades y Ciencias Sociales: libros escaneados, documentos históricos, datos de interacciones sociales, etc.  Negocios y Comercio: ventas corporativas, operaciones bursátiles, censos, tráfico aéreo, etc.  Entretenimiento: imágenes internet, películas, ficheros mp3, etc.  Medicina: resonancias magnéticas, tomografías, registros de pacientes, etc. BIG DATA 7

Slide 8

Slide 8 text

¿Pero realmente generamos tanta información?  Yahoo  maneja 82PB – 25k nodos  Facebook  Genera 15TB de datos nuevos al día  6k mensajes/seg, 50k mensajes instantáneos/seg  Twitter  Genera 1TB de datos nuevos al día  Ebay, Linkedin, NYTimes, etc. BIG DATA 8

Slide 9

Slide 9 text

 Estas cantidades de datos generan tres retos estratégico y operacionales:  Estrategia de información  Análisis de datos  Interpretación de los datos  De la información que generamos  20% información estructurada BIG DATA 9

Slide 10

Slide 10 text

 El fenómeno Big Data trata de resolver:  Cómo almacenar y trabajar grandes volúmenes de datos  Cómo interpretar y analizar estos datos BIG DATA 10

Slide 11

Slide 11 text

 ¿Qué es Hadoop?  Framework Apache  Creación software seguro y escalable  Procesamiento distribuido de grandes volúmenes de datos HADOOP. ORÍGENES «The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver high-availability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-available service on top of a cluster of computers, each of which may be prone to failures.» 11

Slide 12

Slide 12 text

 ¿De dónde viene?  Creado por Doug Cutting (chairman of board of directors of the Apache Software Foundation, 2010)  Comenzó como funcionalidad de Nutch  Basado en Google GFS (Google File System) HADOOP. ORÍGENES 12

Slide 13

Slide 13 text

 Otras características:  Permite montar de forma fácil y fiable clústers multinodos.  Implementa Map/Reduce y un sistema de archivos distribuido (HDFS).  Basado en Java  Tolerancia a fallos  Divide y vencerás HADOOP. ORÍGENES 13

Slide 14

Slide 14 text

HADOOP. ORÍGENES Divide y vencerás (Divide et impera) Tolerancia a fallos 14

Slide 15

Slide 15 text

 Ahora es un proyecto Apache  Incluye los siguientes módulos:  Hadoop Common: utilidades comunes que apoyan otros módulos  Hadoop HDFS: sistema de ficheros de almacenamiento  Hadoop YARN: marco para manejo de recursos de programación  Hadoop MapReduce: sistema basado en YARN para procesamiento paralelo de datos HADOOP. ORÍGENES 15

Slide 16

Slide 16 text

 Ecosistema diverso  Apache crea proyectos y tecnologías basadas en Hadoop EL ECOSISTEMA DE HADOOP 16

Slide 17

Slide 17 text

 Chuckwa: sistema de recogida de datos para monitorizar y analizar grandes sistemas distribuidos  Apache Flume: sistema para obtención, agregación y movimiento de datos log a HDFS  Hive: infraestructura de data-warehouse  Apache HBase: base de datos distribuida no relacional EL ECOSISTEMA DE HADOOP 17

Slide 18

Slide 18 text

 Apache Mahout: algoritmos escalables de machine learning y minería de datos  Apache Sqoop: herramienta para transferencia eficiente de datos entre Hadoop y bases de datos relacionales  Apache ZooKeeper: servicio centralizado de configuración, nombrado, sincronización distribuida y servicios de grupos para grandes sistemas distribuidos EL ECOSISTEMA DE HADOOP 18

Slide 19

Slide 19 text

 Apache Lucene: librería para buscar textos  Apache Pig: lenguaje data-flow de alto nivel para facilitar la programación MapReduce  Jaql: lenguaje de consulta funcional y declarativo que facilita la explotación de información organizada en JSON EL ECOSISTEMA DE HADOOP 19

Slide 20

Slide 20 text

 Apache Avro: sistema de serialización de datos  Apache UIMA: framework para analizar grandes volúmenes de datos no estructurados EL ECOSISTEMA DE HADOOP 20

Slide 21

Slide 21 text

EL ECOSISTEMA DE HADOOP 21

Slide 22

Slide 22 text

VENTAJAS Y DESVENTAJAS Ventajas  Menor coste  Robustez  Tolerancia a fallos  Schema on-read  Accedera la información y procesarla independientemente de su tipo  Enfoque distribuido  Escala de forma lineal y transparente 22

Slide 23

Slide 23 text

VENTAJAS Y DESVENTAJAS Desventajas Latencia Cantidades grandes de ficheros pequeños No se puede acceder con los comandos tradicionales de linux No todos los algoritmos se pueden escribir con MapReduce Difícil de depurar 23

Slide 24

Slide 24 text

OTROS FRAMEWORKS BIG DATA 24

Slide 25

Slide 25 text

 Framework de procesamiento distribuido en memoria (In-Memory)  Originalmente desarrollado como un proyecto de investigación en AMPLab de la UC Berkeley  Computación híbrida OTROS FRAMEWORKS BIG DATA 25

Slide 26

Slide 26 text

 Ejecuta los trabajos por lotes de procesamiento de entre 10 a 100 veces más rápido MapReduce  Permite manipular los datos en tiempo real  Alta tolerancia a fallos  Facilidad de uso  Multiplataforma OTROS FRAMEWORKS BIG DATA 26

Slide 27

Slide 27 text

 Soporte de Hadoop para empresas  Despliegue en minutos del Pack completo de Hadoop  Administración centralizada de los servicios del sistema a través de una interfaz fácil de usar  Gestión de la configuración en tiempo real OTROS FRAMEWORKS BIG DATA 27

Slide 28

Slide 28 text

 Capacidad para aprobar los cambios del clúster mientras se está ejecutando  Validación integral y control de errores  Automatiza la expansión de los servicios a nuevos nodos en línea  Cloudera Management propietario OTROS FRAMEWORKS BIG DATA 28

Slide 29

Slide 29 text

 Colección de servicios de computación en la nube que ofrece una plataforma de computación  Infraestructura flexible  Escalabilidad simple y automática  Seguridad mediante certificaciones y auditorías reconocidas en el sector OTROS FRAMEWORKS BIG DATA 29

Slide 30

Slide 30 text

 Bajo coste  Plataforma independiente del lenguaje y el SO  Proporciona infraestructura en red global masiva  Permite procesar datos empresariales y científicos OTROS FRAMEWORKS BIG DATA 30

Slide 31

Slide 31 text

 Distribución reciente de Hadoop para empresas  Incluye Apache Ambari para gestión y administración del clúster  No incluye software propietario en su distribución  La distribución HDP2.0 puede descargarse desde su página web, libre de coste OTROS FRAMEWORKS BIG DATA 31

Slide 32

Slide 32 text

 Acerca Hadoop a Windows junto con Microsoft  HDP componente nativo del servidor de Windows  Licencia open-source  Completamente libre OTROS FRAMEWORKS BIG DATA 32

Slide 33

Slide 33 text

 Ofrece análisis Big Data de alto rendimiento  Más reciente que sus competidoras  MapRFS sustituye a HDFS  Gestión más eficiente de los datos  Fácil uso OTROS FRAMEWORKS BIG DATA 33

Slide 34

Slide 34 text

¿Cómo definirías Big Data? 34

Slide 35

Slide 35 text

¡Recapitulemos!  Cómo y por qué surge Big Data  Sobre Hadoop  Funcionalidades  Características  Tecnologías que lo complementan  Otras distribuciones 35

Slide 36

Slide 36 text

 Libro Big Data Now editorial O’Reilly  Libro Big Data: A Revolution That Will Transform How We Live, Work, and Think editorial Hardcover  Libro Hadoop For Dummies editorial Paperback  Página Proyecto Hadoop  Página de Chuckwa  Página de Apache Flume Referencias y enlaces de interés

Slide 37

Slide 37 text

 Página de Hive  Página de Apache Hbase  Página de Apache Mahout  Página de Apache Sqoop  Página de Apache ZooKeeper  Página de Apache Lucene  Página de Apache Pig Referencias y enlaces de interés

Slide 38

Slide 38 text

 Página de Jaql  Página de Apache Avro  Página de Apache UIMA Referencias y enlaces de interés

Slide 39

Slide 39 text

¡GRACIAS!