JUC - Primeros pasos con Hadoop

Jornadas Técnicas Uex-CIEMAT // 10-12 Febrero 2015 Procesando grandes volúmenes
de datos con HADOOP María Botón Fernández [email protected] Primeros Pasos con Hadoop

ÍNDICE  Big Data  Hadoop. Orígenes  El ecosistema
de Hadoop  Ventajas y Desventajas  Otras Distribuciones  Referencias y enlaces de interés 2

Conozcámonos…  Nombre  Ocupación  Interés en el curso
 Experiencia previa 3

Objetivos  Conocer qué es Big Data.  Qué necesidades
cubre Hadoop.  Componentes esenciales de Hadoop. 4

¿Cómo definirías Big Data? 5

BIG DATA  Término cada vez más utilizado  Wikipedia
«Big Data es en el sector de tecnologías de la información y la comunicación una referencia a los sistemas que manipulan grandes conjuntos de datos (o data sets). Las dificultades más habituales en estos casos se centran en la captura, el almacenamiento, búsqueda, compartición, análisis, y visualización» 6

 Nuestro mundo gira en torno a los datos 
Ciencia: bases de datos en astronomía, genómica, datos medioambientales, etc.  Humanidades y Ciencias Sociales: libros escaneados, documentos históricos, datos de interacciones sociales, etc.  Negocios y Comercio: ventas corporativas, operaciones bursátiles, censos, tráfico aéreo, etc.  Entretenimiento: imágenes internet, películas, ficheros mp3, etc.  Medicina: resonancias magnéticas, tomografías, registros de pacientes, etc. BIG DATA 7

¿Pero realmente generamos tanta información?  Yahoo  maneja 82PB
– 25k nodos  Facebook  Genera 15TB de datos nuevos al día  6k mensajes/seg, 50k mensajes instantáneos/seg  Twitter  Genera 1TB de datos nuevos al día  Ebay, Linkedin, NYTimes, etc. BIG DATA 8

 Estas cantidades de datos generan tres retos estratégico y
operacionales:  Estrategia de información  Análisis de datos  Interpretación de los datos  De la información que generamos  20% información estructurada BIG DATA 9

 El fenómeno Big Data trata de resolver:  Cómo
almacenar y trabajar grandes volúmenes de datos  Cómo interpretar y analizar estos datos BIG DATA 10

 ¿Qué es Hadoop?  Framework Apache  Creación software
seguro y escalable  Procesamiento distribuido de grandes volúmenes de datos HADOOP. ORÍGENES «The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver high-availability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-available service on top of a cluster of computers, each of which may be prone to failures.» 11

 ¿De dónde viene?  Creado por Doug Cutting (chairman
of board of directors of the Apache Software Foundation, 2010)  Comenzó como funcionalidad de Nutch  Basado en Google GFS (Google File System) HADOOP. ORÍGENES 12

 Otras características:  Permite montar de forma fácil y
fiable clústers multinodos.  Implementa Map/Reduce y un sistema de archivos distribuido (HDFS).  Basado en Java  Tolerancia a fallos  Divide y vencerás HADOOP. ORÍGENES 13

HADOOP. ORÍGENES Divide y vencerás (Divide et impera) Tolerancia a
fallos 14

 Ahora es un proyecto Apache  Incluye los siguientes
módulos:  Hadoop Common: utilidades comunes que apoyan otros módulos  Hadoop HDFS: sistema de ficheros de almacenamiento  Hadoop YARN: marco para manejo de recursos de programación  Hadoop MapReduce: sistema basado en YARN para procesamiento paralelo de datos HADOOP. ORÍGENES 15

 Ecosistema diverso  Apache crea proyectos y tecnologías basadas
en Hadoop EL ECOSISTEMA DE HADOOP 16

 Chuckwa: sistema de recogida de datos para monitorizar y
analizar grandes sistemas distribuidos  Apache Flume: sistema para obtención, agregación y movimiento de datos log a HDFS  Hive: infraestructura de data-warehouse  Apache HBase: base de datos distribuida no relacional EL ECOSISTEMA DE HADOOP 17

 Apache Mahout: algoritmos escalables de machine learning y minería
de datos  Apache Sqoop: herramienta para transferencia eficiente de datos entre Hadoop y bases de datos relacionales  Apache ZooKeeper: servicio centralizado de configuración, nombrado, sincronización distribuida y servicios de grupos para grandes sistemas distribuidos EL ECOSISTEMA DE HADOOP 18

 Apache Lucene: librería para buscar textos  Apache Pig:
lenguaje data-flow de alto nivel para facilitar la programación MapReduce  Jaql: lenguaje de consulta funcional y declarativo que facilita la explotación de información organizada en JSON EL ECOSISTEMA DE HADOOP 19

 Apache Avro: sistema de serialización de datos  Apache
UIMA: framework para analizar grandes volúmenes de datos no estructurados EL ECOSISTEMA DE HADOOP 20

EL ECOSISTEMA DE HADOOP 21

VENTAJAS Y DESVENTAJAS Ventajas  Menor coste  Robustez 
Tolerancia a fallos  Schema on-read  Accedera la información y procesarla independientemente de su tipo  Enfoque distribuido  Escala de forma lineal y transparente 22

VENTAJAS Y DESVENTAJAS Desventajas Latencia Cantidades grandes de ficheros pequeños
No se puede acceder con los comandos tradicionales de linux No todos los algoritmos se pueden escribir con MapReduce Difícil de depurar 23

OTROS FRAMEWORKS BIG DATA 24

 Framework de procesamiento distribuido en memoria (In-Memory)  Originalmente
desarrollado como un proyecto de investigación en AMPLab de la UC Berkeley  Computación híbrida OTROS FRAMEWORKS BIG DATA 25

 Ejecuta los trabajos por lotes de procesamiento de entre
10 a 100 veces más rápido MapReduce  Permite manipular los datos en tiempo real  Alta tolerancia a fallos  Facilidad de uso  Multiplataforma OTROS FRAMEWORKS BIG DATA 26

 Soporte de Hadoop para empresas  Despliegue en minutos
del Pack completo de Hadoop  Administración centralizada de los servicios del sistema a través de una interfaz fácil de usar  Gestión de la configuración en tiempo real OTROS FRAMEWORKS BIG DATA 27

 Capacidad para aprobar los cambios del clúster mientras se
está ejecutando  Validación integral y control de errores  Automatiza la expansión de los servicios a nuevos nodos en línea  Cloudera Management propietario OTROS FRAMEWORKS BIG DATA 28

 Colección de servicios de computación en la nube que
ofrece una plataforma de computación  Infraestructura flexible  Escalabilidad simple y automática  Seguridad mediante certificaciones y auditorías reconocidas en el sector OTROS FRAMEWORKS BIG DATA 29

 Bajo coste  Plataforma independiente del lenguaje y el
SO  Proporciona infraestructura en red global masiva  Permite procesar datos empresariales y científicos OTROS FRAMEWORKS BIG DATA 30

 Distribución reciente de Hadoop para empresas  Incluye Apache
Ambari para gestión y administración del clúster  No incluye software propietario en su distribución  La distribución HDP2.0 puede descargarse desde su página web, libre de coste OTROS FRAMEWORKS BIG DATA 31

 Acerca Hadoop a Windows junto con Microsoft  HDP
componente nativo del servidor de Windows  Licencia open-source  Completamente libre OTROS FRAMEWORKS BIG DATA 32

 Ofrece análisis Big Data de alto rendimiento  Más
reciente que sus competidoras  MapRFS sustituye a HDFS  Gestión más eficiente de los datos  Fácil uso OTROS FRAMEWORKS BIG DATA 33

¿Cómo definirías Big Data? 34

¡Recapitulemos!  Cómo y por qué surge Big Data 
Sobre Hadoop  Funcionalidades  Características  Tecnologías que lo complementan  Otras distribuciones 35

 Libro Big Data Now editorial O’Reilly  Libro Big
Data: A Revolution That Will Transform How We Live, Work, and Think editorial Hardcover  Libro Hadoop For Dummies editorial Paperback  Página Proyecto Hadoop  Página de Chuckwa  Página de Apache Flume Referencias y enlaces de interés

 Página de Hive  Página de Apache Hbase 
Página de Apache Mahout  Página de Apache Sqoop  Página de Apache ZooKeeper  Página de Apache Lucene  Página de Apache Pig Referencias y enlaces de interés

 Página de Jaql  Página de Apache Avro 
Página de Apache UIMA Referencias y enlaces de interés

¡GRACIAS!

JUC - Primeros pasos con Hadoop

JUC - Primeros pasos con Hadoop

More Decks by CETA-Ciemat

Other Decks in Education

Featured

Transcript