JUC - Primeros pasos con Hadoop

C4187f9cd1f03aa1619b269218883910?s=47 CETA-Ciemat
February 10, 2015

JUC - Primeros pasos con Hadoop

I Jornadas Técnicas UEx - CIEMAT. Procesando grandes volúmenes de datos con Hadoop

C4187f9cd1f03aa1619b269218883910?s=128

CETA-Ciemat

February 10, 2015
Tweet

Transcript

  1. Jornadas Técnicas Uex-CIEMAT // 10-12 Febrero 2015 Procesando grandes volúmenes

    de datos con HADOOP María Botón Fernández maria.boton@externos.ciemat.es Primeros Pasos con Hadoop
  2. ÍNDICE  Big Data  Hadoop. Orígenes  El ecosistema

    de Hadoop  Ventajas y Desventajas  Otras Distribuciones  Referencias y enlaces de interés 2
  3. Conozcámonos…  Nombre  Ocupación  Interés en el curso

     Experiencia previa 3
  4. Objetivos  Conocer qué es Big Data.  Qué necesidades

    cubre Hadoop.  Componentes esenciales de Hadoop. 4
  5. ¿Cómo definirías Big Data? 5

  6. BIG DATA  Término cada vez más utilizado  Wikipedia

    «Big Data es en el sector de tecnologías de la información y la comunicación una referencia a los sistemas que manipulan grandes conjuntos de datos (o data sets). Las dificultades más habituales en estos casos se centran en la captura, el almacenamiento, búsqueda, compartición, análisis, y visualización» 6
  7.  Nuestro mundo gira en torno a los datos 

    Ciencia: bases de datos en astronomía, genómica, datos medioambientales, etc.  Humanidades y Ciencias Sociales: libros escaneados, documentos históricos, datos de interacciones sociales, etc.  Negocios y Comercio: ventas corporativas, operaciones bursátiles, censos, tráfico aéreo, etc.  Entretenimiento: imágenes internet, películas, ficheros mp3, etc.  Medicina: resonancias magnéticas, tomografías, registros de pacientes, etc. BIG DATA 7
  8. ¿Pero realmente generamos tanta información?  Yahoo  maneja 82PB

    – 25k nodos  Facebook  Genera 15TB de datos nuevos al día  6k mensajes/seg, 50k mensajes instantáneos/seg  Twitter  Genera 1TB de datos nuevos al día  Ebay, Linkedin, NYTimes, etc. BIG DATA 8
  9.  Estas cantidades de datos generan tres retos estratégico y

    operacionales:  Estrategia de información  Análisis de datos  Interpretación de los datos  De la información que generamos  20% información estructurada BIG DATA 9
  10.  El fenómeno Big Data trata de resolver:  Cómo

    almacenar y trabajar grandes volúmenes de datos  Cómo interpretar y analizar estos datos BIG DATA 10
  11.  ¿Qué es Hadoop?  Framework Apache  Creación software

    seguro y escalable  Procesamiento distribuido de grandes volúmenes de datos HADOOP. ORÍGENES «The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver high-availability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-available service on top of a cluster of computers, each of which may be prone to failures.» 11
  12.  ¿De dónde viene?  Creado por Doug Cutting (chairman

    of board of directors of the Apache Software Foundation, 2010)  Comenzó como funcionalidad de Nutch  Basado en Google GFS (Google File System) HADOOP. ORÍGENES 12
  13.  Otras características:  Permite montar de forma fácil y

    fiable clústers multinodos.  Implementa Map/Reduce y un sistema de archivos distribuido (HDFS).  Basado en Java  Tolerancia a fallos  Divide y vencerás HADOOP. ORÍGENES 13
  14. HADOOP. ORÍGENES Divide y vencerás (Divide et impera) Tolerancia a

    fallos 14
  15.  Ahora es un proyecto Apache  Incluye los siguientes

    módulos:  Hadoop Common: utilidades comunes que apoyan otros módulos  Hadoop HDFS: sistema de ficheros de almacenamiento  Hadoop YARN: marco para manejo de recursos de programación  Hadoop MapReduce: sistema basado en YARN para procesamiento paralelo de datos HADOOP. ORÍGENES 15
  16.  Ecosistema diverso  Apache crea proyectos y tecnologías basadas

    en Hadoop EL ECOSISTEMA DE HADOOP 16
  17.  Chuckwa: sistema de recogida de datos para monitorizar y

    analizar grandes sistemas distribuidos  Apache Flume: sistema para obtención, agregación y movimiento de datos log a HDFS  Hive: infraestructura de data-warehouse  Apache HBase: base de datos distribuida no relacional EL ECOSISTEMA DE HADOOP 17
  18.  Apache Mahout: algoritmos escalables de machine learning y minería

    de datos  Apache Sqoop: herramienta para transferencia eficiente de datos entre Hadoop y bases de datos relacionales  Apache ZooKeeper: servicio centralizado de configuración, nombrado, sincronización distribuida y servicios de grupos para grandes sistemas distribuidos EL ECOSISTEMA DE HADOOP 18
  19.  Apache Lucene: librería para buscar textos  Apache Pig:

    lenguaje data-flow de alto nivel para facilitar la programación MapReduce  Jaql: lenguaje de consulta funcional y declarativo que facilita la explotación de información organizada en JSON EL ECOSISTEMA DE HADOOP 19
  20.  Apache Avro: sistema de serialización de datos  Apache

    UIMA: framework para analizar grandes volúmenes de datos no estructurados EL ECOSISTEMA DE HADOOP 20
  21. EL ECOSISTEMA DE HADOOP 21

  22. VENTAJAS Y DESVENTAJAS Ventajas  Menor coste  Robustez 

    Tolerancia a fallos  Schema on-read  Accedera la información y procesarla independientemente de su tipo  Enfoque distribuido  Escala de forma lineal y transparente 22
  23. VENTAJAS Y DESVENTAJAS Desventajas Latencia Cantidades grandes de ficheros pequeños

    No se puede acceder con los comandos tradicionales de linux No todos los algoritmos se pueden escribir con MapReduce Difícil de depurar 23
  24. OTROS FRAMEWORKS BIG DATA 24

  25.  Framework de procesamiento distribuido en memoria (In-Memory)  Originalmente

    desarrollado como un proyecto de investigación en AMPLab de la UC Berkeley  Computación híbrida OTROS FRAMEWORKS BIG DATA 25
  26.  Ejecuta los trabajos por lotes de procesamiento de entre

    10 a 100 veces más rápido MapReduce  Permite manipular los datos en tiempo real  Alta tolerancia a fallos  Facilidad de uso  Multiplataforma OTROS FRAMEWORKS BIG DATA 26
  27.  Soporte de Hadoop para empresas  Despliegue en minutos

    del Pack completo de Hadoop  Administración centralizada de los servicios del sistema a través de una interfaz fácil de usar  Gestión de la configuración en tiempo real OTROS FRAMEWORKS BIG DATA 27
  28.  Capacidad para aprobar los cambios del clúster mientras se

    está ejecutando  Validación integral y control de errores  Automatiza la expansión de los servicios a nuevos nodos en línea  Cloudera Management propietario OTROS FRAMEWORKS BIG DATA 28
  29.  Colección de servicios de computación en la nube que

    ofrece una plataforma de computación  Infraestructura flexible  Escalabilidad simple y automática  Seguridad mediante certificaciones y auditorías reconocidas en el sector OTROS FRAMEWORKS BIG DATA 29
  30.  Bajo coste  Plataforma independiente del lenguaje y el

    SO  Proporciona infraestructura en red global masiva  Permite procesar datos empresariales y científicos OTROS FRAMEWORKS BIG DATA 30
  31.  Distribución reciente de Hadoop para empresas  Incluye Apache

    Ambari para gestión y administración del clúster  No incluye software propietario en su distribución  La distribución HDP2.0 puede descargarse desde su página web, libre de coste OTROS FRAMEWORKS BIG DATA 31
  32.  Acerca Hadoop a Windows junto con Microsoft  HDP

    componente nativo del servidor de Windows  Licencia open-source  Completamente libre OTROS FRAMEWORKS BIG DATA 32
  33.  Ofrece análisis Big Data de alto rendimiento  Más

    reciente que sus competidoras  MapRFS sustituye a HDFS  Gestión más eficiente de los datos  Fácil uso OTROS FRAMEWORKS BIG DATA 33
  34. ¿Cómo definirías Big Data? 34

  35. ¡Recapitulemos!  Cómo y por qué surge Big Data 

    Sobre Hadoop  Funcionalidades  Características  Tecnologías que lo complementan  Otras distribuciones 35
  36.  Libro Big Data Now editorial O’Reilly  Libro Big

    Data: A Revolution That Will Transform How We Live, Work, and Think editorial Hardcover  Libro Hadoop For Dummies editorial Paperback  Página Proyecto Hadoop  Página de Chuckwa  Página de Apache Flume Referencias y enlaces de interés
  37.  Página de Hive  Página de Apache Hbase 

    Página de Apache Mahout  Página de Apache Sqoop  Página de Apache ZooKeeper  Página de Apache Lucene  Página de Apache Pig Referencias y enlaces de interés
  38.  Página de Jaql  Página de Apache Avro 

    Página de Apache UIMA Referencias y enlaces de interés
  39. ¡GRACIAS!