$30 off During Our Annual Pro Sale. View Details »

JUC - Primeros pasos con Hadoop

CETA-Ciemat
February 10, 2015

JUC - Primeros pasos con Hadoop

I Jornadas Técnicas UEx - CIEMAT. Procesando grandes volúmenes de datos con Hadoop

CETA-Ciemat

February 10, 2015
Tweet

More Decks by CETA-Ciemat

Other Decks in Education

Transcript

  1. Jornadas Técnicas Uex-CIEMAT // 10-12 Febrero 2015
    Procesando grandes volúmenes de datos con
    HADOOP
    María Botón Fernández
    [email protected]
    Primeros Pasos con Hadoop

    View Slide

  2. ÍNDICE
     Big Data
     Hadoop. Orígenes
     El ecosistema de Hadoop
     Ventajas y Desventajas
     Otras Distribuciones
     Referencias y enlaces de interés
    2

    View Slide

  3. Conozcámonos…
     Nombre
     Ocupación
     Interés en el curso
     Experiencia previa
    3

    View Slide

  4. Objetivos
     Conocer qué es Big Data.
     Qué necesidades cubre Hadoop.
     Componentes esenciales de Hadoop.
    4

    View Slide

  5. ¿Cómo definirías Big Data?
    5

    View Slide

  6. BIG DATA
     Término cada vez más utilizado
     Wikipedia
    «Big Data es en el sector de tecnologías de la
    información y la comunicación una referencia a los
    sistemas que manipulan grandes conjuntos de datos
    (o data sets). Las dificultades más habituales en estos
    casos se centran en la captura, el almacenamiento,
    búsqueda, compartición, análisis, y visualización»
    6

    View Slide

  7.  Nuestro mundo gira en torno a los datos
     Ciencia: bases de datos en astronomía, genómica, datos
    medioambientales, etc.
     Humanidades y Ciencias Sociales: libros escaneados,
    documentos históricos, datos de interacciones sociales, etc.
     Negocios y Comercio: ventas corporativas, operaciones bursátiles,
    censos, tráfico aéreo, etc.
     Entretenimiento: imágenes internet, películas, ficheros mp3, etc.
     Medicina: resonancias magnéticas, tomografías, registros de
    pacientes, etc.
    BIG DATA
    7

    View Slide

  8. ¿Pero realmente generamos tanta información?
     Yahoo
     maneja 82PB – 25k nodos
     Facebook
     Genera 15TB de datos nuevos al día
     6k mensajes/seg, 50k mensajes instantáneos/seg
     Twitter
     Genera 1TB de datos nuevos al día
     Ebay, Linkedin, NYTimes, etc.
    BIG DATA
    8

    View Slide

  9.  Estas cantidades de datos generan tres retos estratégico y
    operacionales:
     Estrategia de información
     Análisis de datos
     Interpretación de los datos
     De la información que generamos
     20% información estructurada
    BIG DATA
    9

    View Slide

  10.  El fenómeno Big Data trata de resolver:
     Cómo almacenar y trabajar grandes volúmenes de
    datos
     Cómo interpretar y analizar estos datos
    BIG DATA
    10

    View Slide

  11.  ¿Qué es Hadoop?
     Framework Apache
     Creación software seguro y escalable
     Procesamiento distribuido de grandes volúmenes de datos
    HADOOP. ORÍGENES
    «The Apache Hadoop software library is a framework that allows
    for the distributed processing of large data sets across clusters of
    computers using simple programming models. It is designed to
    scale up from single servers to thousands of machines, each
    offering local computation and storage. Rather than rely on
    hardware to deliver high-availability, the library itself is designed to
    detect and handle failures at the application layer, so delivering a
    highly-available service on top of a cluster of computers, each of
    which may be prone to failures.»
    11

    View Slide

  12.  ¿De dónde viene?
     Creado por Doug Cutting (chairman of board of
    directors of the Apache Software Foundation, 2010)
     Comenzó como funcionalidad de Nutch
     Basado en Google GFS (Google File System)
    HADOOP. ORÍGENES
    12

    View Slide

  13.  Otras características:
     Permite montar de forma fácil y fiable clústers
    multinodos.
     Implementa Map/Reduce y un sistema de archivos
    distribuido (HDFS).
     Basado en Java
     Tolerancia a fallos
     Divide y vencerás
    HADOOP. ORÍGENES
    13

    View Slide

  14. HADOOP. ORÍGENES
    Divide y vencerás
    (Divide et impera)
    Tolerancia a fallos
    14

    View Slide

  15.  Ahora es un proyecto Apache
     Incluye los siguientes módulos:
     Hadoop Common: utilidades comunes que apoyan
    otros módulos
     Hadoop HDFS: sistema de ficheros de almacenamiento
     Hadoop YARN: marco para manejo de recursos de
    programación
     Hadoop MapReduce: sistema basado en YARN para
    procesamiento paralelo de datos
    HADOOP. ORÍGENES
    15

    View Slide

  16.  Ecosistema diverso
     Apache crea proyectos y tecnologías basadas en
    Hadoop
    EL ECOSISTEMA DE HADOOP
    16

    View Slide

  17.  Chuckwa: sistema de recogida de datos para
    monitorizar y analizar grandes sistemas distribuidos
     Apache Flume: sistema para obtención, agregación y
    movimiento de datos log a HDFS
     Hive: infraestructura de data-warehouse
     Apache HBase: base de datos distribuida no
    relacional
    EL ECOSISTEMA DE HADOOP
    17

    View Slide

  18.  Apache Mahout: algoritmos escalables de machine
    learning y minería de datos
     Apache Sqoop: herramienta para transferencia
    eficiente de datos entre Hadoop y bases de datos
    relacionales
     Apache ZooKeeper: servicio centralizado de
    configuración, nombrado, sincronización distribuida y
    servicios de grupos para grandes sistemas distribuidos
    EL ECOSISTEMA DE HADOOP
    18

    View Slide

  19.  Apache Lucene: librería para buscar textos
     Apache Pig: lenguaje data-flow de alto nivel para
    facilitar la programación MapReduce
     Jaql: lenguaje de consulta funcional y declarativo que
    facilita la explotación de información organizada en
    JSON
    EL ECOSISTEMA DE HADOOP
    19

    View Slide

  20.  Apache Avro: sistema de serialización de datos
     Apache UIMA: framework para analizar grandes
    volúmenes de datos no estructurados
    EL ECOSISTEMA DE HADOOP
    20

    View Slide

  21. EL ECOSISTEMA DE HADOOP
    21

    View Slide

  22. VENTAJAS Y DESVENTAJAS
    Ventajas
     Menor coste
     Robustez
     Tolerancia a fallos
     Schema on-read
     Accedera la información y procesarla independientemente de su tipo
     Enfoque distribuido
     Escala de forma lineal y transparente
    22

    View Slide

  23. VENTAJAS Y DESVENTAJAS
    Desventajas
    Latencia
    Cantidades grandes de ficheros pequeños
    No se puede acceder con los comandos tradicionales de linux
    No todos los algoritmos se pueden escribir con MapReduce
    Difícil de depurar
    23

    View Slide

  24. OTROS FRAMEWORKS BIG DATA
    24

    View Slide

  25.  Framework de procesamiento distribuido en memoria
    (In-Memory)
     Originalmente desarrollado como un proyecto de
    investigación en AMPLab de la UC Berkeley
     Computación híbrida
    OTROS FRAMEWORKS BIG DATA
    25

    View Slide

  26.  Ejecuta los trabajos por lotes de procesamiento de
    entre 10 a 100 veces más rápido MapReduce
     Permite manipular los datos en tiempo real
     Alta tolerancia a fallos
     Facilidad de uso
     Multiplataforma
    OTROS FRAMEWORKS BIG DATA
    26

    View Slide

  27.  Soporte de Hadoop para empresas
     Despliegue en minutos del Pack completo de Hadoop
     Administración centralizada de los servicios del
    sistema a través de una interfaz fácil de usar
     Gestión de la configuración en tiempo real
    OTROS FRAMEWORKS BIG DATA
    27

    View Slide

  28.  Capacidad para aprobar los cambios del clúster
    mientras se está ejecutando
     Validación integral y control de errores
     Automatiza la expansión de los servicios a nuevos
    nodos en línea
     Cloudera Management propietario
    OTROS FRAMEWORKS BIG DATA
    28

    View Slide

  29.  Colección de servicios de computación en la nube que
    ofrece una plataforma de computación
     Infraestructura flexible
     Escalabilidad simple y automática
     Seguridad mediante certificaciones y auditorías
    reconocidas en el sector
    OTROS FRAMEWORKS BIG DATA
    29

    View Slide

  30.  Bajo coste
     Plataforma independiente del lenguaje y el SO
     Proporciona infraestructura en red global masiva
     Permite procesar datos empresariales y científicos
    OTROS FRAMEWORKS BIG DATA
    30

    View Slide

  31.  Distribución reciente de Hadoop para empresas
     Incluye Apache Ambari para gestión y administración
    del clúster
     No incluye software propietario en su distribución
     La distribución HDP2.0 puede descargarse desde su
    página web, libre de coste
    OTROS FRAMEWORKS BIG DATA
    31

    View Slide

  32.  Acerca Hadoop a Windows junto con Microsoft
     HDP componente nativo del servidor de Windows
     Licencia open-source
     Completamente libre
    OTROS FRAMEWORKS BIG DATA
    32

    View Slide

  33.  Ofrece análisis Big Data de alto rendimiento
     Más reciente que sus competidoras
     MapRFS sustituye a HDFS
     Gestión más eficiente de los datos
     Fácil uso
    OTROS FRAMEWORKS BIG DATA
    33

    View Slide

  34. ¿Cómo definirías Big Data?
    34

    View Slide

  35. ¡Recapitulemos!
     Cómo y por qué surge Big Data
     Sobre Hadoop
     Funcionalidades
     Características
     Tecnologías que lo complementan
     Otras distribuciones
    35

    View Slide

  36.  Libro Big Data Now editorial O’Reilly
     Libro Big Data: A Revolution That Will Transform
    How We Live, Work, and Think editorial Hardcover
     Libro Hadoop For Dummies editorial Paperback
     Página Proyecto Hadoop
     Página de Chuckwa
     Página de Apache Flume
    Referencias y enlaces de interés

    View Slide

  37.  Página de Hive
     Página de Apache Hbase
     Página de Apache Mahout
     Página de Apache Sqoop
     Página de Apache ZooKeeper
     Página de Apache Lucene
     Página de Apache Pig
    Referencias y enlaces de interés

    View Slide

  38.  Página de Jaql
     Página de Apache Avro
     Página de Apache UIMA
    Referencias y enlaces de interés

    View Slide

  39. ¡GRACIAS!

    View Slide