Hadoop sobre OpenStack

Hadoop sobre OpenStack

Presentación sobre OpenStack Sahara realizada en la OpenExpo 2016, celebrada en Madrid el 2 de junio de 2016. Incluye una demo del despliegue de un cluster de Spark y la ejecución de un trabajo sobre el cluster desde Sahara.

Demo: https://youtu.be/idAaLo1stbw

Fuente original de las slides: http://slides.flossystems.com/2016/06/02/openexpo/sahara/

0b8127384c277a7a0672b91f6ea2ba96?s=128

FLOSSystems

June 02, 2016
Tweet

Transcript

  1. 4.

    Empresa tecnológica española nacida en 2011 Especializada en el diseño,

    despliegue y administración de infraestructuras como servicio (IaaS) y en arquitecturas “high end” altamente escalables Únicamente utilizamos software libre, evitando al cliente costes de licencias y vendor lock-in
  2. 5.

    Disponemos de infraestructura propia en Madrid y Amsterdam, no revendemos

    cloud de terceros Explotamos nuestro propio OpenStack en producción, donde alojamos a nuestros clientes Madrid Datacenter
  3. 7.

    Estrictamente: un framework orientado al procesamiento, análisis y almacenamiento distribuido

    de grandes colecciones de datos Proyecto libre de la Apache Foundation
  4. 8.
  5. 9.

    ECOSISTEMA HADOOP En sentido amplio: un conjunto de proyectos y

    herramientas integradas con Apache Hadoop (“kernel”) Nadie usa solo un kernel
  6. 12.

    DISTRIBUCIONES Facilitan enormemente el despliegue y la gestión del ecosistema

    OpenStack Sahara permite desplegarlas mediante plugins
  7. 15.

    TIEMPO REAL Apache Spark: procesa primitivas en memoria, en lugar

    de disco como MapReduce hasta 40 veces más rápido que Hadoop ideal para consultas iterativas y responsivas y aprendizaje automático se integra con Hadoop Apache Storm: Desarrollado por Twitter, procesa en tiempo real
  8. 17.

    Un framework open source para construir por componentes IaaS completas

    Proporciona servicios de computación, red y almacenamiento Autoprovisión web para usuarios nales API muy rica
  9. 21.

    HADOOP + OPENSTACK Hadoop es intensivo en recursos: demanda agilidad

    para escalar/desescalar Hadoop es difícil de con gurar, desplegar, testear, optimizar y mantener OpenStack Sahara reduce al mínimo estas di cultades OpenStack Sahara trae todas las ventajas del cloud al big data
  10. 23.

    Es un componente o cial de OpenStack para procesamiento y

    análisis de datos con Hadoop Incubado en Icehouse (abril 2014). Integrado desde Juno (octubre 2014) Permite con gurar, desplegar, escalar y operar clusters de Hadoop sobre OpenStack ¡Big Data as a Service!
  11. 24.

    SAHARA EN OPENSTACK Acceso ágil, elástico y bajo demanda al

    universo big data Escalabilidad ilimitada Disponibilidad y durabilidad de datos mediante Swift
  12. 25.

    Facilita la ejecución de trabajos y aplicaciones de Big Data

    incluso a usuarios nales Traslada todas las ventajas de la IaaS a tareas de Big Data ¡No necesitas conocer los detalles de Hadoop!
  13. 26.

    MISIÓN DE SAHARA Aprovisionamiento rápido Gestión centralizada Gestión del ciclo

    de vida del clúster Con guración y ejecución de trabajos sobre Hadoop
  14. 27.

    CASOS DE USO Para syadmins: despliegues rápidos, elásticos y bajo

    demanda de clusters de Hadoop Para usuarios nales: autoprovisión de clusters (incluso efímeros) de Hadoop Ejecución de trabajos en unos cuantos clicks sin conocimientos de operaciones de Hadoop Clouds privados: privacidad y protección de datos frente a clouds públicos (Amazon EMR) Empresas que deseen ofrecer Big Data as a Service en su infraestructura
  15. 30.

    COMPONENTES API REST para despliegue y operaciones sobre el cluster

    Orquestación/provisión integrada con Heat. Elastic Data Processing: permite ejecutar y monitorizar trabajos lanzados en el cluster Data Access Layer (DAL): mantiene estado mediante base de datos interna Integración con Swift Sistema de plugins para soportar diferentes distribuciones de Hadoop
  16. 31.

    OTRAS CARACTERÍSTICAS Integración con Horizon (Web UI) y con el

    ecosistema de OpenStack Autenticación/autorización con Keystone Escalable manualmente Reglas de anti-a nidad para distribuir recursos Creación de clusters efímeros para ejecutar un único trabajo
  17. 32.

    PLUGINS Habilitan el despliegue y la operación de una distribución

    especí ca Permiten con gurar la topología y las herramientas de gestión/monitorización
  18. 33.

    DISTROS SOPORTADAS Vanilla Apache Hadoop 2.7.1 HDP (Hortonworks) 2.3 con

    Ambari Apache Spark 1.3.1 y 1.6.0 CDH (Cloudera) 5.0, 5.3, 5.4 y 5.5
  19. 34.

    QUÉ ES EDP Elastic Data Processing: API para ejecutar trabajos

    MapReduce sin exponer detalles de infraestructura Habilita la ejecución de trabajos en clusters creados por Sahara Funcionalmente análogo a Amazon EMR
  20. 35.

    EDP - JOBS Job: un job binary lanzado con todas

    sus librerías, con guración y argumentos Job Binaries y Job, análogos a Imagen e Instancia: múltiples jobs a partir de un único Job Binary
  21. 36.

    COMPONENTES DE UN JOB Código a ejecutar (‘’job binaries’’) Input

    de datos a procesar Localización del output de datos procesados Con guración adicional necesaria para ejecutar el job EDP se encarga de la ejecución de todo el job
  22. 38.

    WORKFLOW Lanzamiento de un cluster de Hadoop (si no existe

    ya) Creación de todos los “Job Binaries” Creación de una plantilla que referencie a los “Job Binaries” Creación de una fuente que apunte al input de datos a procesar Creación de una fuente que apunte al output de datos Creación de un “Job Execution” que especi que el cluster y el trabajo a ejecutar desde unas fuentes dadas
  23. 40.
  24. 42.