Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Hadoop sobre OpenStack

Hadoop sobre OpenStack

Presentación sobre OpenStack Sahara realizada en la OpenExpo 2016, celebrada en Madrid el 2 de junio de 2016. Incluye una demo del despliegue de un cluster de Spark y la ejecución de un trabajo sobre el cluster desde Sahara.

Demo: https://youtu.be/idAaLo1stbw

Fuente original de las slides: http://slides.flossystems.com/2016/06/02/openexpo/sahara/

0b8127384c277a7a0672b91f6ea2ba96?s=128

FLOSSystems

June 02, 2016
Tweet

Transcript

  1. HADOOP SOBRE OPENSTACK JOSE CASTRO, MIGUEL VIDAL OPENEXPO - MADRID,

    2 DE JUNIO 2016
  2. AGENDA FLOSSystems Hadoop OpenStack Sahara Demo en vivo Preguntas

  3. QUÉ ES FLOSSYSTEMS

  4. Empresa tecnológica española nacida en 2011 Especializada en el diseño,

    despliegue y administración de infraestructuras como servicio (IaaS) y en arquitecturas “high end” altamente escalables Únicamente utilizamos software libre, evitando al cliente costes de licencias y vendor lock-in
  5. Disponemos de infraestructura propia en Madrid y Amsterdam, no revendemos

    cloud de terceros Explotamos nuestro propio OpenStack en producción, donde alojamos a nuestros clientes Madrid Datacenter
  6. QUÉ ES HADOOP

  7. Estrictamente: un framework orientado al procesamiento, análisis y almacenamiento distribuido

    de grandes colecciones de datos Proyecto libre de la Apache Foundation
  8. APACHE HADOOP MapReduce: capa de procesamiento/computación HDFS: capa de almacenamiento

    (sistema de cheros distribuido, escalable y redundante)
  9. ECOSISTEMA HADOOP En sentido amplio: un conjunto de proyectos y

    herramientas integradas con Apache Hadoop (“kernel”) Nadie usa solo un kernel
  10. Ecosistema de Hadoop

  11. Versiones de Hadoop

  12. DISTRIBUCIONES Facilitan enormemente el despliegue y la gestión del ecosistema

    OpenStack Sahara permite desplegarlas mediante plugins
  13. Distribuciones de Hadoop: Ambari

  14. Distribuciones de Hadoop: Cloudera

  15. TIEMPO REAL Apache Spark: procesa primitivas en memoria, en lugar

    de disco como MapReduce hasta 40 veces más rápido que Hadoop ideal para consultas iterativas y responsivas y aprendizaje automático se integra con Hadoop Apache Storm: Desarrollado por Twitter, procesa en tiempo real
  16. QUÉ ES OPENSTACK

  17. Un framework open source para construir por componentes IaaS completas

    Proporciona servicios de computación, red y almacenamiento Autoprovisión web para usuarios nales API muy rica
  18. OpenStack al vuelo

  19. Arquitectura de OpenStack

  20. Componentes de OpenStack

  21. HADOOP + OPENSTACK Hadoop es intensivo en recursos: demanda agilidad

    para escalar/desescalar Hadoop es difícil de con gurar, desplegar, testear, optimizar y mantener OpenStack Sahara reduce al mínimo estas di cultades OpenStack Sahara trae todas las ventajas del cloud al big data
  22. QUÉ ES SAHARA

  23. Es un componente o cial de OpenStack para procesamiento y

    análisis de datos con Hadoop Incubado en Icehouse (abril 2014). Integrado desde Juno (octubre 2014) Permite con gurar, desplegar, escalar y operar clusters de Hadoop sobre OpenStack ¡Big Data as a Service!
  24. SAHARA EN OPENSTACK Acceso ágil, elástico y bajo demanda al

    universo big data Escalabilidad ilimitada Disponibilidad y durabilidad de datos mediante Swift
  25. Facilita la ejecución de trabajos y aplicaciones de Big Data

    incluso a usuarios nales Traslada todas las ventajas de la IaaS a tareas de Big Data ¡No necesitas conocer los detalles de Hadoop!
  26. MISIÓN DE SAHARA Aprovisionamiento rápido Gestión centralizada Gestión del ciclo

    de vida del clúster Con guración y ejecución de trabajos sobre Hadoop
  27. CASOS DE USO Para syadmins: despliegues rápidos, elásticos y bajo

    demanda de clusters de Hadoop Para usuarios nales: autoprovisión de clusters (incluso efímeros) de Hadoop Ejecución de trabajos en unos cuantos clicks sin conocimientos de operaciones de Hadoop Clouds privados: privacidad y protección de datos frente a clouds públicos (Amazon EMR) Empresas que deseen ofrecer Big Data as a Service en su infraestructura
  28. Contribuidores a Sahara

  29. Arquitectura de Sahara

  30. COMPONENTES API REST para despliegue y operaciones sobre el cluster

    Orquestación/provisión integrada con Heat. Elastic Data Processing: permite ejecutar y monitorizar trabajos lanzados en el cluster Data Access Layer (DAL): mantiene estado mediante base de datos interna Integración con Swift Sistema de plugins para soportar diferentes distribuciones de Hadoop
  31. OTRAS CARACTERÍSTICAS Integración con Horizon (Web UI) y con el

    ecosistema de OpenStack Autenticación/autorización con Keystone Escalable manualmente Reglas de anti-a nidad para distribuir recursos Creación de clusters efímeros para ejecutar un único trabajo
  32. PLUGINS Habilitan el despliegue y la operación de una distribución

    especí ca Permiten con gurar la topología y las herramientas de gestión/monitorización
  33. DISTROS SOPORTADAS Vanilla Apache Hadoop 2.7.1 HDP (Hortonworks) 2.3 con

    Ambari Apache Spark 1.3.1 y 1.6.0 CDH (Cloudera) 5.0, 5.3, 5.4 y 5.5
  34. QUÉ ES EDP Elastic Data Processing: API para ejecutar trabajos

    MapReduce sin exponer detalles de infraestructura Habilita la ejecución de trabajos en clusters creados por Sahara Funcionalmente análogo a Amazon EMR
  35. EDP - JOBS Job: un job binary lanzado con todas

    sus librerías, con guración y argumentos Job Binaries y Job, análogos a Imagen e Instancia: múltiples jobs a partir de un único Job Binary
  36. COMPONENTES DE UN JOB Código a ejecutar (‘’job binaries’’) Input

    de datos a procesar Localización del output de datos procesados Con guración adicional necesaria para ejecutar el job EDP se encarga de la ejecución de todo el job
  37. Integración con Swift

  38. WORKFLOW Lanzamiento de un cluster de Hadoop (si no existe

    ya) Creación de todos los “Job Binaries” Creación de una plantilla que referencie a los “Job Binaries” Creación de una fuente que apunte al input de datos a procesar Creación de una fuente que apunte al output de datos Creación de un “Job Execution” que especi que el cluster y el trabajo a ejecutar desde unas fuentes dadas
  39. EDP - Job Execution

  40. LIVE DEMO

  41. https://youtu.be/idAaLo1stbw

  42. PREGUNTAS

  43. ¡GRACIAS! © FLOSSystems http://slides. ossystems.com/2016/06/02/openexpo/sahara