Hadoop sobre OpenStack

HADOOP SOBRE OPENSTACK JOSE CASTRO, MIGUEL VIDAL OPENEXPO - MADRID,
2 DE JUNIO 2016

AGENDA FLOSSystems Hadoop OpenStack Sahara Demo en vivo Preguntas

QUÉ ES FLOSSYSTEMS

Empresa tecnológica española nacida en 2011 Especializada en el diseño,
despliegue y administración de infraestructuras como servicio (IaaS) y en arquitecturas “high end” altamente escalables Únicamente utilizamos software libre, evitando al cliente costes de licencias y vendor lock-in

Disponemos de infraestructura propia en Madrid y Amsterdam, no revendemos
cloud de terceros Explotamos nuestro propio OpenStack en producción, donde alojamos a nuestros clientes Madrid Datacenter

QUÉ ES HADOOP

Estrictamente: un framework orientado al procesamiento, análisis y almacenamiento distribuido
de grandes colecciones de datos Proyecto libre de la Apache Foundation

APACHE HADOOP MapReduce: capa de procesamiento/computación HDFS: capa de almacenamiento
(sistema de cheros distribuido, escalable y redundante)

ECOSISTEMA HADOOP En sentido amplio: un conjunto de proyectos y
herramientas integradas con Apache Hadoop (“kernel”) Nadie usa solo un kernel

Ecosistema de Hadoop

Versiones de Hadoop

DISTRIBUCIONES Facilitan enormemente el despliegue y la gestión del ecosistema
OpenStack Sahara permite desplegarlas mediante plugins

Distribuciones de Hadoop: Ambari

Distribuciones de Hadoop: Cloudera

TIEMPO REAL Apache Spark: procesa primitivas en memoria, en lugar
de disco como MapReduce hasta 40 veces más rápido que Hadoop ideal para consultas iterativas y responsivas y aprendizaje automático se integra con Hadoop Apache Storm: Desarrollado por Twitter, procesa en tiempo real

QUÉ ES OPENSTACK

Un framework open source para construir por componentes IaaS completas
Proporciona servicios de computación, red y almacenamiento Autoprovisión web para usuarios nales API muy rica

OpenStack al vuelo

Arquitectura de OpenStack

Componentes de OpenStack

HADOOP + OPENSTACK Hadoop es intensivo en recursos: demanda agilidad
para escalar/desescalar Hadoop es difícil de con gurar, desplegar, testear, optimizar y mantener OpenStack Sahara reduce al mínimo estas di cultades OpenStack Sahara trae todas las ventajas del cloud al big data

QUÉ ES SAHARA

Es un componente o cial de OpenStack para procesamiento y
análisis de datos con Hadoop Incubado en Icehouse (abril 2014). Integrado desde Juno (octubre 2014) Permite con gurar, desplegar, escalar y operar clusters de Hadoop sobre OpenStack ¡Big Data as a Service!

SAHARA EN OPENSTACK Acceso ágil, elástico y bajo demanda al
universo big data Escalabilidad ilimitada Disponibilidad y durabilidad de datos mediante Swift

Facilita la ejecución de trabajos y aplicaciones de Big Data
incluso a usuarios nales Traslada todas las ventajas de la IaaS a tareas de Big Data ¡No necesitas conocer los detalles de Hadoop!

MISIÓN DE SAHARA Aprovisionamiento rápido Gestión centralizada Gestión del ciclo
de vida del clúster Con guración y ejecución de trabajos sobre Hadoop

CASOS DE USO Para syadmins: despliegues rápidos, elásticos y bajo
demanda de clusters de Hadoop Para usuarios nales: autoprovisión de clusters (incluso efímeros) de Hadoop Ejecución de trabajos en unos cuantos clicks sin conocimientos de operaciones de Hadoop Clouds privados: privacidad y protección de datos frente a clouds públicos (Amazon EMR) Empresas que deseen ofrecer Big Data as a Service en su infraestructura

Contribuidores a Sahara

Arquitectura de Sahara

COMPONENTES API REST para despliegue y operaciones sobre el cluster
Orquestación/provisión integrada con Heat. Elastic Data Processing: permite ejecutar y monitorizar trabajos lanzados en el cluster Data Access Layer (DAL): mantiene estado mediante base de datos interna Integración con Swift Sistema de plugins para soportar diferentes distribuciones de Hadoop

OTRAS CARACTERÍSTICAS Integración con Horizon (Web UI) y con el
ecosistema de OpenStack Autenticación/autorización con Keystone Escalable manualmente Reglas de anti-a nidad para distribuir recursos Creación de clusters efímeros para ejecutar un único trabajo

PLUGINS Habilitan el despliegue y la operación de una distribución
especí ca Permiten con gurar la topología y las herramientas de gestión/monitorización

DISTROS SOPORTADAS Vanilla Apache Hadoop 2.7.1 HDP (Hortonworks) 2.3 con
Ambari Apache Spark 1.3.1 y 1.6.0 CDH (Cloudera) 5.0, 5.3, 5.4 y 5.5

QUÉ ES EDP Elastic Data Processing: API para ejecutar trabajos
MapReduce sin exponer detalles de infraestructura Habilita la ejecución de trabajos en clusters creados por Sahara Funcionalmente análogo a Amazon EMR

EDP - JOBS Job: un job binary lanzado con todas
sus librerías, con guración y argumentos Job Binaries y Job, análogos a Imagen e Instancia: múltiples jobs a partir de un único Job Binary

COMPONENTES DE UN JOB Código a ejecutar (‘’job binaries’’) Input
de datos a procesar Localización del output de datos procesados Con guración adicional necesaria para ejecutar el job EDP se encarga de la ejecución de todo el job

Integración con Swift

WORKFLOW Lanzamiento de un cluster de Hadoop (si no existe
ya) Creación de todos los “Job Binaries” Creación de una plantilla que referencie a los “Job Binaries” Creación de una fuente que apunte al input de datos a procesar Creación de una fuente que apunte al output de datos Creación de un “Job Execution” que especi que el cluster y el trabajo a ejecutar desde unas fuentes dadas

EDP - Job Execution

LIVE DEMO

https://youtu.be/idAaLo1stbw

PREGUNTAS

Hadoop sobre OpenStack

Hadoop sobre OpenStack

More Decks by FLOSSystems

Other Decks in Technology

Featured

Transcript