Hadoop sobre OpenStack - Speaker Deck

Slide 1

Slide 1 text

HADOOP SOBRE OPENSTACK JOSE CASTRO, MIGUEL VIDAL OPENEXPO - MADRID, 2 DE JUNIO 2016

Slide 2

Slide 2 text

AGENDA FLOSSystems Hadoop OpenStack Sahara Demo en vivo Preguntas

Slide 3

Slide 3 text

QUÉ ES FLOSSYSTEMS

Slide 4

Slide 4 text

Empresa tecnológica española nacida en 2011 Especializada en el diseño, despliegue y administración de infraestructuras como servicio (IaaS) y en arquitecturas “high end” altamente escalables Únicamente utilizamos software libre, evitando al cliente costes de licencias y vendor lock-in

Slide 5

Slide 5 text

Disponemos de infraestructura propia en Madrid y Amsterdam, no revendemos cloud de terceros Explotamos nuestro propio OpenStack en producción, donde alojamos a nuestros clientes Madrid Datacenter

Slide 6

Slide 6 text

QUÉ ES HADOOP

Slide 7

Slide 7 text

Estrictamente: un framework orientado al procesamiento, análisis y almacenamiento distribuido de grandes colecciones de datos Proyecto libre de la Apache Foundation

Slide 8

Slide 8 text

APACHE HADOOP MapReduce: capa de procesamiento/computación HDFS: capa de almacenamiento (sistema de cheros distribuido, escalable y redundante)

Slide 9

Slide 9 text

ECOSISTEMA HADOOP En sentido amplio: un conjunto de proyectos y herramientas integradas con Apache Hadoop (“kernel”) Nadie usa solo un kernel

Slide 10

Slide 10 text

Ecosistema de Hadoop

Slide 11

Slide 11 text

Versiones de Hadoop

Slide 12

Slide 12 text

DISTRIBUCIONES Facilitan enormemente el despliegue y la gestión del ecosistema OpenStack Sahara permite desplegarlas mediante plugins

Slide 13

Slide 13 text

Distribuciones de Hadoop: Ambari

Slide 14

Slide 14 text

Distribuciones de Hadoop: Cloudera

Slide 15

Slide 15 text

TIEMPO REAL Apache Spark: procesa primitivas en memoria, en lugar de disco como MapReduce hasta 40 veces más rápido que Hadoop ideal para consultas iterativas y responsivas y aprendizaje automático se integra con Hadoop Apache Storm: Desarrollado por Twitter, procesa en tiempo real

Slide 16

Slide 16 text

QUÉ ES OPENSTACK

Slide 17

Slide 17 text

Un framework open source para construir por componentes IaaS completas Proporciona servicios de computación, red y almacenamiento Autoprovisión web para usuarios nales API muy rica

Slide 18

Slide 18 text

OpenStack al vuelo

Slide 19

Slide 19 text

Arquitectura de OpenStack

Slide 20

Slide 20 text

Componentes de OpenStack

Slide 21

Slide 21 text

HADOOP + OPENSTACK Hadoop es intensivo en recursos: demanda agilidad para escalar/desescalar Hadoop es difícil de con gurar, desplegar, testear, optimizar y mantener OpenStack Sahara reduce al mínimo estas di cultades OpenStack Sahara trae todas las ventajas del cloud al big data

Slide 22

Slide 22 text

QUÉ ES SAHARA

Slide 23

Slide 23 text

Es un componente o cial de OpenStack para procesamiento y análisis de datos con Hadoop Incubado en Icehouse (abril 2014). Integrado desde Juno (octubre 2014) Permite con gurar, desplegar, escalar y operar clusters de Hadoop sobre OpenStack ¡Big Data as a Service!

Slide 24

Slide 24 text

SAHARA EN OPENSTACK Acceso ágil, elástico y bajo demanda al universo big data Escalabilidad ilimitada Disponibilidad y durabilidad de datos mediante Swift

Slide 25

Slide 25 text

Facilita la ejecución de trabajos y aplicaciones de Big Data incluso a usuarios nales Traslada todas las ventajas de la IaaS a tareas de Big Data ¡No necesitas conocer los detalles de Hadoop!

Slide 26

Slide 26 text

MISIÓN DE SAHARA Aprovisionamiento rápido Gestión centralizada Gestión del ciclo de vida del clúster Con guración y ejecución de trabajos sobre Hadoop

Slide 27

Slide 27 text

CASOS DE USO Para syadmins: despliegues rápidos, elásticos y bajo demanda de clusters de Hadoop Para usuarios nales: autoprovisión de clusters (incluso efímeros) de Hadoop Ejecución de trabajos en unos cuantos clicks sin conocimientos de operaciones de Hadoop Clouds privados: privacidad y protección de datos frente a clouds públicos (Amazon EMR) Empresas que deseen ofrecer Big Data as a Service en su infraestructura

Slide 28

Slide 28 text

Contribuidores a Sahara

Slide 29

Slide 29 text

Arquitectura de Sahara

Slide 30

Slide 30 text

COMPONENTES API REST para despliegue y operaciones sobre el cluster Orquestación/provisión integrada con Heat. Elastic Data Processing: permite ejecutar y monitorizar trabajos lanzados en el cluster Data Access Layer (DAL): mantiene estado mediante base de datos interna Integración con Swift Sistema de plugins para soportar diferentes distribuciones de Hadoop

Slide 31

Slide 31 text

OTRAS CARACTERÍSTICAS Integración con Horizon (Web UI) y con el ecosistema de OpenStack Autenticación/autorización con Keystone Escalable manualmente Reglas de anti-a nidad para distribuir recursos Creación de clusters efímeros para ejecutar un único trabajo

Slide 32

Slide 32 text

PLUGINS Habilitan el despliegue y la operación de una distribución especí ca Permiten con gurar la topología y las herramientas de gestión/monitorización

Slide 33

Slide 33 text

DISTROS SOPORTADAS Vanilla Apache Hadoop 2.7.1 HDP (Hortonworks) 2.3 con Ambari Apache Spark 1.3.1 y 1.6.0 CDH (Cloudera) 5.0, 5.3, 5.4 y 5.5

Slide 34

Slide 34 text

QUÉ ES EDP Elastic Data Processing: API para ejecutar trabajos MapReduce sin exponer detalles de infraestructura Habilita la ejecución de trabajos en clusters creados por Sahara Funcionalmente análogo a Amazon EMR

Slide 35

Slide 35 text

EDP - JOBS Job: un job binary lanzado con todas sus librerías, con guración y argumentos Job Binaries y Job, análogos a Imagen e Instancia: múltiples jobs a partir de un único Job Binary

Slide 36

Slide 36 text

COMPONENTES DE UN JOB Código a ejecutar (‘’job binaries’’) Input de datos a procesar Localización del output de datos procesados Con guración adicional necesaria para ejecutar el job EDP se encarga de la ejecución de todo el job

Slide 37

Slide 37 text

Integración con Swift

Slide 38

Slide 38 text

WORKFLOW Lanzamiento de un cluster de Hadoop (si no existe ya) Creación de todos los “Job Binaries” Creación de una plantilla que referencie a los “Job Binaries” Creación de una fuente que apunte al input de datos a procesar Creación de una fuente que apunte al output de datos Creación de un “Job Execution” que especi que el cluster y el trabajo a ejecutar desde unas fuentes dadas

Slide 39

Slide 39 text

EDP - Job Execution

Slide 40

Slide 40 text

LIVE DEMO

Slide 41

Slide 41 text

https://youtu.be/idAaLo1stbw

Slide 42

Slide 42 text

PREGUNTAS