¿Son Hadoop y Spark la solución a todos nuestros problemas?

Tema: Nombre del tema a exponer, nombre del tema a
exponer. Tema: Son Hadoop y Spark la solución a todos nuestros problemas? Andrea Villanes

2,583 trabajos relacionados a data science

0 200 400 600 800 1000 1200 1400 1600 Python
Hadoop/Hive/Spark SQL R JAVA C/C++ Tableau

50 Gigabytes de data diaria AWS – ElasticMapReduce(EMR)

4 compras por segundo AWS – ElasticMapReduce(EMR)

Fortnite procesa 92 millones de eventos por minuto y ve
su data crecer 2 petabytes por mes AWS – ElasticMapReduce(EMR)

Son Hadoop y Spark la solución a todos nuestros problemas?
Depende…

Qué es Hadoop? Qué es Spark? Cómo acceden las empresas
a Hadoop/Spark? Cómo prepararnos como data scientists y como empresas?

La Motivación para Hadoop Hadoop Spark Acceso Prepararnos • Velocidad
• Variedad • Volumen • Data tiene un Valor • 2 problemas claves que notar: • Cómo podemos almacenar confiablemente grandes cantidades de data a un precio razonable? • Cómo podemos analizar toda la data que almacenamos?

Qué es Apache Hadoop? Hadoop Spark Acceso Prepararnos • Apache
Hadoop: proyecto open-source • Almacenamiento y procesamiento escalable y económico: • Distribuido y tolerante al error • Aprovecha el poder del hardware estandar de las industrias

El Core de Hadoop Hadoop Spark Acceso Prepararnos • ‘Core’
Hadoop consiste en dos componentes principales: 1. Almacenamiento: Hadoop Distributed File System (HDFS) 2. Procesamiento: MapReduce Además de la infraestructura necesaria para hacerlos funcionar: • Sistema de archivos y utilities de administración • Programación de trabajos y monitoreo

Qué es Hadoop? Hadoop Spark Acceso Prepararnos Data Platform

Beneficios de Hadoop Hadoop Spark Acceso Prepararnos Beneficio 1: Escalabilidad
Beneficio 2: Tolerancia al Error

Qué es Spark? Hadoop Spark Acceso Prepararnos • Apache Spark:
open-source, cluster computing framework • Enfoque en los cálculos interactivos e iterativos: • Utiliza procesamiento in-memory • Lo hace ideal para aplicación de data science • Extensivo soporte API para Java, Scala, R Python

Los Componentes de Spark Hadoop Spark Acceso Prepararnos • Combina
SQL, streaming, y complex analytics

Por qué utilizar Spark? Hadoop Spark Acceso Prepararnos • Iteración
• Spark fue diseñado para facilitar los cálculos iterativos • Fácil de Usar • APIs múltiples disponibles para ambientes de desarrollo familiares • Velocidad • Corre los programas hasta 100x mas rápido que Hadoop MapReduce en memoria, o 10x más rapido en disco • Corre en todos lados • Spark corre en Hadoop, por sí solo, o en la nube. Puede acceder a diversas fuentes de data incluyendo HDFS, Cassandra, HBase, y S3

Cómo se relacionan y ? Hadoop Spark Acceso Prepararnos 1.
Hadoop y Apache Spark son big-data frameworks 2. No sirven los mismos propósitos 3. Spark no provee almacenamiento 4. Puedes usar uno sin utilizar el otro. 5. MapReduce y Spark proveen un framework para el procesamiento de data escalable. 6. Uno no reemplaza al otro.

Listo. Y como programamos?

Hive SELECT * FROM DRIVERS JOIN ORDERS ON DRIVERS.DRIVERID =
ORDERS.DRIVERID WHERE ZIPCODE LIKE ’27%’ GROUP BY ZIPCODE ORDER BY TOTAL DESC;

Spark: PySpark & Spark SQL Linear regression in the PySpark
shell Spark SQL

Hadoop Spark Acceso Prepararnos Descargar: http://hadoop.apache.org/ open source Open source:
colaboración entre personas, comunidades y proyectos las necesidades de las empresas no son necesariamente prioridad de la comunidad open source Lo que necesitamos: un vendedor de software que provea un paquete de soluciones integradas para brindar a las empresas una solución integral

Hadoop Spark Acceso Prepararnos Hadoop – Distribuciones comerciales Amazon Elastic
MapReduce (EMR) Cloudera CDH Hortonworks Data Platform (HDP) MapR Distribution Microsoft’s Azure HDInsight

AWS Hadoop Distribution: Amazon Elastic MapReduce (EMR) Amazon EMR periodicamente
instala y configura aplicaciones en el Proyecto Hadoop, incluyendo Hadoop MapReduce (YARN), y HDFS entre los nudos de tu cluster AWS S3 AWS EMR Amazon EMR • Amazon EMR incluye EMRFS, un conector que permite a Hadoop usar S3 como un storage layer. • HDFS es automáticamente instalado con Hadoop en tu EMR cluster, y puedes usar HDFS junto con Amazon S3 para almacenar tu input y output data. • Amazon EMR configura Hadoop para usar HDFS para data intermedia creada durante trabajos MapReduce, aún si tu input data esta localizada en Amazon S3.

Como data scientists… Hadoop Spark Acceso Prepararnos https://hortonworks.com/products/sandbox 1. Aprende
los fundamentos: HDFS, MapReduce, Resilient Distributed Datasets (RDDs) 2. 3. https://hortonworks.com/tutorial/learning-the-ropes-of- the-hortonworks-sandbox/ 4. Python + SQL

Como empresas… Hadoop Spark Acceso Prepararnos Amazon Elastic MapReduce (EMR)
Cloudera CDH Hortonworks Data Platform (HDP) MapR Distribution Microsoft’s Azure HDInsight

Son Hadoop y Spark la solución a todos nuestros problemas?
Depende…

Tema: Nombre del tema a exponer, nombre del tema a
exponer. Gracias! Andrea Villanes [email protected] @andreagrr www.andreavillanes.com

¿Son Hadoop y Spark la solución a todos nuestro...

¿Son Hadoop y Spark la solución a todos nuestros problemas?

Summit

More Decks by Summit

Other Decks in Technology

Featured

Transcript

Tema: Nombre del tema a exponer, nombre del tema a

2,583 trabajos relacionados a data science

0 200 400 600 800 1000 1200 1400 1600 Python

50 Gigabytes de data diaria AWS – ElasticMapReduce(EMR)

4 compras por segundo AWS – ElasticMapReduce(EMR)

Fortnite procesa 92 millones de eventos por minuto y ve