Upgrade to Pro — share decks privately, control downloads, hide ads and more …

¿Son Hadoop y Spark la solución a todos nuestro...

Summit
September 05, 2018

¿Son Hadoop y Spark la solución a todos nuestros problemas?

Andrea VIllanes(PER) - Research Associate

Summit

September 05, 2018
Tweet

More Decks by Summit

Other Decks in Technology

Transcript

  1. Tema: Nombre del tema a exponer, nombre del tema a

    exponer. Tema: Son Hadoop y Spark la solución a todos nuestros problemas? Andrea Villanes
  2. 0 200 400 600 800 1000 1200 1400 1600 Python

    Hadoop/Hive/Spark SQL R JAVA C/C++ Tableau
  3. Fortnite procesa 92 millones de eventos por minuto y ve

    su data crecer 2 petabytes por mes AWS – ElasticMapReduce(EMR)
  4. Qué es Hadoop? Qué es Spark? Cómo acceden las empresas

    a Hadoop/Spark? Cómo prepararnos como data scientists y como empresas?
  5. La Motivación para Hadoop Hadoop Spark Acceso Prepararnos • Velocidad

    • Variedad • Volumen • Data tiene un Valor • 2 problemas claves que notar: • Cómo podemos almacenar confiablemente grandes cantidades de data a un precio razonable? • Cómo podemos analizar toda la data que almacenamos?
  6. Qué es Apache Hadoop? Hadoop Spark Acceso Prepararnos • Apache

    Hadoop: proyecto open-source • Almacenamiento y procesamiento escalable y económico: • Distribuido y tolerante al error • Aprovecha el poder del hardware estandar de las industrias
  7. El Core de Hadoop Hadoop Spark Acceso Prepararnos • ‘Core’

    Hadoop consiste en dos componentes principales: 1. Almacenamiento: Hadoop Distributed File System (HDFS) 2. Procesamiento: MapReduce Además de la infraestructura necesaria para hacerlos funcionar: • Sistema de archivos y utilities de administración • Programación de trabajos y monitoreo
  8. Qué es Hadoop? Qué es Spark? Cómo acceden las empresas

    a Hadoop/Spark? Cómo prepararnos como data scientists y como empresas?
  9. Qué es Spark? Hadoop Spark Acceso Prepararnos • Apache Spark:

    open-source, cluster computing framework • Enfoque en los cálculos interactivos e iterativos: • Utiliza procesamiento in-memory • Lo hace ideal para aplicación de data science • Extensivo soporte API para Java, Scala, R Python
  10. Por qué utilizar Spark? Hadoop Spark Acceso Prepararnos • Iteración

    • Spark fue diseñado para facilitar los cálculos iterativos • Fácil de Usar • APIs múltiples disponibles para ambientes de desarrollo familiares • Velocidad • Corre los programas hasta 100x mas rápido que Hadoop MapReduce en memoria, o 10x más rapido en disco • Corre en todos lados • Spark corre en Hadoop, por sí solo, o en la nube. Puede acceder a diversas fuentes de data incluyendo HDFS, Cassandra, HBase, y S3
  11. Cómo se relacionan y ? Hadoop Spark Acceso Prepararnos 1.

    Hadoop y Apache Spark son big-data frameworks 2. No sirven los mismos propósitos 3. Spark no provee almacenamiento 4. Puedes usar uno sin utilizar el otro. 5. MapReduce y Spark proveen un framework para el procesamiento de data escalable. 6. Uno no reemplaza al otro.
  12. Hive SELECT * FROM DRIVERS JOIN ORDERS ON DRIVERS.DRIVERID =

    ORDERS.DRIVERID WHERE ZIPCODE LIKE ’27%’ GROUP BY ZIPCODE ORDER BY TOTAL DESC;
  13. Qué es Hadoop? Qué es Spark? Cómo acceden las empresas

    a Hadoop/Spark? Cómo prepararnos como data scientists y como empresas?
  14. Hadoop Spark Acceso Prepararnos Descargar: http://hadoop.apache.org/ open source Open source:

    colaboración entre personas, comunidades y proyectos las necesidades de las empresas no son necesariamente prioridad de la comunidad open source Lo que necesitamos: un vendedor de software que provea un paquete de soluciones integradas para brindar a las empresas una solución integral
  15. Hadoop Spark Acceso Prepararnos Hadoop – Distribuciones comerciales Amazon Elastic

    MapReduce (EMR) Cloudera CDH Hortonworks Data Platform (HDP) MapR Distribution Microsoft’s Azure HDInsight
  16. AWS Hadoop Distribution: Amazon Elastic MapReduce (EMR) Amazon EMR periodicamente

    instala y configura aplicaciones en el Proyecto Hadoop, incluyendo Hadoop MapReduce (YARN), y HDFS entre los nudos de tu cluster AWS S3 AWS EMR Amazon EMR • Amazon EMR incluye EMRFS, un conector que permite a Hadoop usar S3 como un storage layer. • HDFS es automáticamente instalado con Hadoop en tu EMR cluster, y puedes usar HDFS junto con Amazon S3 para almacenar tu input y output data. • Amazon EMR configura Hadoop para usar HDFS para data intermedia creada durante trabajos MapReduce, aún si tu input data esta localizada en Amazon S3.
  17. Qué es Hadoop? Qué es Spark? Cómo acceden las empresas

    a Hadoop/Spark? Cómo prepararnos como data scientists y como empresas?
  18. Como data scientists… Hadoop Spark Acceso Prepararnos https://hortonworks.com/products/sandbox 1. Aprende

    los fundamentos: HDFS, MapReduce, Resilient Distributed Datasets (RDDs) 2. 3. https://hortonworks.com/tutorial/learning-the-ropes-of- the-hortonworks-sandbox/ 4. Python + SQL
  19. Como empresas… Hadoop Spark Acceso Prepararnos Amazon Elastic MapReduce (EMR)

    Cloudera CDH Hortonworks Data Platform (HDP) MapR Distribution Microsoft’s Azure HDInsight
  20. Tema: Nombre del tema a exponer, nombre del tema a

    exponer. Gracias! Andrea Villanes [email protected] @andreagrr www.andreavillanes.com