Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Spark + Python

Spark + Python

Wagner Goncalves

July 12, 2018
Tweet

More Decks by Wagner Goncalves

Other Decks in Technology

Transcript

  1. O que vamos falar hoje? ‣ Introdução ao Hadoop ‣

    Introdução ao Spark ‣ Hadoop X Spark ‣ Pyspark ‣ Demo - Pyspark + DataFrame ‣ Demo - Pyspark + RDD
  2. O que é Hadoop ‣ De acordo com Apache: Uma

    plataforma para desenvolvimento de aplicações distribuídas, com alta escalabilidade, confiabilidade e tolerância a falhas. Criado por Doug Cutting e Mike Cafarella em 2005.
  3. Hadoop - Módulos Básicos ‣ Hadoop Commons: libs e utils

    que dão suporte a outros módulos do Hadoop; ‣ Hadoop Distributed File System (HDFS): sistema de armazenamento de arquivos; ‣ Hadoop MapReduce: sistema para processamento paralelo de grande conjunto de dados; ‣ Hadoop YARN: framework para gerenciamento de recursos e tarefas;
  4. O que é Spark ‣ De acordo com Apache: É

    uma engine unificada de análise para Big Data e Machine Learning. Maior projeto open source para o processamento de dados. Desenvolvido desde 2009 pela Universidade de Califórnia e em 2010 código aberto para fundação Apache.
  5. Spark - Características ‣ Velocidade: benchmark que demonstra que o

    Spark é 100x mais rápido comparado com Hadoop, para o processamento de dados em larga escala; ‣ Facilidade de uso: disponibiliza API (Application Programming Interface) para operar grandes datasets; ‣ Análises sofisticadas: inclui suporte a consulta SQL (Structured Query Language), data streaming, Machine Learning e processamento de grafos;
  6. Spark - Ecossistema ‣ Spark SQL: módulo para trabalhar com

    dados estruturados (SQL e Data Frame API); ‣ Spark Streaming: habilita a criação de aplicações analíticas e interativas através de dados em streaming ou dados históricos; ‣ MLLib: biblioteca de ML que entrega algoritmos de alta qualidade e velocidade; ‣ GraphX: API para computação de grafos; ‣ Core: API’s de alto nível em R, Python, Scala e Java;
  7. Spark - RDD (Resilient Distributed Dataset) É a unidade de

    dados do Spark. É uma coleção de elementos distribuídos através de cluster de nós.
  8. Spark - RDD Features ‣ Computação em memória; ‣ Avaliação

    preguiçosa (Lazy evaluation); ‣ Tolerância a falhas; ‣ Imutabilidade; ‣ Persistência; ‣ Particionamento; ‣ Paralelismo;
  9. Hadoop X Spark Hadoop é essencialmente uma plataforma de computação

    distribuída, que oferece o armazenamento de qualquer tipo de dados (no seu formato original), a custo baixo e em grande escala.
  10. Hadoop X Spark Spark é um framework que implementa o

    conceito de RDD que permite o reuso de dados distribuídos, porém não faz o armazenamento distribuído.
  11. O que podemos fazer com Pyspark? ‣ Processamento de grande

    volume de dados em cluster; ‣ Extrair dados diretamente de um cluster através de uma instância Spark configurada em alguma máquina; ‣ Criar Data Frames Pandas a partir do Spark;
  12. pyspark.SparkContext ‣ Ponto de entrada principal para as funcionalidade do

    Spark; ‣ Pode ser utilizado para criar RDD’s;