Spark + Python

SPARK + PYTHON BIG DATA

O que vamos falar hoje? ‣ Introdução ao Hadoop ‣
Introdução ao Spark ‣ Hadoop X Spark ‣ Pyspark ‣ Demo - Pyspark + DataFrame ‣ Demo - Pyspark + RDD

O que é Hadoop ‣ De acordo com Apache: Uma
plataforma para desenvolvimento de aplicações distribuídas, com alta escalabilidade, conﬁabilidade e tolerância a falhas. Criado por Doug Cutting e Mike Cafarella em 2005.

Hadoop - Módulos Básicos ‣ Hadoop Commons: libs e utils
que dão suporte a outros módulos do Hadoop; ‣ Hadoop Distributed File System (HDFS): sistema de armazenamento de arquivos; ‣ Hadoop MapReduce: sistema para processamento paralelo de grande conjunto de dados; ‣ Hadoop YARN: framework para gerenciamento de recursos e tarefas;

Hadoop - Ecossistema

O que é Spark ‣ De acordo com Apache: É
uma engine uniﬁcada de análise para Big Data e Machine Learning. Maior projeto open source para o processamento de dados. Desenvolvido desde 2009 pela Universidade de Califórnia e em 2010 código aberto para fundação Apache.

Spark - Características ‣ Velocidade: benchmark que demonstra que o
Spark é 100x mais rápido comparado com Hadoop, para o processamento de dados em larga escala; ‣ Facilidade de uso: disponibiliza API (Application Programming Interface) para operar grandes datasets; ‣ Análises soﬁsticadas: inclui suporte a consulta SQL (Structured Query Language), data streaming, Machine Learning e processamento de grafos;

Spark - Ecossistema 8

Spark - Ecossistema ‣ Spark SQL: módulo para trabalhar com
dados estruturados (SQL e Data Frame API); ‣ Spark Streaming: habilita a criação de aplicações analíticas e interativas através de dados em streaming ou dados históricos; ‣ MLLib: biblioteca de ML que entrega algoritmos de alta qualidade e velocidade; ‣ GraphX: API para computação de grafos; ‣ Core: API’s de alto nível em R, Python, Scala e Java;

Spark - RDD (Resilient Distributed Dataset) É a unidade de
dados do Spark. É uma coleção de elementos distribuídos através de cluster de nós.

Spark - RDD Features ‣ Computação em memória; ‣ Avaliação
preguiçosa (Lazy evaluation); ‣ Tolerância a falhas; ‣ Imutabilidade; ‣ Persistência; ‣ Particionamento; ‣ Paralelismo;

Hadoop X Spark Hadoop é essencialmente uma plataforma de computação
distribuída, que oferece o armazenamento de qualquer tipo de dados (no seu formato original), a custo baixo e em grande escala.

Hadoop X Spark Spark é um framework que implementa o
conceito de RDD que permite o reuso de dados distribuídos, porém não faz o armazenamento distribuído.

O que é Pyspark ‣ De acordo com Apache: Implementação
da API em Python para o Spark.

O que podemos fazer com Pyspark? ‣ Processamento de grande
volume de dados em cluster; ‣ Extrair dados diretamente de um cluster através de uma instância Spark conﬁgurada em alguma máquina; ‣ Criar Data Frames Pandas a partir do Spark;

pyspark.SparkContext ‣ Ponto de entrada principal para as funcionalidade do
Spark; ‣ Pode ser utilizado para criar RDD’s;

pyspark.sql.SparkSession ‣ Ponto de entrada principal para programação com Dataset
e DataFrame API

Demo ‣ Pyspark + RDD ‣ Pyspark + DataFrame

Referências ‣ https://spark.apache.org ‣ http://hadoop.apache.org ‣ https://s3.amazonaws.com/assets.datacamp.com/ blog_assets/PySpark_Cheat_Sheet_Python.pdf

Spark + Python

Spark + Python

Wagner Goncalves

More Decks by Wagner Goncalves

Other Decks in Technology

Featured

Transcript

SPARK + PYTHON BIG DATA

O que vamos falar hoje? ‣ Introdução ao Hadoop ‣

O que é Hadoop ‣ De acordo com Apache: Uma

Hadoop - Módulos Básicos ‣ Hadoop Commons: libs e utils

Hadoop - Ecossistema

O que é Spark ‣ De acordo com Apache: É

Spark - Características ‣ Velocidade: benchmark que demonstra que o

Spark - Ecossistema 8

Spark - Ecossistema ‣ Spark SQL: módulo para trabalhar com

Spark - RDD (Resilient Distributed Dataset) É a unidade de

Spark - RDD Features ‣ Computação em memória; ‣ Avaliação

Hadoop X Spark Hadoop é essencialmente uma plataforma de computação

Hadoop X Spark Spark é um framework que implementa o

O que é Pyspark ‣ De acordo com Apache: Implementação

O que podemos fazer com Pyspark? ‣ Processamento de grande

pyspark.SparkContext ‣ Ponto de entrada principal para as funcionalidade do

pyspark.sql.SparkSession ‣ Ponto de entrada principal para programação com Dataset

Demo ‣ Pyspark + RDD ‣ Pyspark + DataFrame

Referências ‣ https://spark.apache.org ‣ http://hadoop.apache.org ‣ https://s3.amazonaws.com/assets.datacamp.com/ blog_assets/PySpark_Cheat_Sheet_Python.pdf