big data disruptiva com pyspark

big data disruptiva com pyspark all you need is python
/ she loves python yeah! yeah! @bsao / [email protected]

@bsao • +12 anos como desenvolvedor (+10 com python) •
data engineer @ vivareal.com • meu time: http://bit.ly/data-vr rupy brazil chairman startup vale co-founder agilevale co-founder

São Paulo / SP - 24 e 25 de Novembro
www.polyconf.com.br DIVERSIDADE UNIDA

big data é o imenso volume de dados estruturados ou
não que impactam o dia a dia dos negócios.

5 “v’s” volume velocidade variedade valor veracidade

http://cacm.acm.org/blogs/blog-cacm/169199-data-science-workﬂow-overview-and-challenges/fulltext

• framework para processamento de big-data • foco em velocidade
• abstração de analises soﬁsticadas • nasceu da academia em Berkeley, 2009 • open source 2010 • fácil/rápido/escalável/framework para cluster computing • o core é escrito em scala (jvm) • apis completas para Python e o resto (Java/Scala/R) • um projeto muito ativo desde 2014

características • extende MapReduce; • suporta mais do que apenas
as funções de Map e Reduce; • evita mover dados durante o processamento, • “cachea” dados em memória e processamento proximo do tempo real. • detem dados intermediários em memória, para processar o mesmo conjunto de dados varias vezes • o disco é usado quando a memória acaba. • REPL

creditos: https://weidongzhou.wordpress.com/2015/09/08/hadoop-hdfs-mapreduce-and-spark-on-big-data/

arquitetura • API - criação de aplicações (Scala, Java ou
Python) • Armazenamento de dados - Usa o HDFS para armezar os dados, ou seja, consegue processar nativamente qualquer dado compatível. • Framework de gerenciamento - Gestão da infraestrutura.

RDD Resilient Distributed Datasets é a estrutura de dado fundamental
do Spark é uma coleção de dados distribuida pode conter qualquer tipo de dados python / java ou scala tolerante a falhas

SparkContext • é a porta de entrada para o spark
• conﬁguração e provisionamento

RDD storage valor tranformacão map ﬁlter foreach group ação count
take reduce collect countByValue savar

modelo de execução Driver SparkContext Worker Executor Task Worker Executor
Task Worker Executor Task

beatles = sc.textFile(‘storage/ﬁle’) storage partição partição partição beatles = beatles.map(loads)
collect beatles.collect() partição partição partição beatles = beatles.ﬁlter(lambda b: b[‘track_duration’] > 25000)

behind the scenes - python • py4j - permite que
um programa python rodando dentro de um interpretador python possa acessar objetos java em uma jvm. • pickle

driver worker Python SparkContext beatles = sc.textFile(‘storage/ﬁle’) py4j Java SparkContext
sc = SparkContext() java executor task beatles = beatles.map(loads) Python Code Python Code task beatles = beatles.ﬁlter(lambda b: b[‘track_duration’] > 25000)

funções serão executadas no worker por um processo python

no spark o código vai até o dado reversal russa

spark permite criar programas altamente testavéis

obrigado / @bsao

big data disruptiva com pyspark

big data disruptiva com pyspark

Robson Júnior

More Decks by Robson Júnior

Other Decks in Programming

Featured

Transcript