Data Munging avec Spark Partie I @ Paris Machine Learning Applications Group

Data Munging avec Spark Partie I Leonardo Noleto @leonardo_noleto Workshop
Mercredi 15 et 22 mars 2017 https://goo.gl/THWjyB Les TPs corrigés sont disponibles ici:

Leonardo Noleto Data Scientist @ KPMG Co-fondateur Toulouse Data Science
@leonardo_noleto Paris Machine Learning Applications Group Andrei Arion Data engineer @LesFurets.com @andreiarion Mehdi Sakji Data (scientist | engineer) @ Davidson Consulting Moniteurs :

Comment analyser le Big Data ?

Il était une fois… Hadoop

Dois-je apprendre Hadoop avant Spark ? Non, Apache Spark est
un projet indépendant de Hadoop. ...toutefois, comme il s’intègre avec Hadoop il est intéressant de connaître les bases de Hadoop.

~~~~~ ~~~~~ ~~~~~ ~~~ Ecrire un fichier 180 Mo DN1,
DN2, DN3 done done done close Name node Client Data Node1 Data Node2 Data Node3 Replication pipeline Bloc de 64 Mo DN1, DN2, DN3 HDFS : récap’

Hadoop MapReduce : récap’

Hadoop : limitations • Mode Batch (adapté pour les traitement
longs) • Ecriture des résultats intermédiaires en disque (forte latence à cause de la réplication) • Lecture à partir du disque seulement (pénalise les algorithmes itératifs)

HDD: $1.24/GB RAM: $189/GB HDD: $0.05/GB RAM: $5.50/GB (34x less
expensive 2005) (Apache Spark June 2013)

Apache Spark • 2009 : sujet de recherche UC Berkeley
AMPLab (open source 2010) • Juin 2013 : Top Apache Project (Apache Spark) • Extension du modèle MapReduce (plus performant, in-memory) • Framework généraliste (propose autres paradigmes de programmation) • API en Scala, Java, Python et R • Permet de faire des analyses interactives (Scala et Python) • Ecosystème riche (SparkSQL, Spark Streaming, MLlib, GraphX)

Apache Spark : les bases

Driver, Executors Driver Executors SparkContext

Resilient Distributed Dataset (RDD) 1, 2, 3, 4, 5, 6,
…………………………………………………………………996, 997, 998, 999, 1000 Partitions Collection d’éléments Collection d’éléments distribuée Important : cette collection est immuable

Transformations

Actions

Collect

Filter Transformation

Reduce Action reduce(accumulator, e: accumulator + element) 0 acc 01
1 2 3 3 6 4 10 15 5 elem 15 30 La fonction doit être commutative et associative !!!

Mission : Réaliser un nuages de mots à partir des
ouvrages de Shakespeare

Approche distribuée et scalable

Manipuler les RDD Key-Value • Pairs (k1, v1) (k2, v2)
(k3, v4) …………………………………………………………………….. (kN, vN) • RDD de pairs

GroupByKey Transformation

GroupByKey : limitations • Demande beaucoup de transfert des données
entre les workers • Pour une grande collection, par exemple compter les mots dans toutes le pages Wikipedia, cela peut dépasser la mémoire disponible dans les workers

ReduceByKey Transformation reduceByKey(accumulator, e: ...)

map vs flatMap Transformation RDD (String) Hello Word A new
line! Viva Las Vegas map(x: x.split(‘ ’)) RDD (List of String) Hello Word A new line! Viva Las Vegas

map vs flatMap Transformation RDD (String) Hello Word A new
line! Viva Las Vegas flatMap(x: x.split(‘ ’)) RDD (String) Hello Word A new line!

Solution word count avec Spark

RDD Lineage

Récap’ • Spark : framework généraliste traitement distribué • Driver,
Executor • API PySpark (Python) • Transformations (Lazy) ◦ map, flatMap, filter, reduceByKey, groupByKey • Actions ◦ count, collect, take, top, takeOrdered, reduce,

Pour aller plus loin • edX Introduction to Big Data
with Apache Spark (https://goo.gl/ZHTIS7) • Coursera Big Data Analysis with Scala and Spark (https://goo.gl/d3kOUq) • How-to: Translate from MapReduce to Apache Spark (http://goo.gl/oBZrb0)

A venir • Partie II - CSV, Parquet, DataFrames, SparkSQL

Merci! > questions .map(lambda x: reponses(x)) .collect()

Spark vs. PySpark Source: https://goo.gl/ZpYSRv

Data Munging avec Spark Partie I @ Paris Machin...

Data Munging avec Spark Partie I @ Paris Machine Learning Applications Group

More Decks by Leonardo Noleto

Other Decks in Programming

Featured

Transcript