Data Munging avec Spark Partie II @ Paris Machine Learning Applications Group

Data Munging avec Spark Partie II Leonardo Noleto @leonardo_noleto Workshop
Mercredi 3 Mai 2017 https://goo.gl/1C7UOq Les TPs corrigés sont ici :

Leonardo Noleto Data Scientist Co-fondateur Toulouse Data Science @leonardo_noleto Paris
Machine Learning Applications Group Andrei Arion Data engineer @LesFurets.com @andreiarion Mehdi Sakji Data (scientist | engineer) @ Davidson Consulting Moniteurs :

Dans l'épisode précédent...

Récap’ • Spark : framework généraliste traitement distribué • Driver,
Executor • API PySpark (Python) • Transformations (Lazy) ◦ map, flatMap, filter, reduceByKey, groupByKey • Actions ◦ count, collect, take, top, takeOrdered, reduce,

Représentation de données • RDDs • Data Frame en R
ou Python Pandas • Table (base de données relationnelles)

Problème : Régulation des vélos en libre service

Données • Nombre de location des vélos par heure :
◦ data/bike_sharing/usage_hourly.csv • Données météo (température, vent, humididité) : ◦ data/bike_sharing/weather.csv

Parquet • Auto- descriptif (schéma, structure, statistiques inclus dans le
fichier) • Format colonnes (optimisation de requêtes) • Compressé (stockage performant, minimise E/S) • Indépendant du langage ou framework d’analyse Source: https://drill.apache.org/docs/parquet-format/

Parquet: approche colonne vs. ligne Exemple: voici une table à
stocker Stockage basé sur ligne : Stockage basé sur colonne :

Mission: Créer une heatmap permettant de comprendre l’usage de vélos
par jour de la semaine et heure

Lignes Colonnes Example Heatmap

Pour aller plus loin... • Apache Spark: RDD, DataFrame or
Dataset? → http://goo.gl/BFGrwl • Pivoting Data in SparkSQL → http://goo.gl/qtMrgn • From Pandas to Apache Spark’s DataFrame → https://goo.gl/6iyyXd

Merci ! > questions .where (questions.contenu.isNotNull()) .show(5)

Driver, Executors Driver SparkContext Executors

Resilient Distributed Dataset (RDD) 1, 2, 3, 4, 5, 6,
…………………………………………………………………996, 997, 998, 999, 1000 Partitions Collection d’éléments Collection d’éléments distribuée Important : cette collection est immuable

Data Munging avec Spark Partie II @ Paris Mach...

Data Munging avec Spark Partie II @ Paris Machine Learning Applications Group

Leonardo Noleto

More Decks by Leonardo Noleto

Other Decks in Programming

Featured

Transcript

Data Munging avec Spark Partie II Leonardo Noleto @leonardo_noleto Workshop

Leonardo Noleto Data Scientist Co-fondateur Toulouse Data Science @leonardo_noleto Paris

Dans l'épisode précédent...

Récap’ • Spark : framework généraliste traitement distribué • Driver,

Représentation de données • RDDs • Data Frame en R

Problème : Régulation des vélos en libre service

Données • Nombre de location des vélos par heure :

Parquet • Auto- descriptif (schéma, structure, statistiques inclus dans le

Parquet: approche colonne vs. ligne Exemple: voici une table à

Mission: Créer une heatmap permettant de comprendre l’usage de vélos

Lignes Colonnes Example Heatmap

Pour aller plus loin... • Apache Spark: RDD, DataFrame or

Merci ! > questions .where (questions.contenu.isNotNull()) .show(5)

Driver, Executors Driver SparkContext Executors

Resilient Distributed Dataset (RDD) 1, 2, 3, 4, 5, 6,