Data NoBlaBla: Data Munging avec Spark - Partie II BIS

Data Munging avec Spark Partie II BIS Leonardo Noleto &
Alexia Audevart @leonardo_noleto @aaudevart Data NoBlaBla Jeudi 7 Avril et Mardi 26 Avril 2016

Merci à notre sponsor

Data Scientist chez OVH @leonardo_noleto TOULOUSE DATA SCIENCE Data &
Enthusiast chez ekito @aaudevart

Dans l'épisode précédent...

Récap’ • Spark : framework généraliste traitement distribué • Driver,
Executor • API PySpark (Python) • Transformations (Lazy) ◦ map, flatMap, filter, reduceByKey, groupByKey • Actions ◦ count, collect, take, top, takeOrdered, reduce,

Représentation de données • RDDs • Data Frame en R
ou Python Pandas • Table (base de données relationnelles)

Problème : Régulation des vélos en libre service

Données • Nombre de location des vélos par heure :
◦ data/bike_sharing/usage_hourly.csv • Données météo (température, vent, humididité) : ◦ data/bike_sharing/weather.csv

Parquet • Auto- descriptif (schéma, structure, statistiques inclus dans le
fichier) • Format colonnes (optimisation de requêtes) • Compressé (stockage performant, minimise E/S) • Indépendant du langage ou framework d’analyse Source: https://drill.apache.org/docs/parquet-format/

Parquet: approche colonne vs. ligne Exemple: voici une table à
stocker Stockage basé sur ligne : Stockage basé sur colonne :

Mission: Créer une heatmap permettant de comprendre l’usage de vélos
par jour de la semaine et heure

Lignes Colonnes Example Heatmap

Pour aller plus loin... • Apache Spark: RDD, DataFrame or
Dataset? → http://goo.gl/BFGrwl • Pivoting Data in SparkSQL → http://goo.gl/qtMrgn • From Pandas to Apache Spark’s DataFrame → https://goo.gl/6iyyXd • Comment stocker ses données dans Hadoop ? -> https://goo.gl/Uoxu1V

“If all you have is a hammer, everything looks like
a nail”

A venir • Partie III - Usage avancé et Natural
Language Processing : résoudre un problème de Record Linkage

Merci ! > questions .where (questions.contenu.isNotNull()) .show(5)

Driver, Executors Driver SparkContext Executors Master / Cluster Manager

Resilient Distributed Dataset (RDD) 1, 2, 3, 4, 5, 6,
…………………………………………………………………996, 997, 998, 999, 1000 Partitions Collection d’éléments Collection d’éléments distribuée Important : cette collection est immuable

Data NoBlaBla: Data Munging avec Spark - Parti...

Data NoBlaBla: Data Munging avec Spark - Partie II BIS

Toulouse Data Science

More Decks by Toulouse Data Science

Other Decks in Programming

Featured

Transcript

Data Munging avec Spark Partie II BIS Leonardo Noleto &

Merci à notre sponsor

Merci à notre sponsor

Data Scientist chez OVH @leonardo_noleto TOULOUSE DATA SCIENCE Data &

Dans l'épisode précédent...

Récap’ • Spark : framework généraliste traitement distribué • Driver,

Représentation de données • RDDs • Data Frame en R

Problème : Régulation des vélos en libre service

Données • Nombre de location des vélos par heure :

Parquet • Auto- descriptif (schéma, structure, statistiques inclus dans le

Parquet: approche colonne vs. ligne Exemple: voici une table à

Mission: Créer une heatmap permettant de comprendre l’usage de vélos

Lignes Colonnes Example Heatmap

Pour aller plus loin... • Apache Spark: RDD, DataFrame or

“If all you have is a hammer, everything looks like

A venir • Partie III - Usage avancé et Natural

Merci ! > questions .where (questions.contenu.isNotNull()) .show(5)

Driver, Executors Driver SparkContext Executors Master / Cluster Manager

Resilient Distributed Dataset (RDD) 1, 2, 3, 4, 5, 6,