Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Data_Munging_avec_Spark_-_Partie_II_-_BISBIS.pdf
Search
Toulouse Data Science
April 26, 2016
0
51
Data_Munging_avec_Spark_-_Partie_II_-_BISBIS.pdf
Toulouse Data Science
April 26, 2016
Tweet
Share
More Decks by Toulouse Data Science
See All by Toulouse Data Science
Suivi de la biomasse à large échelle grâce au satellite SMOS - Toulouse Data Science - Emma Bousquet
toulousedatascience
0
44
Des photons aux applications - Toulouse Data Science - Jean-Marc Delvit
toulousedatascience
0
120
#51 - Earth Observation : Ecosystem & Trends - Aravind Ravichandran
toulousedatascience
0
190
#52 [1/2] - Données d'observation de la Terre et données du Web, rencontre entre les 2 univers
toulousedatascience
1
94
#52 [1/2] - Evaluation de dommages aux bâtiments sur images THR par deep learning
toulousedatascience
0
110
Standardizing on a single N-dimensional array API for Python
toulousedatascience
0
190
#45 Computer Vision & Deep Learning applied to GPS signals
toulousedatascience
0
240
#44 Agents conversationnels pour le domaine de l'aéronautique
toulousedatascience
0
210
[Remote] #43 Koalas - Unifions les Data Scientists et les Data Engineers
toulousedatascience
0
330
Featured
See All Featured
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.6k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
970
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
GraphQLとの向き合い方2022年版
quramy
50
14k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
122
21k
For a Future-Friendly Web
brad_frost
180
10k
Statistics for Hackers
jakevdp
799
230k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
47
7.9k
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
KATA
mclloyd
PRO
32
15k
Stop Working from a Prison Cell
hatefulcrawdad
273
21k
Transcript
Data Munging avec Spark Partie II BIS Alexia Audevart Julien
Guillaumin @aaudevart Data NoBlaBla Mardi 26 Avril 2016
Merci à notre sponsor
Merci à notre sponsor
Stagiaire en traitement d'images chez Thales Services. Elève ingénieur à
Télécom Bretagne TOULOUSE DATA SCIENCE Data & Enthusiast chez ekito @aaudevart
Dans l'épisode précédent...
Récap’ • Spark : framework généraliste traitement distribué • Driver,
Executor • API PySpark (Python) • Transformations (Lazy) ◦ map, flatMap, filter, reduceByKey, groupByKey • Actions ◦ count, collect, take, top, takeOrdered, reduce,
None
Représentation de données • RDDs • Data Frame en R
ou Python Pandas • Table (base de données relationnelles)
Problème : Régulation des vélos en libre service
Données • Nombre de location des vélos par heure :
◦ data/bike_sharing/usage_hourly.csv • Données météo (température, vent, humididité) : ◦ data/bike_sharing/weather.csv
None
Parquet • Auto- descriptif (schéma, structure, statistiques inclus dans le
fichier) • Format colonnes (optimisation de requêtes) • Compressé (stockage performant, minimise E/S) • Indépendant du langage ou framework d’analyse Source: https://drill.apache.org/docs/parquet-format/
Parquet: approche colonne vs. ligne Exemple: voici une table à
stocker Stockage basé sur ligne : Stockage basé sur colonne :
Mission: Créer une heatmap permettant de comprendre l’usage de vélos
par jour de la semaine et heure
Lignes Colonnes Example Heatmap
None
Pour aller plus loin... • Apache Spark: RDD, DataFrame or
Dataset? → http://goo.gl/BFGrwl • Pivoting Data in SparkSQL → http://goo.gl/qtMrgn • From Pandas to Apache Spark’s DataFrame → https://goo.gl/6iyyXd • Comment stocker ses données dans Hadoop ? -> https://goo.gl/Uoxu1V
“If all you have is a hammer, everything looks like
a nail”
A venir • Partie III - Usage avancé et Natural
Language Processing : résoudre un problème de Record Linkage
Merci ! > questions .where (questions.contenu.isNotNull()) .show(5)
Driver, Executors Driver SparkContext Executors Master / Cluster Manager
Resilient Distributed Dataset (RDD) 1, 2, 3, 4, 5, 6,
…………………………………………………………………996, 997, 998, 999, 1000 Partitions Collection d’éléments Collection d’éléments distribuée Important : cette collection est immuable