Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Data_Munging_avec_Spark_-_Partie_II_-_BISBIS.pdf
Search
Toulouse Data Science
April 26, 2016
0
32
Data_Munging_avec_Spark_-_Partie_II_-_BISBIS.pdf
Toulouse Data Science
April 26, 2016
Tweet
Share
More Decks by Toulouse Data Science
See All by Toulouse Data Science
Suivi de la biomasse à large échelle grâce au satellite SMOS - Toulouse Data Science - Emma Bousquet
toulousedatascience
0
20
Des photons aux applications - Toulouse Data Science - Jean-Marc Delvit
toulousedatascience
0
61
#51 - Earth Observation : Ecosystem & Trends - Aravind Ravichandran
toulousedatascience
0
130
#52 [1/2] - Données d'observation de la Terre et données du Web, rencontre entre les 2 univers
toulousedatascience
1
74
#52 [1/2] - Evaluation de dommages aux bâtiments sur images THR par deep learning
toulousedatascience
0
86
Standardizing on a single N-dimensional array API for Python
toulousedatascience
0
65
#45 Computer Vision & Deep Learning applied to GPS signals
toulousedatascience
0
150
#44 Agents conversationnels pour le domaine de l'aéronautique
toulousedatascience
0
140
[Remote] #43 Koalas - Unifions les Data Scientists et les Data Engineers
toulousedatascience
0
140
Featured
See All Featured
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
5
1.5k
Keith and Marios Guide to Fast Websites
keithpitt
408
22k
Put a Button on it: Removing Barriers to Going Fast.
kastner
58
3k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
356
22k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
1
1.3k
4 Signs Your Business is Dying
shpigford
175
21k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
124
32k
It's Worth the Effort
3n
180
27k
Art, The Web, and Tiny UX
lynnandtonic
288
19k
Principles of Awesome APIs and How to Build Them.
keavy
120
16k
Atom: Resistance is Futile
akmur
258
25k
Producing Creativity
orderedlist
PRO
336
39k
Transcript
Data Munging avec Spark Partie II BIS Alexia Audevart Julien
Guillaumin @aaudevart Data NoBlaBla Mardi 26 Avril 2016
Merci à notre sponsor
Merci à notre sponsor
Stagiaire en traitement d'images chez Thales Services. Elève ingénieur à
Télécom Bretagne TOULOUSE DATA SCIENCE Data & Enthusiast chez ekito @aaudevart
Dans l'épisode précédent...
Récap’ • Spark : framework généraliste traitement distribué • Driver,
Executor • API PySpark (Python) • Transformations (Lazy) ◦ map, flatMap, filter, reduceByKey, groupByKey • Actions ◦ count, collect, take, top, takeOrdered, reduce,
None
Représentation de données • RDDs • Data Frame en R
ou Python Pandas • Table (base de données relationnelles)
Problème : Régulation des vélos en libre service
Données • Nombre de location des vélos par heure :
◦ data/bike_sharing/usage_hourly.csv • Données météo (température, vent, humididité) : ◦ data/bike_sharing/weather.csv
None
Parquet • Auto- descriptif (schéma, structure, statistiques inclus dans le
fichier) • Format colonnes (optimisation de requêtes) • Compressé (stockage performant, minimise E/S) • Indépendant du langage ou framework d’analyse Source: https://drill.apache.org/docs/parquet-format/
Parquet: approche colonne vs. ligne Exemple: voici une table à
stocker Stockage basé sur ligne : Stockage basé sur colonne :
Mission: Créer une heatmap permettant de comprendre l’usage de vélos
par jour de la semaine et heure
Lignes Colonnes Example Heatmap
None
Pour aller plus loin... • Apache Spark: RDD, DataFrame or
Dataset? → http://goo.gl/BFGrwl • Pivoting Data in SparkSQL → http://goo.gl/qtMrgn • From Pandas to Apache Spark’s DataFrame → https://goo.gl/6iyyXd • Comment stocker ses données dans Hadoop ? -> https://goo.gl/Uoxu1V
“If all you have is a hammer, everything looks like
a nail”
A venir • Partie III - Usage avancé et Natural
Language Processing : résoudre un problème de Record Linkage
Merci ! > questions .where (questions.contenu.isNotNull()) .show(5)
Driver, Executors Driver SparkContext Executors Master / Cluster Manager
Resilient Distributed Dataset (RDD) 1, 2, 3, 4, 5, 6,
…………………………………………………………………996, 997, 998, 999, 1000 Partitions Collection d’éléments Collection d’éléments distribuée Important : cette collection est immuable