Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Data_Munging_avec_Spark_-_Partie_II_-_BISBIS.pdf
Search
Toulouse Data Science
April 26, 2016
0
35
Data_Munging_avec_Spark_-_Partie_II_-_BISBIS.pdf
Toulouse Data Science
April 26, 2016
Tweet
Share
More Decks by Toulouse Data Science
See All by Toulouse Data Science
Suivi de la biomasse à large échelle grâce au satellite SMOS - Toulouse Data Science - Emma Bousquet
toulousedatascience
0
21
Des photons aux applications - Toulouse Data Science - Jean-Marc Delvit
toulousedatascience
0
74
#51 - Earth Observation : Ecosystem & Trends - Aravind Ravichandran
toulousedatascience
0
140
#52 [1/2] - Données d'observation de la Terre et données du Web, rencontre entre les 2 univers
toulousedatascience
1
76
#52 [1/2] - Evaluation de dommages aux bâtiments sur images THR par deep learning
toulousedatascience
0
88
Standardizing on a single N-dimensional array API for Python
toulousedatascience
0
150
#45 Computer Vision & Deep Learning applied to GPS signals
toulousedatascience
0
160
#44 Agents conversationnels pour le domaine de l'aéronautique
toulousedatascience
0
160
[Remote] #43 Koalas - Unifions les Data Scientists et les Data Engineers
toulousedatascience
0
200
Featured
See All Featured
Facilitating Awesome Meetings
lara
50
6.1k
Build your cross-platform service in a week with App Engine
jlugia
229
18k
Designing the Hi-DPI Web
ddemaree
280
34k
Rebuilding a faster, lazier Slack
samanthasiow
79
8.7k
Optimizing for Happiness
mojombo
376
70k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
6
410
Agile that works and the tools we love
rasmusluckow
327
21k
Product Roadmaps are Hard
iamctodd
PRO
49
11k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
8
860
Building Better People: How to give real-time feedback that sticks.
wjessup
364
19k
Embracing the Ebb and Flow
colly
84
4.5k
The Art of Programming - Codeland 2020
erikaheidi
52
13k
Transcript
Data Munging avec Spark Partie II BIS Alexia Audevart Julien
Guillaumin @aaudevart Data NoBlaBla Mardi 26 Avril 2016
Merci à notre sponsor
Merci à notre sponsor
Stagiaire en traitement d'images chez Thales Services. Elève ingénieur à
Télécom Bretagne TOULOUSE DATA SCIENCE Data & Enthusiast chez ekito @aaudevart
Dans l'épisode précédent...
Récap’ • Spark : framework généraliste traitement distribué • Driver,
Executor • API PySpark (Python) • Transformations (Lazy) ◦ map, flatMap, filter, reduceByKey, groupByKey • Actions ◦ count, collect, take, top, takeOrdered, reduce,
None
Représentation de données • RDDs • Data Frame en R
ou Python Pandas • Table (base de données relationnelles)
Problème : Régulation des vélos en libre service
Données • Nombre de location des vélos par heure :
◦ data/bike_sharing/usage_hourly.csv • Données météo (température, vent, humididité) : ◦ data/bike_sharing/weather.csv
None
Parquet • Auto- descriptif (schéma, structure, statistiques inclus dans le
fichier) • Format colonnes (optimisation de requêtes) • Compressé (stockage performant, minimise E/S) • Indépendant du langage ou framework d’analyse Source: https://drill.apache.org/docs/parquet-format/
Parquet: approche colonne vs. ligne Exemple: voici une table à
stocker Stockage basé sur ligne : Stockage basé sur colonne :
Mission: Créer une heatmap permettant de comprendre l’usage de vélos
par jour de la semaine et heure
Lignes Colonnes Example Heatmap
None
Pour aller plus loin... • Apache Spark: RDD, DataFrame or
Dataset? → http://goo.gl/BFGrwl • Pivoting Data in SparkSQL → http://goo.gl/qtMrgn • From Pandas to Apache Spark’s DataFrame → https://goo.gl/6iyyXd • Comment stocker ses données dans Hadoop ? -> https://goo.gl/Uoxu1V
“If all you have is a hammer, everything looks like
a nail”
A venir • Partie III - Usage avancé et Natural
Language Processing : résoudre un problème de Record Linkage
Merci ! > questions .where (questions.contenu.isNotNull()) .show(5)
Driver, Executors Driver SparkContext Executors Master / Cluster Manager
Resilient Distributed Dataset (RDD) 1, 2, 3, 4, 5, 6,
…………………………………………………………………996, 997, 998, 999, 1000 Partitions Collection d’éléments Collection d’éléments distribuée Important : cette collection est immuable