Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Data_Munging_avec_Spark_-_Partie_II_-_BISBIS.pdf

 Data_Munging_avec_Spark_-_Partie_II_-_BISBIS.pdf

Avatar for Toulouse Data Science

Toulouse Data Science

April 26, 2016
Tweet

More Decks by Toulouse Data Science

Transcript

  1. Data Munging avec Spark Partie II BIS Alexia Audevart Julien

    Guillaumin @aaudevart Data NoBlaBla Mardi 26 Avril 2016
  2. Stagiaire en traitement d'images chez Thales Services. Elève ingénieur à

    Télécom Bretagne TOULOUSE DATA SCIENCE Data & Enthusiast chez ekito @aaudevart
  3. Récap’ • Spark : framework généraliste traitement distribué • Driver,

    Executor • API PySpark (Python) • Transformations (Lazy) ◦ map, flatMap, filter, reduceByKey, groupByKey • Actions ◦ count, collect, take, top, takeOrdered, reduce,
  4. Représentation de données • RDDs • Data Frame en R

    ou Python Pandas • Table (base de données relationnelles)
  5. Données • Nombre de location des vélos par heure :

    ◦ data/bike_sharing/usage_hourly.csv • Données météo (température, vent, humididité) : ◦ data/bike_sharing/weather.csv
  6. Parquet • Auto- descriptif (schéma, structure, statistiques inclus dans le

    fichier) • Format colonnes (optimisation de requêtes) • Compressé (stockage performant, minimise E/S) • Indépendant du langage ou framework d’analyse Source: https://drill.apache.org/docs/parquet-format/
  7. Parquet: approche colonne vs. ligne Exemple: voici une table à

    stocker Stockage basé sur ligne : Stockage basé sur colonne :
  8. Pour aller plus loin... • Apache Spark: RDD, DataFrame or

    Dataset? → http://goo.gl/BFGrwl • Pivoting Data in SparkSQL → http://goo.gl/qtMrgn • From Pandas to Apache Spark’s DataFrame → https://goo.gl/6iyyXd • Comment stocker ses données dans Hadoop ? -> https://goo.gl/Uoxu1V
  9. A venir • Partie III - Usage avancé et Natural

    Language Processing : résoudre un problème de Record Linkage
  10. Resilient Distributed Dataset (RDD) 1, 2, 3, 4, 5, 6,

    …………………………………………………………………996, 997, 998, 999, 1000 Partitions Collection d’éléments Collection d’éléments distribuée Important : cette collection est immuable