Data NoBlaBla: Data Munging avec Spark - Partie II BIS

Data NoBlaBla: Data Munging avec Spark - Partie II BIS

Dans l’atelier précédent, nous avons vu comment Spark fait partie intégrante dans le kit de ménage du data scientist moderne. Les bases de Spark et son API (PySpark) ont été abordées. Nous avons vu que le concept de RDDs est assez flexible et puissant pour travailler la donnée de tout type à l’aide d’une multitude de transformations et d’actions proposées.

Mais, nous savons bien que pour commencer à faire une analyse exploratoire et utiliser les méthodes de machine learning il faut d’abord structurer correctement sa donnée. C’est ce que nous aborderons dans cette deuxième partie de l’atelier. Voici le programme :

• Charger et enregistrer des données volumineuses au format CSV sans souffrance

• Utiliser l’API DataFrame pour faire une analyse exploratoire simple

• Analyser la donnée via SQL avec SparkSQL (et oui, le bon et vieux SQL a toujours la côte)

• Utiliser les tableaux croisés dynamique

• Utiliser Parquet, un format de stockage performant et structuré de plus en plus utilisé en entreprise

Pour suivre l'atelier, vous devez installer l'image docker ci-dessous:
docker pull noleto/pyspark-jupyter

Updated: Les TPs en format Jupyter Notebook sont disponibles ici: https://goo.gl/CA3MYX

Plus d'info: http://www.meetup.com/fr-FR/Tlse-Data-Science/events/229997308

6aa4f3c589d3108830b371d0310bc4da?s=128

Toulouse Data Science

April 09, 2016
Tweet