Dans l’atelier précédent, nous avons vu comment Spark fait partie intégrante dans le kit de ménage du data scientist moderne. Les bases de Spark et son API (PySpark) ont été abordées. Nous avons vu que le concept de RDDs est assez flexible et puissant pour travailler la donnée de tout type à l’aide d’une multitude de transformations et d’actions proposées.
Mais, nous savons bien que pour commencer à faire une analyse exploratoire et utiliser les méthodes de machine learning il faut d’abord structurer correctement sa donnée. C’est ce que nous aborderons dans cette deuxième partie de l’atelier. Voici le programme :
• Charger et enregistrer des données volumineuses au format CSV sans souffrance
• Utiliser l’API DataFrame pour faire une analyse exploratoire simple
• Analyser la donnée via SQL avec SparkSQL (et oui, le bon et vieux SQL a toujours la côte)
• Utiliser les tableaux croisés dynamique
• Utiliser Parquet, un format de stockage performant et structuré de plus en plus utilisé en entreprise
Pour suivre l'atelier, vous devez installer l'image docker ci-dessous:
docker pull noleto/pyspark-jupyter
Updated: Les TPs en format Jupyter Notebook sont disponibles ici: https://goo.gl/CA3MYX
Plus d'info: http://www.meetup.com/fr-FR/Tlse-Data-Science/events/229997308