Data NoBlaBla : Data Munging avec Apache Spark Bis

Data Munging avec Spark Partie I Alexia Audevart @aaudevart Data
NoBlaBla Télécharger les TP corrigés ici : https://goo.gl/VLgQSk Jeudi 3 Mars 2016

Merci à notre sponsor

Who I am ?

Big Data : Pourquoi maintenant ?

5 000 000 000 Go 2003 Début des civilisations 3
500 avant J.C. * Digital Universe Study by IDC, 2012. 2011 48 heures 2013 10 min 40 2020 zettaoctets * Production de la donnée

Comment analyser le Big Data ?

Il était une fois… Hadoop

Dois-je apprendre Hadoop avant Spark ? Non, Apache Spark est
un projet indépendant de Hadoop. ...toutefois, comme il s’intègre avec Hadoop, il est intéressant de connaître les bases de Hadoop.

~~~~~ ~~~~~ ~~~~~ ~~~ Ecrire un fichier 380 Mo DN1,
DN2, DN3 done done done close Name node Client Data Node1 Data Node2 Data Node3 Replication pipeline Bloc de 128 Mo DN1, DN2, DN3 HDFS : récap’

Hadoop MapReduce : récap’ HDFS HDFS

Hadoop : limitations • Mode Batch (adapté pour les traitement
longs) • Ecriture des résultats intermédiaires en disque (forte latence à cause de la replication) • Lecture à partir du disque seulement (pénalise les algorithmes itéractifs)

HDD: $1.24/GB RAM: $189/GB HDD: $0.05/GB RAM: $5.50/GB (34x less
expensive 2005) (Apache Spark June 2013) Evolution prix HDD vs RAM

Apache Spark • 2009 : sujet de recherche UC Berkeley
AMPLab (open source 2010) • Juin 2013 : Top Apache Project (Apache Spark) • Extension du modèle MapReduce (plus performant, in-memory) • Framework généraliste (propose autres paradigmes de programmation) • API en Scala, Java, Python et R • Permet de faire des analyses interactives (Scala et Python) • Ecosystème riche (SparkSQL, Spark Streaming, MLlib, GraphX)

Apache Spark

Data Science et Big Data Les technologies doivent être un
facilitateur, pas le but. La vraie valeur du Big Data vient de la rencontre de la donnée avec son contexte business, où l’analyse mène à des meilleures prises de décision — autrement, c’est juste de la data !

Apache Spark : les bases

Driver, Executors Driver SparkContext Executors Master / Cluster Manager

NoteBook 1 Part 1 & 2

Resilient Distributed Dataset (RDD) 1, 2, 3, 4, 5, 6,
…………………………………………………………………996, 997, 998, 999, 1000 Partitions Collection d’éléments Collection d’éléments distribués Important : cette collection est immuable

Resilient Distributed Dataset (RDD) • Abstraction Primaire de Spark ◦
Immuable ◦ Tolérant aux pannes car Spark sait recalculer efficacement les données perdues (Track lineage information) ◦ Permet des opérations parrallèles sur une collection d’éléments distribués • Comment construire des RDDs ? ◦ En parallèlisant des collections Python existantes (list) ◦ En appliquant des transformations sur des RDDs existants ◦ A partir de fichiers dans HDFS ou d’autres systèmes de fichiers...

Transformations

Actions

Collect

Filter Transformation

Reduce Action reduce(accumulator, e: accumulator + element) 0 acc 01
1 2 3 3 6 4 10 15 5 elem 15 30 La fonction doit être commutative et associative !!!

NoteBook 1 Suite ...

Mission : Réaliser un nuages de mots à partir des
ouvrages de Shakespeare

Approche distribuée et scalable

NoteBook 2 Part 1

GroupByKey Transformation

GroupByKey : limitations • Demande beaucoup de transfert des données
entre les workers • Pour une grande collection, par exemple compter les mots dans toutes le pages Wikipedia, cela peut dépasser la mémoire disponible dans les workers

ReduceByKey Transformation reduceByKey(accumulator, e: ...)

NoteBook 2 Part 2

map vs flatMap Transformation RDD (String) Hello Word A new
line! Viva Las Vegas map(x: x.split(‘ ’)) RDD (List of String) Hello Word A new line! Viva Las Vegas

map vs flatMap Transformation RDD (String) Hello Word A new
line! Viva Las Vegas flatMap(x: x.split(‘ ’)) RDD (String) Hello Word A new line!

NoteBook 2 Part 4

NoteBook 3

Récap’ • Spark : framework généraliste traitement distribué • Driver,
Executor • API PySpark (Python) • Transformations (Lazy) ◦ map, flatMap, filter, reduceByKey, groupByKey • Actions ◦ count, collect, take, top, takeOrdered, reduce,

Pour aller plus loin • edX Introduction to Big Data
with Apache Spark (https://goo.gl/ZHTIS7) • How-to: Translate from MapReduce to Apache Spark (http://goo.gl/oBZrb0)

A venir • Partie II - CSV, Parquet, DataFrames, SparkSQL
• Partie III - Usage avancé et NLP : Record Linkage

Merci! > questions .map(lambda x: reponses(x)) .count()

Spark vs. PySpark Source: https://goo.gl/ZpYSRv

Data NoBlaBla : Data Munging avec Apache Spark Bis

Data NoBlaBla : Data Munging avec Apache Spark Bis

More Decks by Toulouse Data Science

Other Decks in Programming

Featured

Transcript