large-scale sorting (5 novembre 2014) • Tri de 100 To de données • Hadoop MR : 72 minutes ◦ Avec 2100 noeuds (50400 cores) • Spark : 23 minutes ◦ Avec 206 noeuds (6592 cores)
Lazy ! • Exemples : ◦ map() : une valeur → une valeur ◦ mapToPair() : une valeur → un tuple ◦ filter() : filtre les valeurs/tuples ◦ groupByKey() : regroupe la valeurs par clés ◦ reduceByKey() : aggrège les valeurs par clés ◦ join(), cogroup()... : jointure entre deux RDD
: ◦ count() : compte les valeurs/tuples ◦ saveAsHadoopFile() : sauve les résultats au format Hadoop ◦ foreach() : exécute une fonction sur chaque valeur/tuple ◦ collect() : récupère les valeurs dans une liste (List<T>)
• Comptage d’arbres par espèce Spark - Exemple geom_x_y;circonfere;adresse;hauteurenm;espece;varieteouc;dateplanta 48.8648454814, 2.3094155344;140.0;COURS ALBERT 1ER;10.0;Aesculus hippocastanum;; 48.8782668139, 2.29806967519;100.0;PLACE DES TERNES;15.0;Tilia platyphyllos;; 48.889306184, 2.30400164126;38.0;BOULEVARD MALESHERBES;0.0;Platanus x hispanica;; 48.8599934405, 2.29504883623;65.0;QUAI BRANLY;10.0;Paulownia tomentosa;;1996-02-29 ...