Spark, ou comment traiter des données à la vitesse de l'éclair

Alexis Seigneurin @aseigneurin @ippontech 1 / 37

Spark Traitement large volumes de données Traitement distribué (commodity hardware)
Ecrit en Scala, binding Java 2 / 37

Histoire 2009 : AMPLab de l'Université de Berkeley Juin 2013
: "Top-level project" de la fondation Apache Mai 2014 : version 1.0.0 Actuellement : version 1.1.0 3 / 37

Use cases Analyse de logs Traitement de fichiers texte Analytics
Recherche distribuée (Google, avant) Détection de fraude Recommendation (articles, produits...) 4 / 37

Proximité avec Hadoop Mêmes use cases Même modèle de développement
: MapReduce Intégration dans l'écosystème 5 / 37

Plus simple qu'Hadoop API plus simple à prendre en main
Modèle MapReduce "relâché" Spark Shell : traitement interactif 6 / 37

Plus rapide qu'Hadoop Spark officially sets a new record in
large-scale sorting (5 novembre 2014) Tri de 100 To de données Hadoop MR : 72 minutes avec 2100 noeuds (50400 cores) Spark : 23 minutes avec 206 noeuds (6592 cores) 7 / 37

Ecosystème Spark Spark Spark Shell Spark Streaming Spark SQL MLlib
GraphX 8 / 37

Intégration Yarn, Zookeeper, Mesos HDFS Cassandra Elasticsearch MongoDB 9 /
37

Fonctionnement de Spark 10 / 37

RDD Resilient Distributed Dataset Abstraction, collection traitée en parallèle Tolérant
à la panne Manipulation de tuples : Clé - Valeur Tuples indépendants les uns des autres 11 / 37

Sources : Fichier sur HDFS Fichier local Collection en mémoire
S3 Base NoSQL ... Ou une implémentation custom de I n p u t F o r m a t 12 / 37

Transformations Manipule un RDD, retourne un autre RDD Lazy !
Exemples : map() : une valeur → une valeur mapToPair() : une valeur → un tuple filter() : filtre les valeurs/tuples groupByKey() : regroupe la valeurs par clés reduceByKey() : aggrège les valeurs par clés join(), cogroup()... : jointure entre deux RDD 13 / 37

Actions finales Ne retournent pas un RDD Exemples : count()
: compte les valeurs/tuples saveAsHadoopFile() : sauve les résultats au format Hadoop foreach() : exécute une fonction sur chaque valeur/tuple collect() : récupère les valeurs dans une liste (List< T >) 14 / 37

Exemple 15 / 37

Word count Découpage des fichiers par fragments de 128 Mo
(framework) Découpage des fragments par lignes (framework) Découpage des lignes en mots (map) Comptage des mots (reduce) Sur chaque noeud Puis sur un noeud pour le résultat final 16 / 37

Shakespeare, Hamlet, acte III, scène 1 17 / 37

Spark - Exemple s c . t e x t
F i l e ( " s o m e / t e x t / f i l e s / * " ) . f l a t M a p ( l i n e - > A r r a y s . a s L i s t ( l i n e . s p l i t ( " \ \ W " ) ) ) . m a p T o P a i r ( w o r d - > n e w T u p l e 2 < S t r i n g , I n t e g e r > ( w o r d , 1 ) ) . r e d u c e B y K e y ( ( x , y ) - > x + y ) . c o l l e c t ( ) ; 18 / 37

Démo Spark Shell 19 / 37

Démo de Spark Shell $ s p a r k
- s h e l l > v a r l i n e s = s c . t e x t F i l e ( " . . . / d a t a / a r b r e s a l i g n e m e n t p a r i s 2 0 1 0 . c s v " ) > l i n e s . c o u n t ( ) > v a r t r e e s = l i n e s . f i l t e r ( s = > ! s . s t a r t s W i t h ( " g e o m " ) ) > v a r t r e e s S p l i t = t r e e s . m a p ( l i n e = > l i n e . s p l i t ( " ; " ) ) > v a r h e i g h t s = t r e e s S p l i t . m a p ( f i e l d s = > f i e l d s ( 3 ) . t o F l o a t ) > h e i g h t s = h e i g h t s . f i l t e r ( h = > h > 0 ) > h e i g h t s . s u m ( ) / h e i g h t s . c o u n t ( ) 20 / 37

Spark en Cluster 21 / 37

Topologie Un master / des workers (+ un master en
standby) Communication bidirectionnelle On soumet une application 22 / 37

Spark en Cluster Plusieurs options YARN Mesos Standalone Workers démarrés
individuellement Workers démarrés par le master 23 / 37

Stockage & traitements MapReduce Spark (API) Traitement parallèle Tolérant à
la panne Stockage HDFS, base NoSQL... Stockage distribué Tolérant à la panne 24 / 37

Colocation données & traitement Traiter la donnée là où elle
se trouve Eviter les network I/Os 25 / 37

Colocation données & traitement 26 / 37

Démo Spark en Cluster 27 / 37

Démo $ $ S P A R K _ H
O M E / s b i n / s t a r t - m a s t e r . s h $ $ S P A R K _ H O M E / b i n / s p a r k - c l a s s o r g . a p a c h e . s p a r k . d e p l o y . w o r k e r . W o r k e r s p a r k : / / M B P - d e - A l e x i s : 7 0 7 7 - - c o r e s 2 - - m e m o r y 2 G $ m v n c l e a n p a c k a g e $ $ S P A R K _ H O M E / b i n / s p a r k - s u b m i t - - m a s t e r s p a r k : / / M B P - d e - A l e x i s : 7 0 7 7 - - c l a s s c o m . s e i g n e u r i n . s p a r k . W i k i p e d i a M a p R e d u c e B y K e y - - d e p l o y - m o d e c l u s t e r t a r g e t / p r e s - s p a r k - 0 . 0 . 1 - S N A P S H O T . j a r 28 / 37

Spark Streaming 29 / 37

Micro-batches Découpe un flux continu en batches API identique ≠
Apache Storm 30 / 37

DStream Discretized Streams Séquence de RDDs Initialisé avec une D
u r a t i o n 31 / 37

Window operations Fenêtre glissante Réutilise des données d'autres fenêtres Initialisé
avec window length et slide interval 32 / 37

Sources Socket Kafka Flume HDFS MQ (ZeroMQ...) Twitter ... Ou
une implémentation custom de R e c e i v e r 33 / 37

Démo Spark Streaming 34 / 37

Démo de Spark Streaming Consommation de Tweets #Android Twitter4J Détection
de la langue du Tweet Language Detection Indexation dans ElasticSearch Analyse dans Kibana 4 35 / 37

Démo Lancer ElasticSearch $ c u r l - X
D E L E T E l o c a l h o s t : 9 2 0 0 $ c u r l - X P U T l o c a l h o s t : 9 2 0 0 / s p a r k / _ m a p p i n g / t w e e t s ' { " t w e e t s " : { " p r o p e r t i e s " : { " u s e r " : { " t y p e " : " s t r i n g " , " i n d e x " : " n o t _ a n a l y z e d " } , " t e x t " : { " t y p e " : " s t r i n g " } , " c r e a t e d A t " : { " t y p e " : " d a t e " , " f o r m a t " : " d a t e _ t i m e " } , " l a n g u a g e " : { " t y p e " : " s t r i n g " , " i n d e x " : " n o t _ a n a l y z e d " } } } } ' Lancer Kibana http://localhost:5601 Lancer le traitement 36 / 37

@aseigneurin - @ippontech aseigneurin.github.io - blog.ippon.fr 37 / 37

Spark, ou comment traiter des données à la vite...

Spark, ou comment traiter des données à la vitesse de l'éclair

More Decks by Alexis Seigneurin

Other Decks in Technology

Featured

Transcript