Big Data & Hadoop - Speaker Deck

Slide 1

Slide 1 text

Big Data & Hadoop Mercredi 28 Octobre 2015

Slide 2

Slide 2 text

2 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 Who I am ? Alexia AUDEVART Big Data Architect @alex_0008

Slide 3

Slide 3 text

3 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 SOMMAIRE Partie 1 : Big Data  Introduction au Big Data  Ecosystème du Big Data Partie 2 : Hadoop  Introduction à Hadoop  Les composants primaires d’Hadoop  L’écosystème Hadoop  Les distributions d’Hadoop Partie 3 : Conclusion & Questions

Slide 4

Slide 4 text

4 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 LES DATAS….

Slide 5

Slide 5 text

5 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 Définition Big Data  Pas de définition standard du Big Data  Millions de données  Taille unitaire d’une donnée insignifiante  Un système Big Data va créer de la valeur à partir de ces grosses volumétries de données par sa capacité à :  Ingérer  Filtrer  Stocker  Analyser

Slide 6

Slide 6 text

6 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 Du Big Data au Fast Data Constat :  La donnée est de plus en plus abondante  La donnée est de plus en plus vive • Capteurs (montres, lunettes, voitures,…) • Réseaux sociaux • Comportements utilisateurs • Données des téléphones mobiles • … Nécessité de traiter toutes ces données en temps réel => Fast Data

Slide 7

Slide 7 text

7 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 Les 3 V Vélocité Variété Volume Les solutions apportées par le Big Data ● Traitement des évènements en temps réel (event processing) ● Technologies « In-memory » ● Explosion des usages Analytics ● Multiple source de données internes & externes ● Hadoop & No SQL ● Cloud Les 3V COUT VITESSE INSIGHTS

Slide 8

Slide 8 text

8 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 Nouvelle façon de gérer les données Process-centric  Données structurées  Données venant de sources Internes  Données “importantes” uniquement  Multiple copies des Données Data-centric  Données de tous types (structurées, semi- structurées, non-structurées)  Données venant de multiple sources de données (interne & externe) Data App App App App App App Data Data Data Data

Slide 9

Slide 9 text

9 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015  Evolution non uniforme de la capacité et du débit des disques Pourquoi le Big Data maintenant ?  Evolution du hardware Source Wikipédia  2 solutions pour dépasser la limite technique du débit des disques:  Limiter au maximum l’utilisation des disques  Paralléliser un maximum ce débit pour le rendre acceptable  Evolution des architectures  Architecture type “In Memory” (exemple: SAP Hana)  Architecture type “In Grid » (exemple: Hadoop) Les technologies du Big Data reposent sur ces architectures

Slide 10

Slide 10 text

10 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 Cas d’utilisation du Big Data  Réduction des couts :  Archivage  Déchargement d’entrepôt de données  ETL (Extract-Transform-Load)  Fail-Over The Top Five Customer Use Cases for Datameer  Elargir le champs des possibles :  Analyser et tirer de la valeur des données de l’entreprise (analyse des logs, corrélation entre différentes sources de données, augmentation de la profondeur d’analyse, …)  Analyser des données exogènes de l’entreprise et les corréler avec des données externes (réseaux sociaux, IoT, OpenData, …)

Slide 11

Slide 11 text

11 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 SOMMAIRE Partie 1 : Big Data  Introduction au Big Data  Ecosystème du Big Data Partie 2 : Hadoop  Introduction à Hadoop  Les composants primaires d’Hadoop  L’écosystème Hadoop  Les distributions d’Hadoop Partie 3 : Conclusion & Questions

Slide 12

Slide 12 text

12 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 © Matt Turck, Sutian Dong & FirstMark Capital Big Data Landscape Version 3.0

Slide 13

Slide 13 text

13 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 © Matt Turck, Sutian Dong & FirstMark Capital Big Data Landscape Version 3.0 Hadoop

Slide 14

Slide 14 text

14 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 © Matt Turck, Sutian Dong & FirstMark Capital Big Data Landscape Version 3.0 Bases NoSQL

Slide 15

Slide 15 text

15 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 © Matt Turck, Sutian Dong & FirstMark Capital Big Data Landscape Version 3.0 Analyse de logs

Slide 16

Slide 16 text

16 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 © Matt Turck, Sutian Dong & FirstMark Capital Big Data Landscape Version 3.0 Data Visualisation + BI

Slide 17

Slide 17 text

17 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 © Matt Turck, Sutian Dong & FirstMark Capital Big Data Landscape Version 3.0 Machine Learning + Stat

Slide 18

Slide 18 text

18 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 PLATE-FORME BIG DATA : DATA LAKE Usage Analytics API / Drivers Exploration des données DataLake Données Source de données Interne Source de données Externe Traitement Corrélation Recherche Machine Learning Calcul Stockage Fichiers In Memory Base de données Ingestion Batch Micro-Batch Temps Réel

Slide 19

Slide 19 text

19 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 SOMMAIRE Partie 1 : Big Data  Introduction au Big Data  Ecosystème du Big Data Partie 2 : Hadoop  Introduction à Hadoop  Les composants primaires d’Hadoop  L’écosystème Hadoop  Les distributions d’Hadoop Partie 3 : Conclusion & Questions

Slide 20

Slide 20 text

20 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 Introduction à Hadoop  Framework OpenSource Apache Hadoop  stocker et traiter de grands ensembles de données  de façon distribuée (Cluster)  sur du matériel standard  Composé de nombreux projets Apache Software Foundation  Répondant à une fonctionnalité bien précise  Associé à sa propre communauté de développeurs  Possède son propre cycle de développement

Slide 21

Slide 21 text

21 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 Introduction à Hadoop  Le projet Hadoop consiste en deux grandes parties :  Stockage des données: HDFS (Hadoop Distributed File System)  Traitement des données: Map Reduce  Principe : Diviser et sauvegarder les données sur un cluster Traiter les données directement là où elles sont stockées Scalabilité : possibilité d’ajouter/retirer des machines au cluster

Slide 22

Slide 22 text

22 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 Hadoop une brève histoire…

Slide 23

Slide 23 text

23 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 SOMMAIRE Partie 1 : Big Data  Introduction au Big Data  Ecosystème du Big Data Partie 2 : Hadoop  Introduction à Hadoop  Les composants primaires d’Hadoop  L’écosystème Hadoop  Les distributions d’Hadoop Partie 3 : Conclusion & Questions

Slide 24

Slide 24 text

24 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 Cluster Hadoop, c’est quoi ?  Cluster Hadoop  Ensemble de machines : serveurs d’entrée de gamme (commodités)  Système « Shared Nothing » : Le seul élément partagé est le réseau qui connecte les machines  Une machine est appelé un « Node »  Un cluster est composé de :  Master Nodes • Gèrent l’infrastructure  Worker/Slave Nodes • Contiennent les données distribuées • Exécutent les traitements sur les données.

Slide 25

Slide 25 text

25 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 HDFS  HDFS est un système de fichiers distribué, extensible et portable.  Ecrit en Java  Permet de stocker de très gros volumes de données (données structurés ou non) au sein d’un Cluster  Les données sont découpées et distribuées dans un cluster Hadoop :  Block Size : par défaut 64 Mo  Réplication Factor : nombre de copies d’une donnée (par défaut 3 : 1 primaire et 2 secondaires)  Dans HDFS, les données sont de type « write-once »

Slide 26

Slide 26 text

26 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 HDFS blk_1  64 Mo blk_2  64 Mo blk_3  32 Mo Fichier (160 Mo) Cluster Node Node Node Node Node NN Node DN DN DN DN DN Node NN

Slide 27

Slide 27 text

27 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 HDFS  NameNode : Responsable de la localisation des données  Démon s’exécutant sur une machine séparée  Contient des méta-données  Permet de retrouver les nœuds qui exécutent les blocs d’un fichier  NameNode est dupliqué, non seulement sur son propre disque, mais également quelque part sur le système de fichiers du réseau (Secondary NameNode).  DataNode : Stocke et restitue les blocs de données  Démon sur chaque nœud du cluster

Slide 28

Slide 28 text

28 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 MapReduce  Crée par Google pour son outil de recherche Web  Patron d’architecture de développement  Parallélisation automatique des programmes Hadoop  Gestion transparente du mode distribué  Traitement rapide des données volumineuses  Fault Tolerant : Tolérance aux pannes basée sur la réplication  Co-localiser les données & les traitements

Slide 29

Slide 29 text

29 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 MapReduce  Map : Décomposition d’une tache en un ensemble de tache plus petite qui produisent un sous ensemble du résultat final  Composé de Mappers  Fonctionnant en parallèle  Stockage sur disque des données en entrée et sortie  Sorties des Mappers = enregistrements intermédiaires sous forme d’un couple (clef, valeur)

Slide 30

Slide 30 text

30 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 MapReduce  Reduce :  Consolide (agrégation, filtre) les résultats issus du Mapper.  Génère les résultats finaux et les écrit sur disque.  Shuffle & Sort : Mélange et Tri  Tri par clef des données intermédiaires.  Envoi des données ayant la même clef vers un seul et même reducer.

Slide 31

Slide 31 text

31 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 MapReduce – Exemple Word Count /file.txt Deer Bear River Car Car River Deer Car Bear /file.txt

Slide 32

Slide 32 text

32 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 MapReduce – Exemple Word Count /file.txt Deer Bear River Car Car River Deer Car Bear /file.txt

Slide 33

Slide 33 text

33 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 MapReduce – Exemple Word Count /file.txt Deer Bear River Car Car River Deer Car Bear /file.txt

Slide 34

Slide 34 text

34 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 MapReduce – Exemple Word Count /file.txt Deer Bear River Car Car River Deer Car Bear /file.txt

Slide 35

Slide 35 text

35 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 MapReduce – Exemple Word Count /file.txt Deer Bear River Car Car River Deer Car Bear /file.txt

Slide 36

Slide 36 text

36 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 Hadoop: YARN  Yet-Another-Resource-Negotiator  Intégré à Hadoop depuis la v2  YARN apporte une séparation entre : • Gestion de l’état du cluster et des ressources. • Gestion de l’exécution des jobs.

Slide 37

Slide 37 text

37 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 SOMMAIRE Partie 1 : Big Data  Introduction au Big Data  Ecosystème du Big Data Partie 2 : Hadoop  Introduction à Hadoop  Les composants primaires d’Hadoop  L’écosystème Hadoop  Les distributions d’Hadoop Partie 3 : Conclusion & Questions

Slide 38

Slide 38 text

38 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 L’écosystème d’Hadoop : Langage de requêtage  Au dessus du MapReduce : langage plus simple traduit plus tard en Mappers et Reducers PIG : • Requêtage des données Hadoop à partir d’un langage de script • Développé par Yahoo Hive : requêtes SQL • HiveQL : langage SQL – Select only • Créé à l’origine par Facebook  Impala  Extraction des données directement à partir de HDFS avec SQL  Optimisé pour les requêtes à faible latence  Requêtes plus rapides que Hive

Slide 39

Slide 39 text

39 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 L’écosystème d’Hadoop : Base NoSQL  HBase  Base de données NoSQL orientée colonnes  Distribuée : basée sur Hadoop et HDFS (Inspirée des publications de Google sur BigTable)

Slide 40

Slide 40 text

40 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 L’écosystème d’Hadoop : Connexion à HDFS Connexion du HDFS à partir d’outils externes  Sqoop  Intégration des données d’une base de données traditionnelle dans HDFS.  Développé par Cloudera  Flume  Système distribué permettant de collecter, regrouper et déplacer efficacement un ensemble de données (des logs) à partir de plusieurs sources vers le HDFS  Développé par Cloudera

Slide 41

Slide 41 text

41 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 L’écosystème d’Hadoop  Hue  Front-end graphique pour le cluster  Fournit • Un navigateur pour HDFS et HBase • Des éditeurs pour Hive, Pig, Impala et Sqoop  Oozie  Outil de gestion de workflow  Gère et coordonne les jobs Hadoop  Mahout  Bibliothèque d’implémentation d’algorithmes d’apprentissage automatique et de datamining

Slide 42

Slide 42 text

42 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 L’écosystème d’Hadoop : Spark  SPARK est un Framework de traitements Big Data open source  Développé par AMPLab, de l’Université UC Berkeley, en 2009  Passé OpenSource en 2010 sous forme de projet Apache • Release 1.0 – Mai 2014 • Release 1.5.1 – Octobre 2015  Projet le plus actif dans l’écosystème Hadoop  Top 3 des projets les plus actifs d’Apache Alternative in-memory plus rapide que le traditionnel MapReduce de Hadoop

Slide 43

Slide 43 text

43 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 L’écosystème d’Hadoop : Spark  Framework complet & unifié  Ecrit en Scala : Exécution sur la JVM  APIs en Scala, Java, Python  Performance  100 x plus rapide en mémoire  10 x plus vite sur disque

Slide 44

Slide 44 text

44 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 L’écosystème d’Hadoop : Spark  Resilient Distributed Datasets : concept au cœur du framework Spark  Collection d’objets distribués  In-memory par défaut  Structure de données immutables  Fault Tolerant => Les RDD permettent de réarranger les calculs et d’optimiser le traitement  Intégration avec diverses sources de données :  Cassandra  Hive  Hbase  ElasticSearch  S3  …

Slide 45

Slide 45 text

45 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 Une partie de l’écosystème d’ Hadoop…

Slide 46

Slide 46 text

46 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 SOMMAIRE Partie 1 : Big Data  Introduction au Big Data  Ecosystème du Big Data Partie 2 : Hadoop  Introduction à Hadoop  Les composants primaires d’Hadoop  L’écosystème Hadoop  Les distributions d’Hadoop Partie 3 : Conclusion & Questions

Slide 47

Slide 47 text

47 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 Les distributions d’Hadoop • Apache Hadoop Open Source • Cloudera CDH • Hortonworks • MapR Pure Players • Greenplum (Pivotal) • IBM InfoSphere BigInsights (CDH) • Oracle Big data appliance (CDH) • NetApp Analytics (CDH) • Teradata (aster) Software Publishers • Amazon Elastic MapReduce • Virtual Scale (CDH) • Microsoft Azure HDInsight (HW) • Hadoop on Google GCP Public Cloud Architecture de référence pour les projets Big Data

Slide 48

Slide 48 text

48 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 HortonWorks

Slide 49

Slide 49 text

49 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 Cloudera

Slide 50

Slide 50 text

50 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 MapR

Slide 51

Slide 51 text

51 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 SOMMAIRE Partie 1 : Big Data  Introduction au Big Data  Ecosystème du Big Data Partie 2 : Hadoop  Introduction à Hadoop  Les composants primaires d’Hadoop  L’écosystème Hadoop  Les distributions d’Hadoop Partie 3 : Conclusion & Questions

Slide 52

Slide 52 text

52 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre 2015 Merci pour votre attention. Questions ?