Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Big Data & Hadoop

Big Data & Hadoop

Face à l'explosion du volume d'informations, la data est devenue “Big” et cela ne vous aura pas échappé. Vous avez sans doute entendu que le données se comptent désormais par Zettaoctets, qu’il y a de valeur cachée dans ce tas de données et que pour les analyser il faut faire appel aux technologies Big Data ! Et Hadoop fut !

Souvent pris par synonyme de Big Data, Hadoop est aujourd’hui bien plus qu’un simple framework pour le traitement massivement parallèle. L’écosystème Hadoop est aujourd’hui très riche et mature : MapReduce, Pig, Hive, Tez, Spark, Flume et plus encore.

Alexia Audevart, architecte Big Data chez Capgemini, nous propose de voir au-delà du buzzword marketing et découvrir vraiment ce qu’est Big Data et en particulier la plate-forme Big Data Hadoop qui permet de capter, stocker, filtrer, analyser ces grosses volumétries de données.

Présentation Meetup Toulouse Data Science - 28 Octobre 2015

Toulouse Data Science

October 28, 2015
Tweet

More Decks by Toulouse Data Science

Other Decks in Programming

Transcript

  1. Big Data & Hadoop
    Mercredi 28 Octobre 2015

    View Slide

  2. 2
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    Who I am ?
    Alexia
    AUDEVART
    Big Data Architect
    @alex_0008

    View Slide

  3. 3
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    SOMMAIRE
    Partie 1 : Big Data
     Introduction au Big Data
     Ecosystème du Big Data
    Partie 2 : Hadoop
     Introduction à Hadoop
     Les composants primaires d’Hadoop
     L’écosystème Hadoop
     Les distributions d’Hadoop
    Partie 3 : Conclusion & Questions

    View Slide

  4. 4
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    LES DATAS….

    View Slide

  5. 5
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    Définition Big Data
     Pas de définition standard du Big Data
     Millions de données
     Taille unitaire d’une donnée insignifiante
     Un système Big Data va créer de la valeur
    à partir de ces grosses volumétries de
    données par sa capacité à :
     Ingérer
     Filtrer
     Stocker
     Analyser

    View Slide

  6. 6
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    Du Big Data au Fast Data
    Constat :
     La donnée est de plus en plus abondante
     La donnée est de plus en plus vive
    • Capteurs (montres, lunettes, voitures,…)
    • Réseaux sociaux
    • Comportements utilisateurs
    • Données des téléphones mobiles
    • …
    Nécessité de traiter toutes ces données en temps réel => Fast Data

    View Slide

  7. 7
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    Les 3 V
    Vélocité
    Variété
    Volume
    Les solutions apportées par le Big Data
    ● Traitement des évènements en
    temps réel (event processing)
    ● Technologies « In-memory »
    ● Explosion des usages Analytics
    ● Multiple source de données
    internes & externes
    ● Hadoop & No SQL
    ● Cloud
    Les 3V
    COUT
    VITESSE
    INSIGHTS

    View Slide

  8. 8
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    Nouvelle façon de gérer les données
    Process-centric
     Données structurées
     Données venant de sources Internes
     Données “importantes” uniquement
     Multiple copies des Données
    Data-centric
     Données de tous types (structurées, semi-
    structurées, non-structurées)
     Données venant de multiple sources de
    données (interne & externe)
    Data
    App
    App
    App
    App
    App
    App
    Data
    Data
    Data
    Data

    View Slide

  9. 9
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
     Evolution non uniforme de la
    capacité et du débit des disques
    Pourquoi le Big Data maintenant ?
     Evolution du hardware
    Source Wikipédia
     2 solutions pour dépasser la limite technique
    du débit des disques:
     Limiter au maximum l’utilisation des disques
     Paralléliser un maximum ce débit pour le
    rendre acceptable
     Evolution des architectures
     Architecture type “In Memory” (exemple: SAP Hana)
     Architecture type “In Grid » (exemple: Hadoop)
    Les technologies du Big Data
    reposent sur ces architectures

    View Slide

  10. 10
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    Cas d’utilisation du Big Data
     Réduction des couts :
     Archivage
     Déchargement d’entrepôt de données
     ETL (Extract-Transform-Load)
     Fail-Over
    The Top Five Customer Use Cases for Datameer
     Elargir le champs des possibles :
     Analyser et tirer de la valeur des données de
    l’entreprise (analyse des logs, corrélation entre
    différentes sources de données, augmentation de la
    profondeur d’analyse, …)
     Analyser des données exogènes de
    l’entreprise et les corréler avec des données
    externes (réseaux sociaux, IoT, OpenData, …)

    View Slide

  11. 11
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    SOMMAIRE
    Partie 1 : Big Data
     Introduction au Big Data
     Ecosystème du Big Data
    Partie 2 : Hadoop
     Introduction à Hadoop
     Les composants primaires d’Hadoop
     L’écosystème Hadoop
     Les distributions d’Hadoop
    Partie 3 : Conclusion & Questions

    View Slide

  12. 12
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    © Matt Turck, Sutian Dong & FirstMark Capital Big Data Landscape Version 3.0

    View Slide

  13. 13
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    © Matt Turck, Sutian Dong & FirstMark Capital Big Data Landscape Version 3.0
    Hadoop

    View Slide

  14. 14
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    © Matt Turck, Sutian Dong & FirstMark Capital Big Data Landscape Version 3.0
    Bases NoSQL

    View Slide

  15. 15
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    © Matt Turck, Sutian Dong & FirstMark Capital Big Data Landscape Version 3.0
    Analyse de logs

    View Slide

  16. 16
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    © Matt Turck, Sutian Dong & FirstMark Capital Big Data Landscape Version 3.0
    Data Visualisation + BI

    View Slide

  17. 17
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    © Matt Turck, Sutian Dong & FirstMark Capital Big Data Landscape Version 3.0
    Machine Learning + Stat

    View Slide

  18. 18
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    PLATE-FORME BIG DATA : DATA LAKE
    Usage
    Analytics API / Drivers
    Exploration des
    données
    DataLake
    Données
    Source de données
    Interne
    Source de données
    Externe
    Traitement
    Corrélation Recherche
    Machine
    Learning
    Calcul
    Stockage
    Fichiers In Memory Base de données
    Ingestion
    Batch Micro-Batch Temps Réel

    View Slide

  19. 19
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    SOMMAIRE
    Partie 1 : Big Data
     Introduction au Big Data
     Ecosystème du Big Data
    Partie 2 : Hadoop
     Introduction à Hadoop
     Les composants primaires d’Hadoop
     L’écosystème Hadoop
     Les distributions d’Hadoop
    Partie 3 : Conclusion & Questions

    View Slide

  20. 20
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    Introduction à Hadoop
     Framework OpenSource Apache Hadoop
     stocker et traiter de grands ensembles de données
     de façon distribuée (Cluster)
     sur du matériel standard
     Composé de nombreux projets Apache Software Foundation
     Répondant à une fonctionnalité bien précise
     Associé à sa propre communauté de développeurs
     Possède son propre cycle de développement

    View Slide

  21. 21
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    Introduction à Hadoop
     Le projet Hadoop consiste en deux grandes parties :
     Stockage des données: HDFS (Hadoop Distributed File System)
     Traitement des données: Map Reduce
     Principe :
    Diviser et sauvegarder les données sur un cluster
    Traiter les données directement là où elles sont stockées
    Scalabilité : possibilité d’ajouter/retirer des machines au cluster

    View Slide

  22. 22
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    Hadoop une brève histoire…

    View Slide

  23. 23
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    SOMMAIRE
    Partie 1 : Big Data
     Introduction au Big Data
     Ecosystème du Big Data
    Partie 2 : Hadoop
     Introduction à Hadoop
     Les composants primaires d’Hadoop
     L’écosystème Hadoop
     Les distributions d’Hadoop
    Partie 3 : Conclusion & Questions

    View Slide

  24. 24
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    Cluster Hadoop, c’est quoi ?
     Cluster Hadoop
     Ensemble de machines : serveurs d’entrée de
    gamme (commodités)
     Système « Shared Nothing » : Le seul élément
    partagé est le réseau qui connecte les machines
     Une machine est appelé un « Node »
     Un cluster est composé de :
     Master Nodes
    • Gèrent l’infrastructure
     Worker/Slave Nodes
    • Contiennent les données distribuées
    • Exécutent les traitements sur les données.

    View Slide

  25. 25
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    HDFS
     HDFS est un système de fichiers distribué, extensible et portable.
     Ecrit en Java
     Permet de stocker de très gros volumes de données (données structurés ou
    non) au sein d’un Cluster
     Les données sont découpées et distribuées dans un cluster Hadoop :
     Block Size : par défaut 64 Mo
     Réplication Factor : nombre de copies d’une donnée (par défaut 3 : 1 primaire et 2 secondaires)
     Dans HDFS, les données sont de type « write-once »

    View Slide

  26. 26
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    HDFS
    blk_1  64 Mo
    blk_2  64 Mo
    blk_3  32 Mo
    Fichier (160 Mo)
    Cluster
    Node
    Node
    Node
    Node
    Node
    NN
    Node
    DN
    DN
    DN
    DN
    DN
    Node
    NN

    View Slide

  27. 27
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    HDFS
     NameNode : Responsable de la localisation des
    données
     Démon s’exécutant sur une machine séparée
     Contient des méta-données
     Permet de retrouver les nœuds qui exécutent les
    blocs d’un fichier
     NameNode est dupliqué, non seulement sur son
    propre disque, mais également quelque part sur le
    système de fichiers du réseau (Secondary
    NameNode).
     DataNode : Stocke et restitue les blocs de données
     Démon sur chaque nœud du cluster

    View Slide

  28. 28
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    MapReduce
     Crée par Google pour son outil de recherche Web
     Patron d’architecture de développement
     Parallélisation automatique des programmes Hadoop
     Gestion transparente du mode distribué
     Traitement rapide des données volumineuses
     Fault Tolerant : Tolérance aux pannes basée sur la réplication
     Co-localiser les données & les traitements

    View Slide

  29. 29
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    MapReduce
     Map : Décomposition d’une tache en un ensemble de tache plus petite
    qui produisent un sous ensemble du résultat final
     Composé de Mappers
     Fonctionnant en parallèle
     Stockage sur disque des données en entrée et sortie
     Sorties des Mappers = enregistrements intermédiaires sous forme d’un
    couple (clef, valeur)

    View Slide

  30. 30
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    MapReduce
     Reduce :
     Consolide (agrégation, filtre) les résultats issus du Mapper.
     Génère les résultats finaux et les écrit sur disque.
     Shuffle & Sort : Mélange et Tri
     Tri par clef des données intermédiaires.
     Envoi des données ayant la même clef vers un seul et même reducer.

    View Slide

  31. 31
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    MapReduce – Exemple Word Count
    /file.txt
    Deer Bear River Car Car River Deer Car Bear
    /file.txt

    View Slide

  32. 32
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    MapReduce – Exemple Word Count
    /file.txt
    Deer Bear River Car Car River Deer Car Bear
    /file.txt

    View Slide

  33. 33
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    MapReduce – Exemple Word Count
    /file.txt
    Deer Bear River Car Car River Deer Car Bear
    /file.txt

    View Slide

  34. 34
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    MapReduce – Exemple Word Count
    /file.txt
    Deer Bear River Car Car River Deer Car Bear
    /file.txt

    View Slide

  35. 35
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    MapReduce – Exemple Word Count
    /file.txt
    Deer Bear River Car Car River Deer Car Bear
    /file.txt

    View Slide

  36. 36
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    Hadoop: YARN
     Yet-Another-Resource-Negotiator
     Intégré à Hadoop depuis la v2
     YARN apporte une séparation entre :
    • Gestion de l’état du cluster et des
    ressources.
    • Gestion de l’exécution des jobs.

    View Slide

  37. 37
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    SOMMAIRE
    Partie 1 : Big Data
     Introduction au Big Data
     Ecosystème du Big Data
    Partie 2 : Hadoop
     Introduction à Hadoop
     Les composants primaires d’Hadoop
     L’écosystème Hadoop
     Les distributions d’Hadoop
    Partie 3 : Conclusion & Questions

    View Slide

  38. 38
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    L’écosystème d’Hadoop : Langage de requêtage
     Au dessus du MapReduce : langage plus simple traduit
    plus tard en Mappers et Reducers
    PIG :
    • Requêtage des données Hadoop à partir d’un langage de script
    • Développé par Yahoo
    Hive : requêtes SQL
    • HiveQL : langage SQL – Select only
    • Créé à l’origine par Facebook
     Impala
     Extraction des données directement à partir de HDFS avec SQL
     Optimisé pour les requêtes à faible latence
     Requêtes plus rapides que Hive

    View Slide

  39. 39
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    L’écosystème d’Hadoop : Base NoSQL
     HBase
     Base de données NoSQL orientée colonnes
     Distribuée : basée sur Hadoop et HDFS
    (Inspirée des publications de Google sur BigTable)

    View Slide

  40. 40
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    L’écosystème d’Hadoop : Connexion à HDFS
    Connexion du HDFS à partir d’outils externes
     Sqoop
     Intégration des données d’une base de données traditionnelle
    dans HDFS.
     Développé par Cloudera
     Flume
     Système distribué permettant de collecter, regrouper et
    déplacer efficacement un ensemble de données (des logs) à
    partir de plusieurs sources vers le HDFS
     Développé par Cloudera

    View Slide

  41. 41
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    L’écosystème d’Hadoop
     Hue
     Front-end graphique pour le cluster
     Fournit
    • Un navigateur pour HDFS et HBase
    • Des éditeurs pour Hive, Pig, Impala et Sqoop
     Oozie
     Outil de gestion de workflow
     Gère et coordonne les jobs Hadoop
     Mahout
     Bibliothèque d’implémentation d’algorithmes d’apprentissage
    automatique et de datamining

    View Slide

  42. 42
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    L’écosystème d’Hadoop : Spark
     SPARK est un Framework de traitements Big Data open source
     Développé par AMPLab, de l’Université UC Berkeley, en 2009
     Passé OpenSource en 2010 sous forme de projet Apache
    • Release 1.0 – Mai 2014
    • Release 1.5.1 – Octobre 2015
     Projet le plus actif dans l’écosystème Hadoop
     Top 3 des projets les plus actifs d’Apache
    Alternative in-memory plus rapide que
    le traditionnel MapReduce de Hadoop

    View Slide

  43. 43
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    L’écosystème d’Hadoop : Spark
     Framework complet & unifié
     Ecrit en Scala : Exécution sur la JVM
     APIs en Scala, Java, Python
     Performance
     100 x plus rapide en mémoire
     10 x plus vite sur disque

    View Slide

  44. 44
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    L’écosystème d’Hadoop : Spark
     Resilient Distributed Datasets : concept au cœur du framework Spark
     Collection d’objets distribués
     In-memory par défaut
     Structure de données immutables
     Fault Tolerant
    => Les RDD permettent de réarranger les calculs et d’optimiser le traitement
     Intégration avec diverses sources de données :
     Cassandra
     Hive
     Hbase
     ElasticSearch
     S3
     …

    View Slide

  45. 45
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    Une partie de l’écosystème d’ Hadoop…

    View Slide

  46. 46
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    SOMMAIRE
    Partie 1 : Big Data
     Introduction au Big Data
     Ecosystème du Big Data
    Partie 2 : Hadoop
     Introduction à Hadoop
     Les composants primaires d’Hadoop
     L’écosystème Hadoop
     Les distributions d’Hadoop
    Partie 3 : Conclusion & Questions

    View Slide

  47. 47
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    Les distributions d’Hadoop
    • Apache Hadoop
    Open Source
    • Cloudera CDH
    • Hortonworks
    • MapR
    Pure Players
    • Greenplum (Pivotal)
    • IBM InfoSphere BigInsights (CDH)
    • Oracle Big data appliance (CDH)
    • NetApp Analytics (CDH)
    • Teradata (aster)
    Software
    Publishers
    • Amazon Elastic MapReduce
    • Virtual Scale (CDH)
    • Microsoft Azure HDInsight (HW)
    • Hadoop on Google GCP
    Public Cloud
    Architecture de
    référence pour les
    projets Big Data

    View Slide

  48. 48
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    HortonWorks

    View Slide

  49. 49
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    Cloudera

    View Slide

  50. 50
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    MapR

    View Slide

  51. 51
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    SOMMAIRE
    Partie 1 : Big Data
     Introduction au Big Data
     Ecosystème du Big Data
    Partie 2 : Hadoop
     Introduction à Hadoop
     Les composants primaires d’Hadoop
     L’écosystème Hadoop
     Les distributions d’Hadoop
    Partie 3 : Conclusion & Questions

    View Slide

  52. 52
    Big Data & Hadoop
    Alexia Audevart
    Mercredi 28 0ctobre 2015
    Merci pour votre attention.
    Questions ?

    View Slide