Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Big Data & Hadoop

Big Data & Hadoop

Face à l'explosion du volume d'informations, la data est devenue “Big” et cela ne vous aura pas échappé. Vous avez sans doute entendu que le données se comptent désormais par Zettaoctets, qu’il y a de valeur cachée dans ce tas de données et que pour les analyser il faut faire appel aux technologies Big Data ! Et Hadoop fut !

Souvent pris par synonyme de Big Data, Hadoop est aujourd’hui bien plus qu’un simple framework pour le traitement massivement parallèle. L’écosystème Hadoop est aujourd’hui très riche et mature : MapReduce, Pig, Hive, Tez, Spark, Flume et plus encore.

Alexia Audevart, architecte Big Data chez Capgemini, nous propose de voir au-delà du buzzword marketing et découvrir vraiment ce qu’est Big Data et en particulier la plate-forme Big Data Hadoop qui permet de capter, stocker, filtrer, analyser ces grosses volumétries de données.

Présentation Meetup Toulouse Data Science - 28 Octobre 2015

Toulouse Data Science

October 28, 2015
Tweet

More Decks by Toulouse Data Science

Other Decks in Programming

Transcript

  1. 2 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 Who I am ? Alexia AUDEVART Big Data Architect @alex_0008
  2. 3 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 SOMMAIRE Partie 1 : Big Data  Introduction au Big Data  Ecosystème du Big Data Partie 2 : Hadoop  Introduction à Hadoop  Les composants primaires d’Hadoop  L’écosystème Hadoop  Les distributions d’Hadoop Partie 3 : Conclusion & Questions
  3. 5 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 Définition Big Data  Pas de définition standard du Big Data  Millions de données  Taille unitaire d’une donnée insignifiante  Un système Big Data va créer de la valeur à partir de ces grosses volumétries de données par sa capacité à :  Ingérer  Filtrer  Stocker  Analyser
  4. 6 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 Du Big Data au Fast Data Constat :  La donnée est de plus en plus abondante  La donnée est de plus en plus vive • Capteurs (montres, lunettes, voitures,…) • Réseaux sociaux • Comportements utilisateurs • Données des téléphones mobiles • … Nécessité de traiter toutes ces données en temps réel => Fast Data
  5. 7 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 Les 3 V Vélocité Variété Volume Les solutions apportées par le Big Data • Traitement des évènements en temps réel (event processing) • Technologies « In-memory » • Explosion des usages Analytics • Multiple source de données internes & externes • Hadoop & No SQL • Cloud Les 3V COUT VITESSE INSIGHTS
  6. 8 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 Nouvelle façon de gérer les données Process-centric  Données structurées  Données venant de sources Internes  Données “importantes” uniquement  Multiple copies des Données Data-centric  Données de tous types (structurées, semi- structurées, non-structurées)  Données venant de multiple sources de données (interne & externe) Data App App App App App App Data Data Data Data
  7. 9 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015  Evolution non uniforme de la capacité et du débit des disques Pourquoi le Big Data maintenant ?  Evolution du hardware Source Wikipédia  2 solutions pour dépasser la limite technique du débit des disques:  Limiter au maximum l’utilisation des disques  Paralléliser un maximum ce débit pour le rendre acceptable  Evolution des architectures  Architecture type “In Memory” (exemple: SAP Hana)  Architecture type “In Grid » (exemple: Hadoop) Les technologies du Big Data reposent sur ces architectures
  8. 10 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 Cas d’utilisation du Big Data  Réduction des couts :  Archivage  Déchargement d’entrepôt de données  ETL (Extract-Transform-Load)  Fail-Over The Top Five Customer Use Cases for Datameer  Elargir le champs des possibles :  Analyser et tirer de la valeur des données de l’entreprise (analyse des logs, corrélation entre différentes sources de données, augmentation de la profondeur d’analyse, …)  Analyser des données exogènes de l’entreprise et les corréler avec des données externes (réseaux sociaux, IoT, OpenData, …)
  9. 11 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 SOMMAIRE Partie 1 : Big Data  Introduction au Big Data  Ecosystème du Big Data Partie 2 : Hadoop  Introduction à Hadoop  Les composants primaires d’Hadoop  L’écosystème Hadoop  Les distributions d’Hadoop Partie 3 : Conclusion & Questions
  10. 12 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 © Matt Turck, Sutian Dong & FirstMark Capital Big Data Landscape Version 3.0
  11. 13 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 © Matt Turck, Sutian Dong & FirstMark Capital Big Data Landscape Version 3.0 Hadoop
  12. 14 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 © Matt Turck, Sutian Dong & FirstMark Capital Big Data Landscape Version 3.0 Bases NoSQL
  13. 15 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 © Matt Turck, Sutian Dong & FirstMark Capital Big Data Landscape Version 3.0 Analyse de logs
  14. 16 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 © Matt Turck, Sutian Dong & FirstMark Capital Big Data Landscape Version 3.0 Data Visualisation + BI
  15. 17 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 © Matt Turck, Sutian Dong & FirstMark Capital Big Data Landscape Version 3.0 Machine Learning + Stat
  16. 18 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 PLATE-FORME BIG DATA : DATA LAKE Usage Analytics API / Drivers Exploration des données DataLake Données Source de données Interne Source de données Externe Traitement Corrélation Recherche Machine Learning Calcul Stockage Fichiers In Memory Base de données Ingestion Batch Micro-Batch Temps Réel
  17. 19 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 SOMMAIRE Partie 1 : Big Data  Introduction au Big Data  Ecosystème du Big Data Partie 2 : Hadoop  Introduction à Hadoop  Les composants primaires d’Hadoop  L’écosystème Hadoop  Les distributions d’Hadoop Partie 3 : Conclusion & Questions
  18. 20 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 Introduction à Hadoop  Framework OpenSource Apache Hadoop  stocker et traiter de grands ensembles de données  de façon distribuée (Cluster)  sur du matériel standard  Composé de nombreux projets Apache Software Foundation  Répondant à une fonctionnalité bien précise  Associé à sa propre communauté de développeurs  Possède son propre cycle de développement
  19. 21 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 Introduction à Hadoop  Le projet Hadoop consiste en deux grandes parties :  Stockage des données: HDFS (Hadoop Distributed File System)  Traitement des données: Map Reduce  Principe : Diviser et sauvegarder les données sur un cluster Traiter les données directement là où elles sont stockées Scalabilité : possibilité d’ajouter/retirer des machines au cluster
  20. 23 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 SOMMAIRE Partie 1 : Big Data  Introduction au Big Data  Ecosystème du Big Data Partie 2 : Hadoop  Introduction à Hadoop  Les composants primaires d’Hadoop  L’écosystème Hadoop  Les distributions d’Hadoop Partie 3 : Conclusion & Questions
  21. 24 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 Cluster Hadoop, c’est quoi ?  Cluster Hadoop  Ensemble de machines : serveurs d’entrée de gamme (commodités)  Système « Shared Nothing » : Le seul élément partagé est le réseau qui connecte les machines  Une machine est appelé un « Node »  Un cluster est composé de :  Master Nodes • Gèrent l’infrastructure  Worker/Slave Nodes • Contiennent les données distribuées • Exécutent les traitements sur les données.
  22. 25 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 HDFS  HDFS est un système de fichiers distribué, extensible et portable.  Ecrit en Java  Permet de stocker de très gros volumes de données (données structurés ou non) au sein d’un Cluster  Les données sont découpées et distribuées dans un cluster Hadoop :  Block Size : par défaut 64 Mo  Réplication Factor : nombre de copies d’une donnée (par défaut 3 : 1 primaire et 2 secondaires)  Dans HDFS, les données sont de type « write-once »
  23. 26 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 HDFS blk_1  64 Mo blk_2  64 Mo blk_3  32 Mo Fichier (160 Mo) Cluster Node Node Node Node Node NN Node DN DN DN DN DN Node NN
  24. 27 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 HDFS  NameNode : Responsable de la localisation des données  Démon s’exécutant sur une machine séparée  Contient des méta-données  Permet de retrouver les nœuds qui exécutent les blocs d’un fichier  NameNode est dupliqué, non seulement sur son propre disque, mais également quelque part sur le système de fichiers du réseau (Secondary NameNode).  DataNode : Stocke et restitue les blocs de données  Démon sur chaque nœud du cluster
  25. 28 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 MapReduce  Crée par Google pour son outil de recherche Web  Patron d’architecture de développement  Parallélisation automatique des programmes Hadoop  Gestion transparente du mode distribué  Traitement rapide des données volumineuses  Fault Tolerant : Tolérance aux pannes basée sur la réplication  Co-localiser les données & les traitements
  26. 29 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 MapReduce  Map : Décomposition d’une tache en un ensemble de tache plus petite qui produisent un sous ensemble du résultat final  Composé de Mappers  Fonctionnant en parallèle  Stockage sur disque des données en entrée et sortie  Sorties des Mappers = enregistrements intermédiaires sous forme d’un couple (clef, valeur)
  27. 30 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 MapReduce  Reduce :  Consolide (agrégation, filtre) les résultats issus du Mapper.  Génère les résultats finaux et les écrit sur disque.  Shuffle & Sort : Mélange et Tri  Tri par clef des données intermédiaires.  Envoi des données ayant la même clef vers un seul et même reducer.
  28. 31 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 MapReduce – Exemple Word Count /file.txt Deer Bear River Car Car River Deer Car Bear /file.txt
  29. 32 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 MapReduce – Exemple Word Count /file.txt Deer Bear River Car Car River Deer Car Bear /file.txt
  30. 33 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 MapReduce – Exemple Word Count /file.txt Deer Bear River Car Car River Deer Car Bear /file.txt
  31. 34 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 MapReduce – Exemple Word Count /file.txt Deer Bear River Car Car River Deer Car Bear /file.txt
  32. 35 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 MapReduce – Exemple Word Count /file.txt Deer Bear River Car Car River Deer Car Bear /file.txt
  33. 36 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 Hadoop: YARN  Yet-Another-Resource-Negotiator  Intégré à Hadoop depuis la v2  YARN apporte une séparation entre : • Gestion de l’état du cluster et des ressources. • Gestion de l’exécution des jobs.
  34. 37 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 SOMMAIRE Partie 1 : Big Data  Introduction au Big Data  Ecosystème du Big Data Partie 2 : Hadoop  Introduction à Hadoop  Les composants primaires d’Hadoop  L’écosystème Hadoop  Les distributions d’Hadoop Partie 3 : Conclusion & Questions
  35. 38 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 L’écosystème d’Hadoop : Langage de requêtage  Au dessus du MapReduce : langage plus simple traduit plus tard en Mappers et Reducers PIG : • Requêtage des données Hadoop à partir d’un langage de script • Développé par Yahoo Hive : requêtes SQL • HiveQL : langage SQL – Select only • Créé à l’origine par Facebook  Impala  Extraction des données directement à partir de HDFS avec SQL  Optimisé pour les requêtes à faible latence  Requêtes plus rapides que Hive
  36. 39 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 L’écosystème d’Hadoop : Base NoSQL  HBase  Base de données NoSQL orientée colonnes  Distribuée : basée sur Hadoop et HDFS (Inspirée des publications de Google sur BigTable)
  37. 40 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 L’écosystème d’Hadoop : Connexion à HDFS Connexion du HDFS à partir d’outils externes  Sqoop  Intégration des données d’une base de données traditionnelle dans HDFS.  Développé par Cloudera  Flume  Système distribué permettant de collecter, regrouper et déplacer efficacement un ensemble de données (des logs) à partir de plusieurs sources vers le HDFS  Développé par Cloudera
  38. 41 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 L’écosystème d’Hadoop  Hue  Front-end graphique pour le cluster  Fournit • Un navigateur pour HDFS et HBase • Des éditeurs pour Hive, Pig, Impala et Sqoop  Oozie  Outil de gestion de workflow  Gère et coordonne les jobs Hadoop  Mahout  Bibliothèque d’implémentation d’algorithmes d’apprentissage automatique et de datamining
  39. 42 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 L’écosystème d’Hadoop : Spark  SPARK est un Framework de traitements Big Data open source  Développé par AMPLab, de l’Université UC Berkeley, en 2009  Passé OpenSource en 2010 sous forme de projet Apache • Release 1.0 – Mai 2014 • Release 1.5.1 – Octobre 2015  Projet le plus actif dans l’écosystème Hadoop  Top 3 des projets les plus actifs d’Apache Alternative in-memory plus rapide que le traditionnel MapReduce de Hadoop
  40. 43 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 L’écosystème d’Hadoop : Spark  Framework complet & unifié  Ecrit en Scala : Exécution sur la JVM  APIs en Scala, Java, Python  Performance  100 x plus rapide en mémoire  10 x plus vite sur disque
  41. 44 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 L’écosystème d’Hadoop : Spark  Resilient Distributed Datasets : concept au cœur du framework Spark  Collection d’objets distribués  In-memory par défaut  Structure de données immutables  Fault Tolerant => Les RDD permettent de réarranger les calculs et d’optimiser le traitement  Intégration avec diverses sources de données :  Cassandra  Hive  Hbase  ElasticSearch  S3  …
  42. 45 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 Une partie de l’écosystème d’ Hadoop…
  43. 46 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 SOMMAIRE Partie 1 : Big Data  Introduction au Big Data  Ecosystème du Big Data Partie 2 : Hadoop  Introduction à Hadoop  Les composants primaires d’Hadoop  L’écosystème Hadoop  Les distributions d’Hadoop Partie 3 : Conclusion & Questions
  44. 47 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 Les distributions d’Hadoop • Apache Hadoop Open Source • Cloudera CDH • Hortonworks • MapR Pure Players • Greenplum (Pivotal) • IBM InfoSphere BigInsights (CDH) • Oracle Big data appliance (CDH) • NetApp Analytics (CDH) • Teradata (aster) Software Publishers • Amazon Elastic MapReduce • Virtual Scale (CDH) • Microsoft Azure HDInsight (HW) • Hadoop on Google GCP Public Cloud Architecture de référence pour les projets Big Data
  45. 51 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 SOMMAIRE Partie 1 : Big Data  Introduction au Big Data  Ecosystème du Big Data Partie 2 : Hadoop  Introduction à Hadoop  Les composants primaires d’Hadoop  L’écosystème Hadoop  Les distributions d’Hadoop Partie 3 : Conclusion & Questions
  46. 52 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre

    2015 Merci pour votre attention. Questions ?