Big Data & Hadoop

Big Data & Hadoop Mercredi 28 Octobre 2015

2 Big Data & Hadoop Alexia Audevart Mercredi 28 0ctobre
2015 Who I am ? Alexia AUDEVART Big Data Architect @alex_0008

2015 SOMMAIRE Partie 1 : Big Data  Introduction au Big Data  Ecosystème du Big Data Partie 2 : Hadoop  Introduction à Hadoop  Les composants primaires d’Hadoop  L’écosystème Hadoop  Les distributions d’Hadoop Partie 3 : Conclusion & Questions

2015 LES DATAS….

2015 Définition Big Data  Pas de définition standard du Big Data  Millions de données  Taille unitaire d’une donnée insignifiante  Un système Big Data va créer de la valeur à partir de ces grosses volumétries de données par sa capacité à :  Ingérer  Filtrer  Stocker  Analyser

2015 Du Big Data au Fast Data Constat :  La donnée est de plus en plus abondante  La donnée est de plus en plus vive • Capteurs (montres, lunettes, voitures,…) • Réseaux sociaux • Comportements utilisateurs • Données des téléphones mobiles • … Nécessité de traiter toutes ces données en temps réel => Fast Data

2015 Les 3 V Vélocité Variété Volume Les solutions apportées par le Big Data • Traitement des évènements en temps réel (event processing) • Technologies « In-memory » • Explosion des usages Analytics • Multiple source de données internes & externes • Hadoop & No SQL • Cloud Les 3V COUT VITESSE INSIGHTS

2015 Nouvelle façon de gérer les données Process-centric  Données structurées  Données venant de sources Internes  Données “importantes” uniquement  Multiple copies des Données Data-centric  Données de tous types (structurées, semi- structurées, non-structurées)  Données venant de multiple sources de données (interne & externe) Data App App App App App App Data Data Data Data

2015  Evolution non uniforme de la capacité et du débit des disques Pourquoi le Big Data maintenant ?  Evolution du hardware Source Wikipédia  2 solutions pour dépasser la limite technique du débit des disques:  Limiter au maximum l’utilisation des disques  Paralléliser un maximum ce débit pour le rendre acceptable  Evolution des architectures  Architecture type “In Memory” (exemple: SAP Hana)  Architecture type “In Grid » (exemple: Hadoop) Les technologies du Big Data reposent sur ces architectures

2015 Cas d’utilisation du Big Data  Réduction des couts :  Archivage  Déchargement d’entrepôt de données  ETL (Extract-Transform-Load)  Fail-Over The Top Five Customer Use Cases for Datameer  Elargir le champs des possibles :  Analyser et tirer de la valeur des données de l’entreprise (analyse des logs, corrélation entre différentes sources de données, augmentation de la profondeur d’analyse, …)  Analyser des données exogènes de l’entreprise et les corréler avec des données externes (réseaux sociaux, IoT, OpenData, …)

2015 © Matt Turck, Sutian Dong & FirstMark Capital Big Data Landscape Version 3.0

2015 © Matt Turck, Sutian Dong & FirstMark Capital Big Data Landscape Version 3.0 Hadoop

2015 © Matt Turck, Sutian Dong & FirstMark Capital Big Data Landscape Version 3.0 Bases NoSQL

2015 © Matt Turck, Sutian Dong & FirstMark Capital Big Data Landscape Version 3.0 Analyse de logs

2015 © Matt Turck, Sutian Dong & FirstMark Capital Big Data Landscape Version 3.0 Data Visualisation + BI

2015 © Matt Turck, Sutian Dong & FirstMark Capital Big Data Landscape Version 3.0 Machine Learning + Stat

2015 PLATE-FORME BIG DATA : DATA LAKE Usage Analytics API / Drivers Exploration des données DataLake Données Source de données Interne Source de données Externe Traitement Corrélation Recherche Machine Learning Calcul Stockage Fichiers In Memory Base de données Ingestion Batch Micro-Batch Temps Réel

2015 Introduction à Hadoop  Framework OpenSource Apache Hadoop  stocker et traiter de grands ensembles de données  de façon distribuée (Cluster)  sur du matériel standard  Composé de nombreux projets Apache Software Foundation  Répondant à une fonctionnalité bien précise  Associé à sa propre communauté de développeurs  Possède son propre cycle de développement

2015 Introduction à Hadoop  Le projet Hadoop consiste en deux grandes parties :  Stockage des données: HDFS (Hadoop Distributed File System)  Traitement des données: Map Reduce  Principe : Diviser et sauvegarder les données sur un cluster Traiter les données directement là où elles sont stockées Scalabilité : possibilité d’ajouter/retirer des machines au cluster

2015 Hadoop une brève histoire…

2015 Cluster Hadoop, c’est quoi ?  Cluster Hadoop  Ensemble de machines : serveurs d’entrée de gamme (commodités)  Système « Shared Nothing » : Le seul élément partagé est le réseau qui connecte les machines  Une machine est appelé un « Node »  Un cluster est composé de :  Master Nodes • Gèrent l’infrastructure  Worker/Slave Nodes • Contiennent les données distribuées • Exécutent les traitements sur les données.

2015 HDFS  HDFS est un système de fichiers distribué, extensible et portable.  Ecrit en Java  Permet de stocker de très gros volumes de données (données structurés ou non) au sein d’un Cluster  Les données sont découpées et distribuées dans un cluster Hadoop :  Block Size : par défaut 64 Mo  Réplication Factor : nombre de copies d’une donnée (par défaut 3 : 1 primaire et 2 secondaires)  Dans HDFS, les données sont de type « write-once »

2015 HDFS blk_1  64 Mo blk_2  64 Mo blk_3  32 Mo Fichier (160 Mo) Cluster Node Node Node Node Node NN Node DN DN DN DN DN Node NN

2015 HDFS  NameNode : Responsable de la localisation des données  Démon s’exécutant sur une machine séparée  Contient des méta-données  Permet de retrouver les nœuds qui exécutent les blocs d’un fichier  NameNode est dupliqué, non seulement sur son propre disque, mais également quelque part sur le système de fichiers du réseau (Secondary NameNode).  DataNode : Stocke et restitue les blocs de données  Démon sur chaque nœud du cluster

2015 MapReduce  Crée par Google pour son outil de recherche Web  Patron d’architecture de développement  Parallélisation automatique des programmes Hadoop  Gestion transparente du mode distribué  Traitement rapide des données volumineuses  Fault Tolerant : Tolérance aux pannes basée sur la réplication  Co-localiser les données & les traitements

2015 MapReduce  Map : Décomposition d’une tache en un ensemble de tache plus petite qui produisent un sous ensemble du résultat final  Composé de Mappers  Fonctionnant en parallèle  Stockage sur disque des données en entrée et sortie  Sorties des Mappers = enregistrements intermédiaires sous forme d’un couple (clef, valeur)

2015 MapReduce  Reduce :  Consolide (agrégation, filtre) les résultats issus du Mapper.  Génère les résultats finaux et les écrit sur disque.  Shuffle & Sort : Mélange et Tri  Tri par clef des données intermédiaires.  Envoi des données ayant la même clef vers un seul et même reducer.

2015 MapReduce – Exemple Word Count /file.txt Deer Bear River Car Car River Deer Car Bear /file.txt

2015 Hadoop: YARN  Yet-Another-Resource-Negotiator  Intégré à Hadoop depuis la v2  YARN apporte une séparation entre : • Gestion de l’état du cluster et des ressources. • Gestion de l’exécution des jobs.

2015 L’écosystème d’Hadoop : Langage de requêtage  Au dessus du MapReduce : langage plus simple traduit plus tard en Mappers et Reducers PIG : • Requêtage des données Hadoop à partir d’un langage de script • Développé par Yahoo Hive : requêtes SQL • HiveQL : langage SQL – Select only • Créé à l’origine par Facebook  Impala  Extraction des données directement à partir de HDFS avec SQL  Optimisé pour les requêtes à faible latence  Requêtes plus rapides que Hive

2015 L’écosystème d’Hadoop : Base NoSQL  HBase  Base de données NoSQL orientée colonnes  Distribuée : basée sur Hadoop et HDFS (Inspirée des publications de Google sur BigTable)

2015 L’écosystème d’Hadoop : Connexion à HDFS Connexion du HDFS à partir d’outils externes  Sqoop  Intégration des données d’une base de données traditionnelle dans HDFS.  Développé par Cloudera  Flume  Système distribué permettant de collecter, regrouper et déplacer efficacement un ensemble de données (des logs) à partir de plusieurs sources vers le HDFS  Développé par Cloudera

2015 L’écosystème d’Hadoop  Hue  Front-end graphique pour le cluster  Fournit • Un navigateur pour HDFS et HBase • Des éditeurs pour Hive, Pig, Impala et Sqoop  Oozie  Outil de gestion de workflow  Gère et coordonne les jobs Hadoop  Mahout  Bibliothèque d’implémentation d’algorithmes d’apprentissage automatique et de datamining

2015 L’écosystème d’Hadoop : Spark  SPARK est un Framework de traitements Big Data open source  Développé par AMPLab, de l’Université UC Berkeley, en 2009  Passé OpenSource en 2010 sous forme de projet Apache • Release 1.0 – Mai 2014 • Release 1.5.1 – Octobre 2015  Projet le plus actif dans l’écosystème Hadoop  Top 3 des projets les plus actifs d’Apache Alternative in-memory plus rapide que le traditionnel MapReduce de Hadoop

2015 L’écosystème d’Hadoop : Spark  Framework complet & unifié  Ecrit en Scala : Exécution sur la JVM  APIs en Scala, Java, Python  Performance  100 x plus rapide en mémoire  10 x plus vite sur disque

2015 L’écosystème d’Hadoop : Spark  Resilient Distributed Datasets : concept au cœur du framework Spark  Collection d’objets distribués  In-memory par défaut  Structure de données immutables  Fault Tolerant => Les RDD permettent de réarranger les calculs et d’optimiser le traitement  Intégration avec diverses sources de données :  Cassandra  Hive  Hbase  ElasticSearch  S3  …

2015 Une partie de l’écosystème d’ Hadoop…

2015 Les distributions d’Hadoop • Apache Hadoop Open Source • Cloudera CDH • Hortonworks • MapR Pure Players • Greenplum (Pivotal) • IBM InfoSphere BigInsights (CDH) • Oracle Big data appliance (CDH) • NetApp Analytics (CDH) • Teradata (aster) Software Publishers • Amazon Elastic MapReduce • Virtual Scale (CDH) • Microsoft Azure HDInsight (HW) • Hadoop on Google GCP Public Cloud Architecture de référence pour les projets Big Data

2015 HortonWorks

2015 Cloudera

2015 MapR

2015 Merci pour votre attention. Questions ?

Big Data & Hadoop

Big Data & Hadoop

More Decks by Toulouse Data Science

Other Decks in Programming

Featured

Transcript