Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Oxalide MorningTech #1 - BigData

Oxalide MorningTech #1 - BigData

Oxalide MorningTech #1 - BigData

1er MorningTech @Oxalide, animé par Ludovic Piot (@lpiot), le 15 décembre 2016.
Pour cette 1ère édition du Morning Tech nous vous proposons une overview sur un des thèmes du moment : le Big Data.
Au delà de ce buzz word nous aborderons :
Les grands concepts
Les étapes clés des projets Big Data et les technologies à utiliser (stockage, ingestion, …)
Les enjeux des architectures Big Data (architecture lambda, …)
L'intelligence artificielle (machine learning, deep learning, …)
Et nous finirons par un cas d'usage du big data sur AWS autour de l'utilisation des données gyroscopiques de vos internautes mobiles

Subject: Oxalide's 1st MorningTech talk about BigData.
Date: 15-dec-2016
Speakers: Ludovic Piot (@lpiot, @oxalide)
Language: french

Lien SpeakerDeck : https://speakerdeck.com/lpiot/oxalide-morningtech-number-1-bigdata
Lien SlideShare : https://www.slideshare.net/LudovicPiot/oxalide-morningtech-1-bigdata
YouTube Video capture: https://youtu.be/7O85lRzvMY0

Main topics:
* Les grands enjeux du BigData
** les 3 V du Gartner : volume, variété, vélocité
* Le stockage des données
** datalake
** les technos
* L'ingestion des données
** ETL
** datastream
** les technos
* Les enjeux du compute
** map-reduce
** spark
** lambda architecture
* Démo d'une plateforme BigData sur AWS
* L'intelligence artificielle
** datascience exploratoire et notebooks,
** machine learning,
** deep learning,
** data pipeline
** les technos
* Pour aller plus loin
** La gouvernance des données
** La dataviz

Ludovic Piot

December 15, 2016
Tweet

More Decks by Ludovic Piot

Other Decks in Technology

Transcript

  1. Les événements Oxalide • Objectif : présentation d’une thématique métier

    ou technique • Tout public : 80 à 100 personnes • Déroulé : 1 soir par trimestre de 18h à 21h • Introduction de la thématique par un partenaire • Tour de table avec des clients et non clients • Echange convivial autour d’un apéritif dînatoire • Objectif : présentation d’une technologie • Réservé aux clients : public technique avec laptop – 30 personnes • Déroulé : 1 matinée par trimestre de 9h à 13h • Présentation de la technologie • Tuto pour la configuration en ligne de commande • Objectif : présentation d’une thématique métier ou technique • Réservé aux clients : 30 personnes • Déroulé : 1 matin par trimestre de 9h à 12h • Big picture • Démonstration et retour d’expérience Apérotech Workshop Morning Tech
  2. IoT – l’explosion de la data ! Organizations are redefining

    data strategies due to the requirements of the evolving Enterprise Data Warehouse (EDW). Enterprise Data VoIP Machine Data Social Media
  3. Les 3V : les dimensions du Gartner • Volume :

    Le volume de données crées et gérées est en constante augmentation (+59% / an en 2011) • Variété : Les types de données collectées sont très variés (texte, son, image, logs…). Nécessité que les outils de traitement prennent en compte cette diversité • Vélocité : Besoin de rapidité pour pouvoir utiliser les données au fur et à mesure qu'elles sont collectées. Il faut les utiliser rapidement, ou elles n'ont aucune valeur. Les 2 nouveaux V émergeant : • Véracité : dimension apportant une notion de qualité de la donnée pour le métier • Visibilité : pour souligner la nécessité que la data soit accessible pour le métier afin de permettre la prise de décision rapide
  4. BigData vs. gestion traditionnelle des données ! Traditional Systems vs.

    Hadoop Traditional Database SCALE (storage & processing) Hadoop Distribution NoSQL MPP Analytics EDW schema speed governance best fit use processing Required on write Required on read Reads are fast Writes are fast Standards and structured Loosely structured Limited, no data processing Processing coupled with data data types Structured Multi and unstructured Interactive OLAP Analytics Complex ACID Transactions Operational Data Store Data Discovery Processing unstructured data Massive Storage/Processing
  5. Le stockage distribué ! Data Pipeline DataNode 1 Data Integrity

    – Writing Data 6. Success! 3. Data + checksum 4. Verify Checksum 4. Data and checksum 5. Success! 5.Success! DataNode 4 DataNode 12 Client 2. OK, please use DataNodes 1, 4, 12. 1. I want to write a block of data. NameNode
  6. Le Map/Reduce ! MapReduce Map$Phase$ Shuffle/Sort$ Mapper $ Mapper $

    Mapper $ Data$is$shuffled$ across$the$network$ and$sorted$ NM + DN NM + DN NM + DN Reduce$Phase$ Reducer $ Reducer $ NM + DN NM + DN
  7. Le pipeline BigData data answers ingest / collect store process

    analyse Time to answer (latency) Throughput Cost
  8. La Lambda Architecture Serving Layer Standardize, Cleanse, Integrate, Filter, Transform

    Batch Layer Extract & Load Conform, Summarize, Access Speed Layer •  Organize data based on source/derived relationships •  Allows for fault and rebuild process •  There are lots of different ways of organizing data in an enterprise data platform that includes Hadoop.
  9. Demo Time Amazon S3 http://bit.ly/2grJMMf Shard 0 Amazon Kinesis Amazon

    Cognito Amazon EC2 R Shiny-Server https://github.com/lpiot/amazon-kinesis-IoT-sensor-demo
  10. Le Machine Learning • Jeu de données : labellisé (avec

    les réponses) • Objectif d’apprentissage : • Régression (prévision) • Classification Apprentissage supervisé
  11. Hypothèse et fonction de coût But du jeu : Trouver

    une fonction h qui représente fidèlement les données. Régression linéaire : ℎ = % + ' ' + ( ( + ⋯ + * *
  12. Le Machine Learning • Jeu de données : non-labellisé (sans

    réponse) • Objectif d’apprentissage : • Identifier / détecter des structures dans les données Apprentissage non-supervisé
  13. Algorithmes de classification But du jeu : Trouver l’algorithme qui

    distingue au mieux les structures dans les données.
  14. Réseaux neuronaux • Basés sur le fonctionnement d’un cerveau •

    Hypothèse non linéaire ! • Classification multi-classe • Comme avant, on essaye de minimiser la fonction de coût en modifiant peu à peu les coefficients Θ(i)
  15. Sources • [6, 10] : Hortonworks : Operations Management with

    HDP • [8, 11, 12] : http://www.slideshare.net/1Strategy/2016-utah-cloud-summit-big- data-architectural-patterns-and-best-practices-on-aws
  16. Big Data : les domaines d’application Objectifs recherchés : •

    Collecter la donnée dès sa production (en temps réel) • Conserver l’intégralité de la donnée, sans perte d’information • Permettre l’exploitation a posteriori pour de nouveaux usages et/ou à travers de nouvelles technologies Mise en œuvre : • Collecte et nettoyage des données via Flume, Storm, Spark, Logstash, Kafka, Kinesis, etc. • Stockage de la donnée dénormalisée dans Cassandra, HDFS, Hbase, Hive, AWS S3, Redshift Datalake Collecter et stocker la donnée AWS S3 HADOOP CASANDRA Besoin recensé sur : EasyBourse, L’Etudiant… REDSHIFT HIVE HBASE KAFKA
  17. Big Data : les domaines d’application Objectifs recherchés : •

    Collecter la donnée dès sa production (en temps réel) • Traiter la donnée au fil de l’eau • Permettre l’exploitation et la consultation immédiates des données traitées dans des outils de requête en temps réel Mise en œuvre : • Collecte, nettoyage et traitement des données via Flume, Storm, Spark, Logstash, Kafka, Kinesis, etc. • Stockage de la donnée traitée dans Cassandra, Redshift, ElasticSearch Lambda architecture – Speed layer Traiter immédiatement la donnée et la consulter en temps réel SPARK Besoin recensé sur : EasyBourse, L’Etudiant… FLUME STORM ELASTICSEARCH CASANDRA REDSHIFT KINESIS
  18. Big Data : les domaines d’application DMP : Data Management

    Platform Qualifier son audience Objectifs recherchés : • Personnalisation de contenus et de l'expérience utilisateur Mise en œuvre : • TBC http://www.journaldunet.com/ebusiness/expert/58869/la-data- management-platform--dmp----fonctionnalites-et-benefices-de-l- exploitation-des-donnees.shtml Besoin recensé sur : L’Express, Kwanko, Le Parisien, 20 min, …
  19. Big Data : les domaines d’application Objectifs recherchés : •

    Explorer des jeux de données restreints pour identifier des caractéristiques • Classifier les données selon des features détectées automatiquement • Identifier automatiquement des groupes de données similaires • Faire des prédictions basées sur les données existantes Mise en œuvre : • Mise en place d’outils d’exploration pour les datascientists : Jupyter, zeppelin, spark notebook, RStudio • Mise en œuvre d’un datapipeline : kafka, yarn, scikit-learn, spark ml, R, H2O, graphlab,… Machine Learning Un pas vers l’IA Besoin recensé sur : Fjord, Qivivo SCIKIT LEARN ZEPPELIN JUPYTER R YARN KAFKA SPARK H2O