Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Collecter et Analyser vos données dans le cloud

Collecter et Analyser vos données dans le cloud

Modern data is massive, quickly evolving, unstructured, and increasingly hard to catalog and understand from multiple consumers and applications. This session will guide you though the best practices for designing a robust data architecture, highlightning the benefits and typical challenges of data lakes and data warehouses. We will build a scalable solution based on managed services such as Amazon Athena, AWS Glue, and AWS Lake Formation.

More Decks by Sébastien Stormacq - AWS Developer Advocate

Other Decks in Technology

Transcript

  1. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Collecter et analyser vos données dans le Cloud Sébastien Stormacq Technical Evangelist AWS EMEA @sebsto
  2. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Tirer de la valeur de la donnée Achats Mobilité Réseaux sociaux Ingestion/ Collecte Consommation/ Visualisation Stockage Traitement/ Transformation 1 4 0 9 5 Augmentation des revenus Stratégie produit Satisfaction client Recommandations de produits Optimisation de stocks Optimisation chaîne logisitique ...
  3. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Vos données dans le cloud : le concept du Data lake • Centraliser les données de l’entreprise • Variété de données et de format: structuré/semi-structuré/non structuré • Faciliter l’ingestion et la consommation des données • Schema on read vs schema on write • Stockage durable des données et à bas coût • Séparer le stockage des données des ressources de calcul • Sécurité et gouvernance
  4. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. La majorité des Data lakes sont sur AWS
  5. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Votre Data lake sur AWS S3 IAM KMS OLTP ERP CRM LOB Devices Web Sensors Social Kinesis Créez votre Data lake • Identifier et cataloguer les données • Collecter et nettoyer les données • Transformer la donnée (format optimisé) Gérez efficacement la sécurité • Chiffrement • Politiques d’accès • Audit des accès et modifications Démocratisez l’accès au Data lake • Centraliser les méta-données dans le catalogue de données • Utiliser l’outil de votre choix pour exploiter la donnée Athena Amazon Redshift AI Services Amazon EMR Amazon QuickSight Catalogue de données
  6. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Votre Data lake sur AWS: le catalogue de services AWS Marketplace Amazon Redshift Data warehousing Amazon EMR Hadoop + Spark Athena Interactive analytics Kinesis Analytics Real-time Amazon Elasticsearch service Operational Analytics RDS MySQL, PostgreSQL, MariaDB, Oracle, SQL Server Aurora MySQL, PostgreSQL Amazon QuickSight Amazon SageMaker DynamoDB Key value, Document ElastiCache Redis, Memcached Neptune Graph Timestream Time Series QLDB Ledger Database S3/Amazon Glacier AWS Glue ETL & Data Catalog Lake Formation Data Lakes Database Migration Service | Snowball | Snowmobile | Kinesis Data Firehose | Kinesis Data Streams | Data Pipeline | Direct Connect Ingestion de données Analytics Databases Business Intelligence & Machine Learning Data lake Managed Blockchain Blockchain Templates Blockchain Amazon Comprehend Amazon Rekognition Amazon Lex Amazon Transcribe AWS DeepLens 250+ solutions 730+ Database solutions 600+ Analytics solutions 25+ Blockchain solutions 20+ Data lake solutions 30+ solutions RDS on VMWare
  7. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Construire votre Data lake: les étapes clés Choisir le stockage 1 Collecter les données (batch ou temps-reel) 2 Découvrir 3 Configurer les règles de gouvernance et de sécurité 5 Exploiter la donnée 6 Nettoyer, Preparer, Cataloguer 4
  8. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Choisir le stockage: Amazon S3 au coeur du Data lake Stockage Data lake Offre une scalabilité, une disponibilité des données, une sécurité et des performances de pointe. Stocke tout type de données (site web, données d’applications d’entreprise, objets connectés) sans limite de taille ni de volume Supporte tout type de format: Non structuré (images, videos, fichiers binaires) | semi-structuré (JSON, XML) | structuré (CSV, Parquet, XML, ORC) Gestion du cycle de vie des objets S3 Amazon S3-Standard | Amazon S3-Infrequent Access | Amazon S3- Intelligent-tiering | Amazon Glacier
  9. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Choisir le stockage: Amazon S3 au coeur du Data lake • Supporté nativement par les frameworks Big data (Spark, Hive, Presto parmi tant d’autres) • Permet de séparer le stockage des ressources de calcul • les clusters Hadoop dédiées uniquement au calcul • Permet d’avoir des cluster EMR éphèmères avec des instances EC2 Spot • Permet à plusieurs clusters de partager facilement la même donnée • Durabilité de la donnée dans S3: 99.999999999% • Les données S3 sont automatiquement répliquées dans la région sans surcoût • Sécurité – Support de SSL, chiffrement client/server-side encryption au repos • Stockage élastique et à bas coût
  10. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Data Lake Collecter les données: batch et temps-réel Batch & Migration de données Import initial de données Batchs quotidiens d’imports de données Migration clusters Big Data ou Data Warehouse AWS Direct Connect AWS Snowball AWS Snowmobile AWS Database Migration Service AWS Glue S3 Multipart-Upload & Transfer Acceleration AWS IoT Core Amazon Kinesis Data Firehose Amazon Kinesis Data Streams Amazon Kinesis Video Streams Amazon MSK API Gateway Ingestion en temps-réel Flux de données en temps réel Flux video en temps reel APIs & Services web Objet connectés (IOT) Ingestion temps-réel Batchs & Migration de données
  11. AWS Snowball Edge E Ink shipping label Ruggedized case “8.5G

    impact” All data encrypted end-to-end Rain and dust resistant Tamper-resistant case and electronics 100 TB 10GE network
  12. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Découvrir les données: Amazon Athena Service de requête interactif pour analyser les données S3 à l’aide de SQL standard Aucune infrastructure à gérer et aucun chargement de données à prévoir Basé sur Presto pour le DML et Apache Hive DDL pour la definition des tables Requêtes instantanées Zéro coût initial; Résultats fournis en quelques secondes SQL Ouvert ANSI SQL, Pilotes JDBC/ODBC fournis, Divers format de données supportés dont CSV, JSON, ORC, Avro et Parquet Simple Zero infrastructure & Zero administration. S’intègre nativement avec Amazon Quicksight Facturation à la requête Vous ne payez que pour les requêtes que vous executez; 5$ par téraoctet scanné $
  13. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Nettoyer, préparer, cataloguer: AWS Glue Catalogue de données Jobs Découverte des données Extraction des schémas Code auto-généré en pyspark ou scala Découverte automatique du Data Lake Catalogue de données central du Data lake Génération de code (pyspark & scala) Ordonnancement et execution de jobs ETL Serverless, flexible, and basé sur Apache Spark
  14. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Nettoyer, préparer, cataloguer: AWS Glue Catalogue de données AWS Glue Référentiel central des métadonnées Découverte automatique des données Création des schémas de tables utilisables avec Glue, Athena, EMR et Redshift Spectrum Jobs Glue pour nettoyer & transformer Environnement Spark entièrement managé Utilisez le code généré or importez votre code Langages supportés: Python ou Scala Amazon S3 (Données brutes) Amazon S3 (Données temporaires) Amazon S3 (Données transformées) Catalogue de données AWS Glue Crawlers Crawlers Crawlers
  15. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. © 2017, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Les Crawlers enrichissent automatiquement le Catalogue de données AWS Glue. Ils parcourent votre Data Lake et évaluent vos données pour en déduire le schéma Versioning des schémas de vos données Support du partitionnement Hive dans S3 Support natif des formats JSON, CSV, Apache Avro; formats additionnels supportés (expressions Grok) Exécution à la demande, évènementielle ou programmée Nettoyer, préparer, cataloguer: Glue Crawlers Crawlers Catalogage automatique du Data lake
  16. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Configurer les règles de gouvernance et de sécurité Amazon S3 Data Lake Storage AWS Glue Data Catalog Par défaut, toutes les ressources Amazon S3 sont confidentielles Utilisez les S3 bucket policies & IAM user policies pour sécuriser vos données dans S3 Utilisez AWS KMS pour chiffrer vos données côté client ou côté serveur Utilisez les tags (Classification = PHI) avec IAM pour la gestion d’accès
  17. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Exploiter la donnée: Amazon QuickSight Service rapide d'aide à la decision sur le cloud Permet de créer et publier facilement des tableaux de bord interactifs Accessible à tous les collaborateurs de votre entreprise. AMAZON REDSHIFT SPECTRUM AMAZON EMR AMAZON ATHENA AWS GLUE DATA CATALOG AWS GLUE CRAWLER AMAZON S3 QUICKSIGHT 1 2 3
  18. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. CHALLENGE Besoin de remonter un maximum d’informations des joueurs pour les designers. Besoin de comprendre à la minute la satisfaction des joueurs pour garantir leur engagement, ce qui résulte au jeu le plus populaire au monde Fortnite | 125+ million de joueurs
  19. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Epic Games utilise un datalake et des solutions analytiques La plateforme d’analytics est all-in sur AWS Amazon S3 comme datalake Toutes les données sont remontées via Amazon Kinesis L’analyse temps réelle est faites via Spark sur EMR et les tableaux d’affichages reposent sur DynamoDB EMR est utilisé pour l’analyse batch de la plateforme. Les designers du jeu se reposent sur l’information remontée pour prendre des decisions. Game clients Game servers Launcher Game services N E A R R E A L T I M E P I P E L I N E N E A R R E A L T I M E P I P E L I N E Grafana Scoreboards API Limited raw data (real time ad-hoc SQL) User ETL (metric definition) Spark on EMR DynamoDB NEAR REAL-TIME PIPELINES BATCH PIPELINES ETL using EMR Tableau/BI Ad-hoc SQL S3 (Data lake) Kinesis APIs Databases S3 Other sources
  20. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Data Lake avec Amazon Lake Formation Kinesis Social Web Sensors Devices LOB CRM ERP OLTP IAM KMS Catalogue de données Athena EMR Elasticsearch AI Services QuickSight Redshift
  21. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Quelques bonnes pratiques Adopter un pipeline flexible avec un couplage lâche • Data → Store → Process → Store → Analyze → Answers Choisir la meilleure solution selon les contraintes techniques • Format des données, latence, volume, patterns d’accès Privilégier les services managés et serverless • Elasticité, disponibilité, fiabilité, sécurité, peu ou pas d’administration Chiffer les données en quelques clics • Chiffrement côté serveur ou côté client Prendre en compte les critères de coûts • Big data ≠ Big cost
  22. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Demo Overview https://aws.amazon.com/blogs/big-data/harmonize-query-and-visualize-data- from-various-providers-using-aws-glue-amazon-athena-and-amazon-quicksight/
  23. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Comment découvrir plus de cas d’usages ?
  24. © 2019, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Merci ! © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.