Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Cloud – SaaS – Big Data – la vision d'un grand ...

Cloud – SaaS – Big Data – la vision d'un grand centre de calcul - Dominique Boutigny

Cloud – SaaS – Big Data – la vision d'un grand centre de calcul.
Présentation de Dominique Boutigny (Directeur du Centre de Calcul de l'IN2P3) lors des Rencontres SaaS, Cloud & innovation organisées par SysFera le 23 mai à Clamart.

SysFera

May 29, 2012
Tweet

More Decks by SysFera

Other Decks in Technology

Transcript

  1. Cloud – SaaS – Big Data – la vision d'un

    grand centre de calcul 25 mai 2012 Dominique Boutigny Crédits CC-IN2P3 : Laurent Caillat-Vallet Jean-Yves Nief Pierre Girard
  2. 25 mai 2012 Une architecture de Grille globale pour le

    LHC CC-IN2P3 FZK PIC NDGF NIKHEF ASCC Brookhaven Fermilab TRIUMF RAL CNAF T1 (11) T0 T2 (~70) Île de France Clermont Nantes Lyon CC-IN2P3 CC-IN2P3 Annecy T3 (many) Strasbourg Marseille
  3. 25 mai 2012 ~60 000 CPU – 70 Po de

    stockage – 5500 utilisateurs
  4. Traitement de données en physique HEP 25 mai 2012 Les

    collisions de particules sont indépendantes les unes des autres  Traitement de données : "Embarrassingly parallel problem"  Chaque CPU (core / thread) traite un ensemble de données  Les analyses de physique consistent à filtrer les données afin d'effectuer un traitement statistique Il faut passer au crible des millions / milliards d'enregistrements d'interactions afin de localiser les quelques "évènements" intéressants Le comportement des détecteurs est modélisé avec une très grande précision  Simulation Au niveau informatique il s'agit essentiellement d'un problème d'accès aux données  CPU  Accès aux données
  5. Traitement de données en physique HEP 25 mai 2012 Caractéristiques

    des données d'une expérience LHC (ATLAS) :  Taille : 1.6 Mo / interaction enregistrée  Taux d'enregistrement ~200 Hz  ~320 Mo/s et par expérience Traitement local au CERN puis distribution dans 11 centres T1 Raw data 1.5 Mo / evt Event Summary Data – 500 ko / evt Analysis Object Data – 100 ko / evt  Retraitements réguliers dans les T1 et redistribution des données vers les T2 Le traitement de données en physique de hautes énergies est essentiellement un problème "embarassingly parallel"
  6. Exemple d'accès aux données : Xrootd Client HPSS Redirector server:

    Xrootd T1.root (1) (4) (2) /hpss/in2p3.fr/T1.root ? (etc…) Data server: Xrootd (5) (3) (1) + (2): load balancing + scalabilité (6): random access Data server: Xrootd (6) (4) + (5): dynamic staging Système similaire : SRM / DCache 25 mai 2012
  7. Ressources du CC-IN2P3 25 mai 2012 8 Po LHC 14

    Po 16 000 tâches en // 11 Po Total
  8. Les futures expériences d'astroparticules 25 mai 2012 LSST : Large

    Synoptic Survey Telescope 3.2 Gpixels – 1 image toutes les 15s  15 à 30 To de données chaque nuit L'ensemble du ciel est sondé 1000 fois en 10 ans Crédit : LSST Collaboration
  9. Stockage des données dans LSST 25 mai 2012 http://www.scidb.org/ Base

    de données Open Source spécifiquement conçue pour le stockage de masses de données scientifiques Solution de base : qserv Modèle de données basé sur des tableaux multidimensionnels Vise un passage à l'échelle jusqu'à plusieurs centaines de Po sur 1000 nœuds http://dev.lsstcorp.org/trac/wiki/dbQservOverview
  10. Virtualisation 25 mai 2012 La virtualisation permet de dé-corréler l’infrastructure

    matérielle (réelle) de l’infrastructure présentée à l’utilisateur (virtuelle) Sur un serveur multi-cœur, il est possible d'instancier plusieurs machines virtuelles ayant des caractéristiques données :  Système d'exploitation  Environnement logiciel  Éventuellement environnement d'analyse La virtualisation va prendre une place de plus en plus importante dans les centres de traitement de données  S'affranchir au maximum des spécificités des sites pour créer des infrastructure adaptées aux expériences  Introduction de la virtualisation dans les architectures de grille Cloud : IaaS
  11. Vers une infrastructure de Cloud 25 mai 2012 Hiérarchie naturelle

    : IaaS – PaaS – SaaS IaaS* : Avoir accès à la demande à un grand nombre de ressources virtualisées PaaS : Un ensemble d’outils pour développer, déployer et gérer des applications SaaS : L’application elle-même est disponible à travers un navigateur Applications Les grilles vont évoluer pour intégrer de plus en plus de services virtualisés  Initiative France-Grilles pour la mise en œuvre d'un cloud académique au CC-IN2P3 (*) Définitions empruntées à F. Desprez
  12. Prototype de cloud académique au CC-IN2P3 via 25 mai 2012

    Ouverture du service IaaS en bêtatest d'ici l'été
  13. Catalogue de services Traitement de données Sécurité / Confidentialité Calcul

    Stockage Réseau Portails Intergiciels Applications Informatique "métier" SysFera + … CC-IN2P3 Support Support 25 mai 2012 Projet A Projet B Projet C Articulation entre les différentes composantes d'un Cloud