Pachyderm.io Janvier 2015 V0.5 Mars 2015 et V1.0 le 5 Mai 2016 2008 : LXC 2013 Mars : Première version en Open Source Avril 2005 : Première version de GIT, en remplacement de BitKeeper. (en capitalisant sur les leçons apprises à l’usage de BK) Joe Doliner (RethinkDb, Airbnb) Joseph Zwicker (RethinkDb, Airbnb)
pour les données stockées ►Stockage sur des systèmes de stockage Objet (S3,GCS, Ceph)… ►Containers pour le traitement de données ►Batch ET Streaming Pachyderm File System Pachyderm Pipeline System
d’un outil de Datascience selon Pachyderm sont : ►Reproductibilité -Des données -De l’exécution ►Traçabilité des données ►Collaboration ►Incrémentation ►Autonomie ►Agnostique de l’Infrastructure
la bannière d’Apache – avec de nombreux projets associés Supporté par de nombreuses sociétés, développant de nombreux outils satellites Pachyderm : 1 société qui a le lead sur le projet. Lié à l’écosystème
Copy On Write (Paradigme important de Docker, et de Spark) ►Stockage de base de Pachyderm ►Versionning des données = Un GIT pour de Volumineux jeux de données
avec le FS en Copy-on-Write (PFS) ►Resilient ►Job pipeline enregistré dans un Direct Acyclic Graph (même structure que Git ) it’s just a container! you can use any language or libraries you want !
gestion des ressources des nœuds Zookeeper – Synchronisation de la configuration ►Pachyderm “batteries included, but removable.” outil de gestion de cluster : Kubernetes, Format de containerisation Docker Etcd(CoreOs)à Gestion de la configuration Kubernetes & Etcd de Coreos pour les tâches dévolues à Yarn & Zookeeper sur Hadoop
>= 2.8.2 (pour monter PFS en local) Kubectl (kubernetes CLI) >= 1.2.2 Pachyderm Repository pachctl and pach-deploy Pachyderm peut être executé sur toute plateforme que Kubernetes supporte. Par exemple : ►Local, ►Google Cloud Platform ►AWS it’s just a container, you can use any language or libraries you want.