Slide 1

Slide 1 text

Open Kubernetes Data Platform

Slide 2

Slide 2 text

2 TOSIT est une association Loi de 1901. C’est une structure de soutien à l’Open Source. TOSIT Membres fondateurs Membres associés

Slide 3

Slide 3 text

3 3 Distribution Data, 100% Open Source Libre (Licence Apache V2) TOSIT

Slide 4

Slide 4 text

4 OKDP Introduction et mise en contexte 1 • OKDP : l'acronyme de Open Kubernetes Data Platform. • C'est une plateforme de services de gestion de données composée d'un ensemble de logiciels et produits Open Source conteneurisés et repose sur une infrastructure Kubernetes • Elle répond à des enjeux et des besoins de collecte, de stockage, de traitement, d'analyse et d'exposition de données. • Pour ce faire, OKDP est modulable et chaque utilisateur pourra en utiliser tout ou partie selon ses besoins. • OKDP vise à offrir les moyens de valoriser pleinement les données. En exploitant cette plateforme, les utilisateurs pourront améliorer leur prise de décision, renforcer leur capacité à gérer et analyser des données complexes et stimuler l'innovation dans le domaine de la gestion des données.

Slide 5

Slide 5 text

5 OKDP Contexte DGFiP 1 • OKDP est une évolution et une continuation de TDP (la distribution sur laquelle se base le datalake). • Elle pourra s'y interfacer et proposera un enrichissement de fonctionnalités avec l'ajout de nouveaux produits ou logiciels et l'amélioration de ceux existants. • OKDP donne la possibilité à chaque entité manipulant la donnée de déployer facilement son environnement de travail et d'utiliser tous les outils adéquats. • Une première version d'OKDP est prévue fin premier semestre 2025, mais n'est pas encore planifiée pour son utilisation en extension du DATALAKE, une instruction de CAI sera bien entendu nécessaire en amont le moment venu. • S'agissant d'une distribution libre, elle regroupe plusieurs contributeurs depuis janvier 2024 : la DGFiP, ORANGE et très prochainement BPCE, ARKEA, Adaltas et bien d'autres.

Slide 6

Slide 6 text

6 OKDP Pourquoi OKDP ? 1 • Dans l'alignée de la stratégie Open Source de la DGFiP afin d'assurer notre autonomie et notre souveraineté • Une plateforme data centric, conteneurisée, open source, gratuite et production ready • Compléter notre architecture Datalake basée sur TDP avec de nouvelles briques et fonctionnalités complémentaires tout en respectant les mêmes normes et standards : • Scalabilité et mise à l’échelle • DataViz (SuperSet) • Interactive query (Requêtage libre) • MLOPS (ML, IA, IA Générative) • Expériences à la demandes • Observabilité (outils d’exploitation : supervision, monitoring, capacity planning, etc.) • Favoriser le partage de données dans un contexte de gouvernance, ayant pour objectif d'améliorer le partage de données et de minimiser sa duplication • Maîtriser le cycle de vie des technologies, du build au déploiement, sans aucune dépendance avec les éditeurs • En s’appuyant sur Kubernetes, OKDP prévient l’accumulation de dette technologique, assurant ainsi la pérennité, l’évolutivité et la modernisation continue du système d’information.

Slide 7

Slide 7 text

7 OKDP Bénéfices 1 • Coût réduit et Indépendance technologique : • Pas de souscription à des licences et au support d'un éditeur propriétaire • Pas de verrouillage propriétaire (vendor lock-in). • Flexibilité et personnalisation : • Modularité des composants : on peut ajouter ou retirer des services selon les besoins. • Possibilité de modifier et d’adapter le code source. • Interopérabilité : • S'intègre avec divers outils open-source populaires (Apache Spark, JupyterHub, Trino, etc.). • Compatible avec des infrastructures multi-cloud et sur site. • Conformité aux réglementations : • Plus de transparence sur la gestion des données. • Contrôle total sur l’hébergement et la sécurité des données. • Communauté et écosystème actif : • Support collaboratif via la communauté open-source et les entreprises impliquées (Orange, BPCE, Arkéa, etc).. • Mises à jour plus simples, régulières et innovations portées par les besoins des utilisateurs. • Préserver notre autonomie et notre souveraineté et une maîtrise totale de la solution au sein de la DGFiP

Slide 8

Slide 8 text

Page 8 TDP & OKDP pour une architecture Data Centric Complete Data Processing and Visualization Data Management Data Integration Big Data Data Storage DATA SOURCES App 1 App 2 … App n Records Documents Files Messages Streams CI/CD On-Demand APPLICATIONS Security 8 Monitoring / Capacity P. Backup DRP On demand Data Experience

Slide 9

Slide 9 text

9 Contexte DGFIP et partenaires TOSIT 1 ETP depuis décembre 2023 à la DGFiP ETP Estimation en 2025 à la DGFiP ETP en décembre 2023 côté partenaires TOSIT (ORANGE, BPCE, Arkéa et Adaltas) 2 1,5 3

Slide 10

Slide 10 text

Page 10 OKDP: Architecture à base de Kubernetes et services on-demand 10 Data Processing, IA/ML and Visualization Data Management Data Integration Data Storage Kubernetes Platforms (RKE, EKS, AKS, GKE, etc.) Bare-Metal | Virtualization | Cloud Data Engineer Data Scientist / Statisticiens Data Analyst Business User Métiers CPUs / GPUs Object Storage / Block Storage / NFS SSO LDAP TLS Monitoring Backup DRP NUBO

Slide 11

Slide 11 text

Page 11 OKDP: Compatibilité avec les nouveaux Pattern d’architecture (1) 11 (1) Architecture Data Mesh Data Infra as a Platform (Stockage, pipeline, catalogue, Viz, etc.) Gouvernance Globale et Standards Domaine Data A Domaine Data B Domaine Data C Domaine Data D - Décentralisé - On-demand - Data Virt - Gouvernance centralisée - Ségrégation S/C

Slide 12

Slide 12 text

Page 12 OKDP: Compatibilité avec les nouveaux Pattern d’architecture (2) Data Processing and Visualization ML OPS Data Integration Data Storage Records Documents Files Messages Streams 12 Kubernetes Platforms (RKE, EKS, AKS, GKE, etc.) Bare-Metal | Virtualization | Cloud CPUs / GPUs Object Storage / Block Storage / NFS Data Fabric - MLOPS - Décentralisé - On-demand - Multi-tenants - Kubernetes - Data Virt

Slide 13

Slide 13 text

Page 13 OKDP: Compatibilité avec les nouveaux Pattern d’architecture (3) Data Processing and Visualization Gouvernance centralisée Collecte des données Format de stockage optimisé (ACID) Records Documents Files Messages Streams 13 Kubernetes Platforms (RKE, EKS, AKS, GKE, etc.) Bare-Metal | Virtualization | Cloud CPUs / GPUs Object Storage / Block Storage / NFS Lakehouse - ACID - SQL - Streaming - Interactive - Big & Small - Ségrégation S/C

Slide 14

Slide 14 text

Page 14 OKDP : Architecture Technique (déploiement modulaire) 14 PV/PVC Load Balancer Security Observability Scheduling Ingress Controller Query Engine Stockage Autres Composants Traitement ML/AI AAA Certs Management Kubernetes Onyxia

Slide 15

Slide 15 text

15 Travaux réalisés Les grands jalons de 2024 Janvier 2024 JupyterHub: On-Demand Notebooks 1 2 3 4 Avril 2024 Apache Spark : Moteur de traitement à large échelle T3 2024 SuperSet : Outil de visualisation et de dashboarding T4 2024 Sandbox avec guide utilisateur avec une première version de OKDP Server/UI

Slide 16

Slide 16 text

16 Roadmap Les grands jalons de 2025 Spark Operator Enrichissement de l’offre avec Spark Operator pour une meilleure gestion des jobs Spark 1 2 3 4 OKDP Server/UI Intégration d’une version initiale du serveur OKDP et de son interface utilisateur Trino, Iceberg et Polaris Ajout de Trino, Iceberg et Polaris offrants des capacités de requêtage en temps réel performantes Airflow Mise en place d’Apache Airflow pour l’automatisation et la gestion des workflows complexes

Slide 17

Slide 17 text

17 Roadmap Les grands jalons à moyen et long terme Sécurité Gestion centralisée et sécurisée des accès 1 2 3 4 Gestion des ressources Mise en place d’un système de gestion des files d’attente (queue management) pour optimiser l’allocation des ressources MLOps Adoption d’outils tels que Kubeflow et MLflow Observabilité Mise en place d’un système complet pour améliorer l’observabilité: logs, monitoring, audit, etc.

Slide 18

Slide 18 text

Page 18 Contributions et Communications

Slide 19

Slide 19 text

Page 19

Slide 20

Slide 20 text

20 OKDP • Site Web: https://okdp.io • Weekly Technique (Chaque Mercredi 10h) : https://webconf.numerique.gouv.fr/OpenKubernentesDataPlatform2024 • Channel Mattermost Général : https://framateam.org/tosit/channels/okdp • Discussions GitHub pour les contributeurs: https://github.com/orgs/OKDP/discussions • GitHub: https://github.com/okdp • Repository maven central : https://central.sonatype.com/namespace/io.okdp • Repository quay.io : https://quay.io/organization/okdp Site Web et événements

Slide 21

Slide 21 text

21 OKDP • NuboOnyxia / OKDP : 1er avril 2025 (10h30 - 12h00) • Présentation interne DGFIP : 7 avril 2025 • BlueHats : 11 avril 2025 (11h00 - 12h30) • BercyInnov : 26 juin 2025 • DataPublic : Date en cours de planification • Fondation Apache : Date en cours de planification • Big Data AI Paris 2025 : 1er et 2 octobre 2025 Prochains événements

Slide 22

Slide 22 text

22 Merci ! Des questions ?