Slide 1

Slide 1 text

— SRE - Mythes et Réalités 12/10/2023

Slide 2

Slide 2 text

— Sommaire Le SRE 01 SRE - Mythes et Réalités 00 02 Mythes vs Réalités 03 En pratique

Slide 3

Slide 3 text

— C’est qui le gars à gauche ? Henri Gomez Cloud Advisor chez Wescale Engineering Manager ➔ En charge de l’équipe SRE Applicative puis Observabilité Head Of SRE ➔ Solution BigData en mode Editeur & SaaS (DAAS) IT Operations Manager ➔ Création de l’offre SaaS SonarCloud chez un éditeur

Slide 4

Slide 4 text

— C’est qui le gars à droite ? Jean-Pascal Thiery Cloud Native Dev chez Wescale Gardien du MCO ➔ Basculer sereinement d’une base de données à une autre Tech lead Observabilité ➔ Mise en place du socle d’Observabilité unifié Tech lead developer ➔ Création d’une solution de backoffice du sol au plafond

Slide 5

Slide 5 text

Le SRE 01

Slide 6

Slide 6 text

— Définition Le SRE 01 E S R E Reliability Disponibilité Utilisateurs Services Résilience Fiabilité Sécurité Sith Site Engineering Ingéniérie Ordre Méthode

Slide 7

Slide 7 text

— SRE selon le SRE Book Le SRE 01 Les SRE Google sont des ingénieurs logiciels SRE is what happens when you ask a software engineer to design an operations team 50–60% are Google Software Engineers, The other 40–50% are candidates are very close

Slide 8

Slide 8 text

— SRE selon le SRE Book Le SRE 01 50% du temps en développement (Création de valeurs) Automation systématique Eviter la croissance des équipes IT avec la croissance de l’infra Maintenir la vélocité de changement sans impact sur les SLO

Slide 9

Slide 9 text

— SRE selon le SRE Book Le SRE 01 Il y a 4 ‘Golden Signals’ à suivre Erreur Latence Tra c Saturation

Slide 10

Slide 10 text

— Missions historiques Le SRE 01 ➔ SRE is the new Ops dans un cadre qui s’étend à l’application ➔ La priorité, les services doivent être Up & Running ➔ Détection des problèmes avant qu’ils ne deviennent des incidents ➔ A la manoeuvre sur les Post Mortem ➔ Coûts d’exploitation

Slide 11

Slide 11 text

— Nouvelles missions Définition du SRE 01 Du conseil, beaucoup de conseil Sur l’outillage Pool de connections Analyse de plan d'exécutions SQL Sur les pratiques de Run Qu’est-ce que l’observabilité La bonne et la mauvaise log Sur l’architecture Clusterisation et Redondance Stratégies et solution de cache

Slide 12

Slide 12 text

— Nouvelles missions Définition du SRE 01 On mesure, beaucoup, pour aujourd’hui et demain Performances Capacity Planning Projection Futur FinOps

Slide 13

Slide 13 text

Mythes vs Réalités 02

Slide 14

Slide 14 text

— SRE par et pour Google Mythes vs Réalités 01 ➔ La définition Google d’un SRE répond aux problématiques Google ➔ Une boite de Techs, qui font des produits Techs pour des Techs ➔ Les contraintes d’une entreprise majeure globale ➔ Des moyens sans commune mesure, tant techniques et qu’humains ➔ Une approche Software Engineering systématique (même pour les SRE/Ops) TO BE OR NOT TO BE

Slide 15

Slide 15 text

— SRE, le super héro du Run Mythes vs Réalités 01 ➔ Les solutions embarquent toujours plus de technologies ◆ Hyperviseurs, VM, Containers, SQL, NoSQL, Messaging, multiples langages, … ➔ Les stacks techniques sont de plus en plus complexes ◆ Redondance, systèmes de sécurité, multi-zones ➔ Il est compliqué d’être expert sur l’ensemble du scope ➔ Un SRE n’est pas un multi expert, mais un profil avec une large culture

Slide 16

Slide 16 text

— SRE, le détecteur de Bug Mythes vs Réalités 01 ➔ Étant omniscient, un SRE peut voir les Bugs ➔ You build it, you run it ➔ Les SLI et la taux d’erreurs sont les seuls vrai moyens de détecter les bugs pour un SRE ○ Budget d’erreur ○ C’est souvent trop tard ➔ La qualité des livrables est toujours de la responsabilité de l’équipe de dev

Slide 17

Slide 17 text

— SRE, le bouclier ultime Mythes vs Réalités 01 ➔ La sécurité est l’affaire de tous ➔ La résilience du site passe par son intégrité ➔ Le pentesting et la cybersécurité sont des domaines de l’informatique à part entière

Slide 18

Slide 18 text

— Un dev qui est un ops qui fait du dev ? Mythes vs Réalités 01 ➔ Ne pas penser qu’un SRE est un expert dans tous les domaines ◆ SRE is the new FullStackDevSecFinDataOups ➔ Développeur, un profil à temps plein ➔ Un SRE peut avoir une forte culture développement ◆ Pour aider les Dev à analyser les problèmes jusqu’au code ◆ Il n’a pas vocation à remplacer les Dev

Slide 19

Slide 19 text

— SRE != DevOps Mythes vs Réalités 01 S R E DevOps Operations Monitoring Capacity Planning Gestion d’incidents CI/CD Automatisation Config Management Infra As Code UNE CONFUSION COURANTE

Slide 20

Slide 20 text

— SRE != CI/CD Mythes vs Réalités 01 ➔ Les SRE consomment de la CI/CD tout comme les autres acteurs ➔ Gardez en tête le “You build it, you run it !” ◆ Responsabiliser les équipes de réalisation sur le run ● CI/CD ● Observabilité ● Sécurité

Slide 21

Slide 21 text

En pratique 03

Slide 22

Slide 22 text

— Les pré-requis En pratique 03 ➔ Une automation déjà présente pour développer et déployer en confiance ◆ Un SRE peut être un Dev d’infras, il aura aussi besoin d’une usine logicielle ➔ Un environnement de Run automatisable ◆ Les solutions d’Infra As Code doivent être utilisables ➔ Un monitoring ◆ Existant et qui sera amendé et amélioré ◆ A créer, dans une optique d’observabilité large

Slide 23

Slide 23 text

— Les attentes En pratique 03 ➔ Des environnements sous contrôle ◆ Pour être prédictible et reproductible, les opérations manuelles sont à proscrire ➔ Être embarqué jour 1 sur des projets de changement de périmètres ◆ Nouveau project ◆ Nouvelle technologie ◆ Nouveau partenaire ➔ Connaître les SLA principaux ◆ Pour en déduire les premiers SLI et SLO ➔ Être écouté comme force de proposition ◆ Pour renforcer la résilience ◆ Pour collecter les mesures qui alimenteront l’observabilité

Slide 24

Slide 24 text

— L’Equipe SRE En pratique 03 ➔ Privilégier de petites équipes ◆ Avec des scopes clairs ◆ Des frontières de responsabilité précises ◆ Connues de tous ➔ Avoir assez de seniors pour faire monter en compétences les juniors ◆ 1 senior pour 2 juniors max ➔ Derniers formés deviennent tuteurs ◆ Facilite l’onboarding des nouveaux, valide la compréhension des primo formés

Slide 25

Slide 25 text

— Les Hard Skills En pratique 03 ➔ Sur la stack technique ◆ Hosting ◆ Data (SQL/NoSQL) ◆ Services Managés ◆ Services SaaS ➔ Sur les applicatifs ◆ Langages ◆ Frameworks ◆ En connaître pour pouvoir analyser une stack trace

Slide 26

Slide 26 text

— Les Soft Skills En pratique 03 ➔ Savoir écouter ➔ Être un bon communiquant ➔ Ne pas avoir peur d’aller vers les autres ➔ Etre force de proposition ➔ Une bonne capacité à convaincre ➔ Savoir embarquer le plus grand nombre ➔ Savoir apprendre

Slide 27

Slide 27 text

— Partage et pédagogie En pratique 03 ➔ Expliquer les problématique d'exploitabilité d’une plateforme ➔ Vis ma vie ➔ Embarquer dans la gestion de crise ◆ Résolution plus rapide et plus précises ◆ Co conception des remédiations ◆ Rédaction de post-mortem ➔ Expliquer les grands concepts ◆ Qualité de service ◆ SLA, SLI, SLO

Slide 28

Slide 28 text

— De monitoring à Observabilité En pratique 03 ➔ Les infrastructures ➔ Les middlewares ➔ Les applications ➔ Les services ➔ Les partenaires ➔ Pour s’assurer de la conformité avec les SLA ➔ … tous les SLA✌

Slide 29

Slide 29 text

— L’approche Accelerate En pratique 03 ➔ Délivrer de la valeur plus rapidement ◆ Change Lead Time ◆ Deployment Frequency ➔ Sans sacrifier la qualité de service ◆ Mean Time To Recovery ◆ Change Failure Rate https://en.wikipedia.org/wiki/Accelerate_(book) POUR PARTIR SUR DES BASES SIMPLES ET SOLIDES

Slide 30

Slide 30 text

Conclusion

Slide 31

Slide 31 text

— Conclusion ➔ SRE because Hope is not a strategy ➔ HTTP 417 - Super Hero Expectation Failed ➔ Il est capital d’embarquer tous les acteurs ➔ L’observabilité est une des clés de la réussite

Slide 32

Slide 32 text

Questions