El camino hacia SRE
@dschenkelman
Principal Engineer @auth0
Slide 2
Slide 2 text
SRE
Slide 3
Slide 3 text
Por qué?
Slide 4
Slide 4 text
"Reliability" es el feature
que usan todos los clientes
- an @auth0 SRE
Slide 5
Slide 5 text
Auth0
Usuario
Auth0
App Cliente
Slide 6
Slide 6 text
Contexto
Slide 7
Slide 7 text
Inversión Dedicada
Como Seguridad pero para Reliability
Slide 8
Slide 8 text
Escala
Slide 9
Slide 9 text
Investigación
Slide 10
Slide 10 text
Empresas
Slide 11
Slide 11 text
Organizaciones
Slide 12
Slide 12 text
Estilo
Slide 13
Slide 13 text
Sponsors
Slide 14
Slide 14 text
Quiénes?
Slide 15
Slide 15 text
Espectro
Systems Software
Slide 16
Slide 16 text
Sospechosos de siempre
Slide 17
Slide 17 text
Advocates
Slide 18
Slide 18 text
Educadores
Slide 19
Slide 19 text
Resuelven problemas
Slide 20
Slide 20 text
Conocen el sistema
Slide 21
Slide 21 text
Experiencia
Slide 22
Slide 22 text
node.js
Slide 23
Slide 23 text
Educación
Slide 24
Slide 24 text
Que hace SRE
Bibliotecas Servicios
Prácticas
Procesos
Slide 25
Slide 25 text
SRE no se impone a
otros equipos
Slide 26
Slide 26 text
SRE no responde a
todos los incidentes
Slide 27
Slide 27 text
Espectro de colaboración
Servicio de SRE
Embedding
Consultoría
Office Hours/
Workshops
Slide 28
Slide 28 text
Contactando a SRE
Slide 29
Slide 29 text
La marca
Slide 30
Slide 30 text
Logo
Slide 31
Slide 31 text
Office Hours
Slide 32
Slide 32 text
Brown bags
Slide 33
Slide 33 text
Investigaciones
Slide 34
Slide 34 text
Flexibilidad
Slide 35
Slide 35 text
Incidentes
Slide 36
Slide 36 text
Ejecutar!
Slide 37
Slide 37 text
Vendes CONFIANZA
Slide 38
Slide 38 text
SLOs
Slide 39
Slide 39 text
R2
Slide 40
Slide 40 text
No content
Slide 41
Slide 41 text
No content
Slide 42
Slide 42 text
No content
Slide 43
Slide 43 text
Respuesta a incidentes
Slide 44
Slide 44 text
Tooling incidentes
Slide 45
Slide 45 text
Tracing distribuido
Slide 46
Slide 46 text
Rate limiting
Slide 47
Slide 47 text
CI/CD
Slide 48
Slide 48 text
Problemas complejos
Slide 49
Slide 49 text
Hoy
Slide 50
Slide 50 text
Resultados
• 5/11 equipos haciendo R2s
orgánicamente
• > 5x deploy más frecuentes que duran
< 10x
• 80% de los servicios críticos tienen
tracing distribuido
Slide 51
Slide 51 text
Resultados (2)
• 5 problemas complejos resueltos
• > 99.99% reliability para la User
Management API
• ~8ms -> ~3ms 99th perc latency para
rate limits
Slide 52
Slide 52 text
Éxito
Slide 53
Slide 53 text
Vision
Sujeta a cambios :)
IAM DX
Platform
SRE
PR
SRE
AR
SRE
AR
SRE
OX
Slide 54
Slide 54 text
Gracias
@dschenkelman
Te interesa el equipo? bit.ly/2MLGsOj