Upgrade to Pro — share decks privately, control downloads, hide ads and more …

El camino a SRE

El camino a SRE

SRE es un termino que quiere decir muchas cosas en nuestra industria. En esta charla cuento la historia de como introdujimos SRE en Auth0, una compañía que vende un producto SaaS, con un equipo de ingeniería remoto, que recientemente alcanzó el status de unicornio.

La charla cuenta por qué decidimos de introducir SRE, como lo hicimos enfocandonos en la marca de SRE y los resultados que obtuvimos.

Damian Schenkelman

October 17, 2019
Tweet

More Decks by Damian Schenkelman

Other Decks in Programming

Transcript

  1. El camino hacia SRE
    @dschenkelman
    Principal Engineer @auth0

    View Slide

  2. SRE

    View Slide

  3. Por qué?

    View Slide

  4. "Reliability" es el feature
    que usan todos los clientes
    - an @auth0 SRE

    View Slide

  5. Auth0
    Usuario
    Auth0
    App Cliente

    View Slide

  6. Contexto

    View Slide

  7. Inversión Dedicada
    Como Seguridad pero para Reliability

    View Slide

  8. Escala

    View Slide

  9. Investigación

    View Slide

  10. Empresas

    View Slide

  11. Organizaciones

    View Slide

  12. Estilo

    View Slide

  13. Sponsors

    View Slide

  14. Quiénes?

    View Slide

  15. Espectro
    Systems Software

    View Slide

  16. Sospechosos de siempre

    View Slide

  17. Advocates

    View Slide

  18. Educadores

    View Slide

  19. Resuelven problemas

    View Slide

  20. Conocen el sistema

    View Slide

  21. Experiencia

    View Slide

  22. node.js

    View Slide

  23. Educación

    View Slide

  24. Que hace SRE
    Bibliotecas Servicios
    Prácticas
    Procesos

    View Slide

  25. SRE no se impone a
    otros equipos

    View Slide

  26. SRE no responde a
    todos los incidentes

    View Slide

  27. Espectro de colaboración
    Servicio de SRE
    Embedding
    Consultoría
    Office Hours/
    Workshops

    View Slide

  28. Contactando a SRE

    View Slide

  29. La marca

    View Slide

  30. Logo

    View Slide

  31. Office Hours

    View Slide

  32. Brown bags

    View Slide

  33. Investigaciones

    View Slide

  34. Flexibilidad

    View Slide

  35. Incidentes

    View Slide

  36. Ejecutar!

    View Slide

  37. Vendes CONFIANZA

    View Slide

  38. SLOs

    View Slide

  39. R2

    View Slide

  40. View Slide

  41. View Slide

  42. View Slide

  43. Respuesta a incidentes

    View Slide

  44. Tooling incidentes

    View Slide

  45. Tracing distribuido

    View Slide

  46. Rate limiting

    View Slide

  47. CI/CD

    View Slide

  48. Problemas complejos

    View Slide

  49. Hoy

    View Slide

  50. Resultados
    • 5/11 equipos haciendo R2s
    orgánicamente
    • > 5x deploy más frecuentes que duran
    < 10x
    • 80% de los servicios críticos tienen
    tracing distribuido

    View Slide

  51. Resultados (2)
    • 5 problemas complejos resueltos
    • > 99.99% reliability para la User
    Management API
    • ~8ms -> ~3ms 99th perc latency para
    rate limits

    View Slide

  52. Éxito

    View Slide

  53. Vision
    Sujeta a cambios :)
    IAM DX
    Platform
    SRE
    PR
    SRE
    AR
    SRE
    AR
    SRE
    OX

    View Slide

  54. Gracias
    @dschenkelman
    Te interesa el equipo? bit.ly/2MLGsOj

    View Slide