Upgrade to Pro — share decks privately, control downloads, hide ads and more …

El camino a SRE

El camino a SRE

SRE es un termino que quiere decir muchas cosas en nuestra industria. En esta charla cuento la historia de como introdujimos SRE en Auth0, una compañía que vende un producto SaaS, con un equipo de ingeniería remoto, que recientemente alcanzó el status de unicornio.

La charla cuenta por qué decidimos de introducir SRE, como lo hicimos enfocandonos en la marca de SRE y los resultados que obtuvimos.

Damian Schenkelman

October 17, 2019
Tweet

More Decks by Damian Schenkelman

Other Decks in Programming

Transcript

  1. El camino hacia SRE
    @dschenkelman
    Principal Engineer @auth0

    View full-size slide

  2. "Reliability" es el feature
    que usan todos los clientes
    - an @auth0 SRE

    View full-size slide

  3. Auth0
    Usuario
    Auth0
    App Cliente

    View full-size slide

  4. Inversión Dedicada
    Como Seguridad pero para Reliability

    View full-size slide

  5. Investigación

    View full-size slide

  6. Organizaciones

    View full-size slide

  7. Espectro
    Systems Software

    View full-size slide

  8. Sospechosos de siempre

    View full-size slide

  9. Resuelven problemas

    View full-size slide

  10. Conocen el sistema

    View full-size slide

  11. Que hace SRE
    Bibliotecas Servicios
    Prácticas
    Procesos

    View full-size slide

  12. SRE no se impone a
    otros equipos

    View full-size slide

  13. SRE no responde a
    todos los incidentes

    View full-size slide

  14. Espectro de colaboración
    Servicio de SRE
    Embedding
    Consultoría
    Office Hours/
    Workshops

    View full-size slide

  15. Contactando a SRE

    View full-size slide

  16. Office Hours

    View full-size slide

  17. Investigaciones

    View full-size slide

  18. Flexibilidad

    View full-size slide

  19. Vendes CONFIANZA

    View full-size slide

  20. Respuesta a incidentes

    View full-size slide

  21. Tooling incidentes

    View full-size slide

  22. Tracing distribuido

    View full-size slide

  23. Rate limiting

    View full-size slide

  24. Problemas complejos

    View full-size slide

  25. Resultados
    • 5/11 equipos haciendo R2s
    orgánicamente
    • > 5x deploy más frecuentes que duran
    < 10x
    • 80% de los servicios críticos tienen
    tracing distribuido

    View full-size slide

  26. Resultados (2)
    • 5 problemas complejos resueltos
    • > 99.99% reliability para la User
    Management API
    • ~8ms -> ~3ms 99th perc latency para
    rate limits

    View full-size slide

  27. Vision
    Sujeta a cambios :)
    IAM DX
    Platform
    SRE
    PR
    SRE
    AR
    SRE
    AR
    SRE
    OX

    View full-size slide

  28. Gracias
    @dschenkelman
    Te interesa el equipo? bit.ly/2MLGsOj

    View full-size slide