Upgrade to Pro — share decks privately, control downloads, hide ads and more …

El camino a SRE

El camino a SRE

SRE es un termino que quiere decir muchas cosas en nuestra industria. En esta charla cuento la historia de como introdujimos SRE en Auth0, una compañía que vende un producto SaaS, con un equipo de ingeniería remoto, que recientemente alcanzó el status de unicornio.

La charla cuenta por qué decidimos de introducir SRE, como lo hicimos enfocandonos en la marca de SRE y los resultados que obtuvimos.

Damian Schenkelman

October 17, 2019
Tweet

More Decks by Damian Schenkelman

Other Decks in Programming

Transcript

  1. El camino hacia SRE @dschenkelman Principal Engineer @auth0

  2. SRE

  3. Por qué?

  4. "Reliability" es el feature que usan todos los clientes -

    an @auth0 SRE
  5. Auth0 Usuario Auth0 App Cliente

  6. Contexto

  7. Inversión Dedicada Como Seguridad pero para Reliability

  8. Escala

  9. Investigación

  10. Empresas

  11. Organizaciones

  12. Estilo

  13. Sponsors

  14. Quiénes?

  15. Espectro Systems Software

  16. Sospechosos de siempre

  17. Advocates

  18. Educadores

  19. Resuelven problemas

  20. Conocen el sistema

  21. Experiencia

  22. node.js

  23. Educación

  24. Que hace SRE Bibliotecas Servicios Prácticas Procesos

  25. SRE no se impone a otros equipos

  26. SRE no responde a todos los incidentes

  27. Espectro de colaboración Servicio de SRE Embedding Consultoría Office Hours/

    Workshops
  28. Contactando a SRE

  29. La marca

  30. Logo

  31. Office Hours

  32. Brown bags

  33. Investigaciones

  34. Flexibilidad

  35. Incidentes

  36. Ejecutar!

  37. Vendes CONFIANZA

  38. SLOs

  39. R2

  40. None
  41. None
  42. None
  43. Respuesta a incidentes

  44. Tooling incidentes

  45. Tracing distribuido

  46. Rate limiting

  47. CI/CD

  48. Problemas complejos

  49. Hoy

  50. Resultados • 5/11 equipos haciendo R2s orgánicamente • > 5x

    deploy más frecuentes que duran < 10x • 80% de los servicios críticos tienen tracing distribuido
  51. Resultados (2) • 5 problemas complejos resueltos • > 99.99%

    reliability para la User Management API • ~8ms -> ~3ms 99th perc latency para rate limits
  52. Éxito

  53. Vision Sujeta a cambios :) IAM DX Platform SRE PR

    SRE AR SRE AR SRE OX
  54. Gracias @dschenkelman Te interesa el equipo? bit.ly/2MLGsOj