Save 37% off PRO during our Black Friday Sale! »

SRE: Introducción a SLIs SLOs SLAs

77c3dfd58301b6dbc53cfd33854f8147?s=47 SRE
October 20, 2021

SRE: Introducción a SLIs SLOs SLAs

77c3dfd58301b6dbc53cfd33854f8147?s=128

SRE

October 20, 2021
Tweet

Transcript

  1. SRE SLIs, SLOs & SLAs

  2. AGENDA • Referencias • SLIs | SLOs | SLAs •

    SLOs ◦ Matemáticas ◦ Error Budgets • Discusión • Tarea
  3. REFERENCIAS https://static.googleusercon tent.com/media/sre.google/en //static/pdf/art-of-slos-han dbook-a4.pdf https://www.oreilly.com /library/view/implement ing-service-level/97814 92076803/ https://cloud.google.com/bl

    og/products/management-tool s/practical-guide-to-settin g-slos
  4. SLIs | SLOs | SLAs Indicador Nivel de Servicio Objetivo

    Nivel de Servicio Acuerdo Nivel de Servicio Requerimiento sobre el comportamiento del sistema. Objetivo numérico sobre el comportamiento del sistema. Contrato Acuerdo para comportamientos del sistema que no alcanzan los SLOs.
  5. SLIs | SLOs | SLAs Indicador Nivel de Servicio Objetivo

    Nivel de Servicio Acuerdo Nivel de Servicio ¿Qué debería medir? ¿Cómo debería medir? Contrato SLO + Consecuencias
  6. INDICADORES DE NIVEL DE SERVICIO

  7. Indicadores de Nivel de Servicio

  8. Si el sistema no responde a las peticiones de forma

    exitosa, se asume que NO es confiable y por lo tanto NO cumple con las expectativas de los usuarios. Proporción de peticiones válidas entregadas exitosamente. SLI: DISPONIBILIDAD
  9. Un sistema se percibe como NO "interactivo" cuando los tiempos

    de respuesta a las peticiones de los usuarios NO alcanzan un número definido. Proporción de peticiones válidas entregadas en un tiempo inferior al que se definió en un umbral. SLI: LATENCIA
  10. Un sistema tiene baja calidad cuando los usuarios notan una

    degradación en las respuestas que reciben. Es la proporción de peticiones válidas entregadas sin degradación de calidad. SLI: CALIDAD
  11. Los usuarios esperan que los datos que están consultando estén

    actualizados, tienen altas expectativas con el procesamiento en batch. Es la proporción de datos válidos actualizados en un tiempo menor al definido en un umbral. SLI: FRESHNESS
  12. Cuando los usuarios tienen una expectativa sobre los datos que

    están siendo procesados y la salida alcanza esas expectativas se habla de cobertura. Es la proporción de datos válidos procesados de manera exitosa. SLI: COBERTURA
  13. Cuando los usuarios tienen altas expectativas sobre la validez e

    integridad de los datos que están consultando. Es la proporción de datos válidos que se producen en salidas correctas. SLI: CORRECTITUD
  14. OBJETIVOS DE NIVEL DE SERVICIO

  15. Objetivo de Nivel de Servicio Cuando definimos SRE, quisimos establecer

    un objetivo numérico preciso para la disponibilidad del sistema. Cualquier discusión sobre sistemas confiables y sobre los cambios de diseño o arquitectura debe medirse en términos de SLOs.
  16. SLOs: RECETA • SLI: indicador sobre peticiones HTTP, bloques de

    almacenamiento y operaciones. • SLO: peticiones exitosas el 50% del tiempo, no se pueden leer datos el 99.9% del tiempo. • Time statement: en los últimos 10 minutos, durante el último Q • SLA: Si … 90% de las peticiones HTTP al balanceador de carga se reportan como exitosas en una ventana de 30 días. 2 estrategias: • Compuestos: 90% de las lecturas de la última semana tomaron < 10 ms • Segmentados: Percentiles de cosas (50th, 90th, 95th, 99th)
  17. Expresar los SLOs de esta forma puede ser útil: 1.

    SLOs entre 0% y 100%. 0% nada funciona, 100% nada está roto. La escala es intuitiva y traduce a SLAs % - confiabilidad y error budgets. 2. SLOs tienen un formato consistente. Lógica de alertas, cálculo de error budget, análisis SLAs y las herramientas de reporte puede ser escritas en un lenguaje común: good events, valid events y SLO threshold. 3. Ellos están en la forma ratio/proportion. MATEMATICAS PARA SLOs
  18. ACUERDOS DE NIVEL DE SERVICIO

  19. Acuerdos de Nivel de Servicio SLA requiere que tu tengas:

    • Múltiples VMs • Redundancia de dominios • Failover automático • Monitoreo • Tolerancia a indisponibilidad • Aprovisionamiento automatizado http://www.distributedsystemscourse.com/
  20. Acuerdos de Nivel de Servicio http://www.distributedsyst emscourse.com/ SLA requiere que

    tu tengas: • Muy pocas personas leen los SLAs en detalle hasta que la falla pasa. • En un negocio competitivo, lo que el cliente pierde es más que lo establecido en un SLA. • Los descuentos y devoluciones nos dejan claro que los desastres son esperados. • Los créditos probablemente NO cubren las pérdidas.
  21. SLAs: Recomendaciones • Diferentes aplicaciones tienen diferentes requerimientos. • Sea

    conservador! Primero obtenga experiencia configurando SLOs > tiempo de reacción. • ¿Seguro que puede dar soporte 7 x 24? • Estudie los SLAs de sus dependencias! How c ¿Exceder mis SLOs? Programe un outage! • Intenta: ◦ Headrooms • No SLAs implicitos
  22. CUAL ES LA DIFERENCIA

  23. RECURSOS

  24. https://cre.page.link/art-of-slos-handbook MATEMATICAS SOBRE SLAs

  25. "99.9%" availability (o alcanzar "tres 9s"). MATEMATICAS SOBRE SLAs

  26. • Consider Microsoft Azure, Amazon EC2, Google GCE • Promise

    99.95% uptime (22 minutes downtime/month) ◦ They rarely expect their hardware or software to fail ◦ When it fails they think they can fix it quickly • 1-minute sampling frequency ◦ GCE doesn’t count <5 minute outages LA PROMESA EN CLOUD
  27. CUANDO ALERTAR

  28. None
  29. ERROR BUDGET Un presupuesto de errores es la cantidad máxima

    de tiempo que un sistema puede fallar sin consecuencias contractuales Si su SLA promete un tiempo de actividad del 99,95%, su presupuesto de errores es de cuatro horas, 22 minutos y 48 segundos. Y si su SLA promete que su equipo responderá el 99,9%, su presupuesto de errores es de ocho horas, 46 minutos y 12 segundos.
  30. DISCUSION

  31. PREGUNTAS • ¿Qué pasa cuando no se define un SLI?

    • ¿Han configurado SLIs antes de SLOs? • ¿Es importante el tamaño de la Organización? • ¿En qué momento definen los SLOs & SLAs?
  32. DEMO EN GCP

  33. The Art of SLOs - Worksheet https://docs.google.com/document/d/1bRkVu7tuow3K21669mzXEEhk1 Ki-iukMFehZAR0dAvU/edit?usp=sharing Use https://www.google.com/search?client=firefox-b-d&q=RecordSEV+tool

    ++https%3A%2F%2Fdocs.google.com%2Fforms%2Fd%2Fe%2F1FAIpQL SeFrBF6KFEu1D38IgxieaLYo4Mt7UfDu1J_kitGTvqXVcsqXA%2Fviewform Review this READme https://gist.github.com/StevenACoffman/836295e378dbb3e2d9bc1dac074086ad TAREA
  34. https://www.qwiklabs.com/focuses/4186 ?parent=catalog QUICKLABS