Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SRE: SLIs SLOs and SLAs

Yury Nino
October 20, 2021

SRE: SLIs SLOs and SLAs

Yury Nino

October 20, 2021
Tweet

More Decks by Yury Nino

Other Decks in Technology

Transcript

  1. AGENDA • Referencias • SLIs | SLOs | SLAs •

    SLOs ◦ Matemáticas ◦ Error Budgets • Discusión • Tarea
  2. SLIs | SLOs | SLAs Indicador Nivel de Servicio Objetivo

    Nivel de Servicio Acuerdo Nivel de Servicio Requerimiento sobre el comportamiento del sistema. Objetivo numérico sobre el comportamiento del sistema. Contrato Acuerdo para comportamientos del sistema que no alcanzan los SLOs.
  3. SLIs | SLOs | SLAs Indicador Nivel de Servicio Objetivo

    Nivel de Servicio Acuerdo Nivel de Servicio ¿Qué debería medir? ¿Cómo debería medir? Contrato SLO + Consecuencias
  4. Si el sistema no responde a las peticiones de forma

    exitosa, se asume que NO es confiable y por lo tanto NO cumple con las expectativas de los usuarios. Proporción de peticiones válidas entregadas exitosamente. SLI: DISPONIBILIDAD
  5. Un sistema se percibe como NO "interactivo" cuando los tiempos

    de respuesta a las peticiones de los usuarios NO alcanzan un número definido. Proporción de peticiones válidas entregadas en un tiempo inferior al que se definió en un umbral. SLI: LATENCIA
  6. Un sistema tiene baja calidad cuando los usuarios notan una

    degradación en las respuestas que reciben. Es la proporción de peticiones válidas entregadas sin degradación de calidad. SLI: CALIDAD
  7. Los usuarios esperan que los datos que están consultando estén

    actualizados, tienen altas expectativas con el procesamiento en batch. Es la proporción de datos válidos actualizados en un tiempo menor al definido en un umbral. SLI: FRESHNESS
  8. Cuando los usuarios tienen una expectativa sobre los datos que

    están siendo procesados y la salida alcanza esas expectativas se habla de cobertura. Es la proporción de datos válidos procesados de manera exitosa. SLI: COBERTURA
  9. Cuando los usuarios tienen altas expectativas sobre la validez e

    integridad de los datos que están consultando. Es la proporción de datos válidos que se producen en salidas correctas. SLI: CORRECTITUD
  10. Objetivo de Nivel de Servicio Cuando definimos SRE, quisimos establecer

    un objetivo numérico preciso para la disponibilidad del sistema. Cualquier discusión sobre sistemas confiables y sobre los cambios de diseño o arquitectura debe medirse en términos de SLOs.
  11. SLOs: RECETA • SLI: indicador sobre peticiones HTTP, bloques de

    almacenamiento y operaciones. • SLO: peticiones exitosas el 50% del tiempo, no se pueden leer datos el 99.9% del tiempo. • Time statement: en los últimos 10 minutos, durante el último Q • SLA: Si … 90% de las peticiones HTTP al balanceador de carga se reportan como exitosas en una ventana de 30 días. 2 estrategias: • Compuestos: 90% de las lecturas de la última semana tomaron < 10 ms • Segmentados: Percentiles de cosas (50th, 90th, 95th, 99th)
  12. Expresar los SLOs de esta forma puede ser útil: 1.

    SLOs entre 0% y 100%. 0% nada funciona, 100% nada está roto. La escala es intuitiva y traduce a SLAs % - confiabilidad y error budgets. 2. SLOs tienen un formato consistente. Lógica de alertas, cálculo de error budget, análisis SLAs y las herramientas de reporte puede ser escritas en un lenguaje común: good events, valid events y SLO threshold. 3. Ellos están en la forma ratio/proportion. MATEMATICAS PARA SLOs
  13. Acuerdos de Nivel de Servicio SLA requiere que tu tengas:

    • Múltiples VMs • Redundancia de dominios • Failover automático • Monitoreo • Tolerancia a indisponibilidad • Aprovisionamiento automatizado http://www.distributedsystemscourse.com/
  14. Acuerdos de Nivel de Servicio http://www.distributedsyst emscourse.com/ SLA requiere que

    tu tengas: • Muy pocas personas leen los SLAs en detalle hasta que la falla pasa. • En un negocio competitivo, lo que el cliente pierde es más que lo establecido en un SLA. • Los descuentos y devoluciones nos dejan claro que los desastres son esperados. • Los créditos probablemente NO cubren las pérdidas.
  15. SLAs: Recomendaciones • Diferentes aplicaciones tienen diferentes requerimientos. • Sea

    conservador! Primero obtenga experiencia configurando SLOs > tiempo de reacción. • ¿Seguro que puede dar soporte 7 x 24? • Estudie los SLAs de sus dependencias! How c ¿Exceder mis SLOs? Programe un outage! • Intenta: ◦ Headrooms • No SLAs implicitos
  16. • Consider Microsoft Azure, Amazon EC2, Google GCE • Promise

    99.95% uptime (22 minutes downtime/month) ◦ They rarely expect their hardware or software to fail ◦ When it fails they think they can fix it quickly • 1-minute sampling frequency ◦ GCE doesn’t count <5 minute outages LA PROMESA EN CLOUD
  17. ERROR BUDGET Un presupuesto de errores es la cantidad máxima

    de tiempo que un sistema puede fallar sin consecuencias contractuales Si su SLA promete un tiempo de actividad del 99,95%, su presupuesto de errores es de cuatro horas, 22 minutos y 48 segundos. Y si su SLA promete que su equipo responderá el 99,9%, su presupuesto de errores es de ocho horas, 46 minutos y 12 segundos.
  18. PREGUNTAS • ¿Qué pasa cuando no se define un SLI?

    • ¿Han configurado SLIs antes de SLOs? • ¿Es importante el tamaño de la Organización? • ¿En qué momento definen los SLOs & SLAs?
  19. The Art of SLOs - Worksheet https://docs.google.com/document/d/1bRkVu7tuow3K21669mzXEEhk1 Ki-iukMFehZAR0dAvU/edit?usp=sharing Use https://www.google.com/search?client=firefox-b-d&q=RecordSEV+tool

    ++https%3A%2F%2Fdocs.google.com%2Fforms%2Fd%2Fe%2F1FAIpQL SeFrBF6KFEu1D38IgxieaLYo4Mt7UfDu1J_kitGTvqXVcsqXA%2Fviewform Review this READme https://gist.github.com/StevenACoffman/836295e378dbb3e2d9bc1dac074086ad TAREA