Slide 1

Slide 1 text

SRE SLIs, SLOs & SLAs

Slide 2

Slide 2 text

AGENDA ● Referencias ● SLIs | SLOs | SLAs ● SLOs ○ Matemáticas ○ Error Budgets ● Discusión ● Tarea

Slide 3

Slide 3 text

REFERENCIAS https://static.googleusercon tent.com/media/sre.google/en //static/pdf/art-of-slos-han dbook-a4.pdf https://www.oreilly.com /library/view/implement ing-service-level/97814 92076803/ https://cloud.google.com/bl og/products/management-tool s/practical-guide-to-settin g-slos

Slide 4

Slide 4 text

SLIs | SLOs | SLAs Indicador Nivel de Servicio Objetivo Nivel de Servicio Acuerdo Nivel de Servicio Requerimiento sobre el comportamiento del sistema. Objetivo numérico sobre el comportamiento del sistema. Contrato Acuerdo para comportamientos del sistema que no alcanzan los SLOs.

Slide 5

Slide 5 text

SLIs | SLOs | SLAs Indicador Nivel de Servicio Objetivo Nivel de Servicio Acuerdo Nivel de Servicio ¿Qué debería medir? ¿Cómo debería medir? Contrato SLO + Consecuencias

Slide 6

Slide 6 text

INDICADORES DE NIVEL DE SERVICIO

Slide 7

Slide 7 text

Indicadores de Nivel de Servicio

Slide 8

Slide 8 text

Si el sistema no responde a las peticiones de forma exitosa, se asume que NO es confiable y por lo tanto NO cumple con las expectativas de los usuarios. Proporción de peticiones válidas entregadas exitosamente. SLI: DISPONIBILIDAD

Slide 9

Slide 9 text

Un sistema se percibe como NO "interactivo" cuando los tiempos de respuesta a las peticiones de los usuarios NO alcanzan un número definido. Proporción de peticiones válidas entregadas en un tiempo inferior al que se definió en un umbral. SLI: LATENCIA

Slide 10

Slide 10 text

Un sistema tiene baja calidad cuando los usuarios notan una degradación en las respuestas que reciben. Es la proporción de peticiones válidas entregadas sin degradación de calidad. SLI: CALIDAD

Slide 11

Slide 11 text

Los usuarios esperan que los datos que están consultando estén actualizados, tienen altas expectativas con el procesamiento en batch. Es la proporción de datos válidos actualizados en un tiempo menor al definido en un umbral. SLI: FRESHNESS

Slide 12

Slide 12 text

Cuando los usuarios tienen una expectativa sobre los datos que están siendo procesados y la salida alcanza esas expectativas se habla de cobertura. Es la proporción de datos válidos procesados de manera exitosa. SLI: COBERTURA

Slide 13

Slide 13 text

Cuando los usuarios tienen altas expectativas sobre la validez e integridad de los datos que están consultando. Es la proporción de datos válidos que se producen en salidas correctas. SLI: CORRECTITUD

Slide 14

Slide 14 text

OBJETIVOS DE NIVEL DE SERVICIO

Slide 15

Slide 15 text

Objetivo de Nivel de Servicio Cuando definimos SRE, quisimos establecer un objetivo numérico preciso para la disponibilidad del sistema. Cualquier discusión sobre sistemas confiables y sobre los cambios de diseño o arquitectura debe medirse en términos de SLOs.

Slide 16

Slide 16 text

SLOs: RECETA ● SLI: indicador sobre peticiones HTTP, bloques de almacenamiento y operaciones. ● SLO: peticiones exitosas el 50% del tiempo, no se pueden leer datos el 99.9% del tiempo. ● Time statement: en los últimos 10 minutos, durante el último Q ● SLA: Si … 90% de las peticiones HTTP al balanceador de carga se reportan como exitosas en una ventana de 30 días. 2 estrategias: ● Compuestos: 90% de las lecturas de la última semana tomaron < 10 ms ● Segmentados: Percentiles de cosas (50th, 90th, 95th, 99th)

Slide 17

Slide 17 text

Expresar los SLOs de esta forma puede ser útil: 1. SLOs entre 0% y 100%. 0% nada funciona, 100% nada está roto. La escala es intuitiva y traduce a SLAs % - confiabilidad y error budgets. 2. SLOs tienen un formato consistente. Lógica de alertas, cálculo de error budget, análisis SLAs y las herramientas de reporte puede ser escritas en un lenguaje común: good events, valid events y SLO threshold. 3. Ellos están en la forma ratio/proportion. MATEMATICAS PARA SLOs

Slide 18

Slide 18 text

ACUERDOS DE NIVEL DE SERVICIO

Slide 19

Slide 19 text

Acuerdos de Nivel de Servicio SLA requiere que tu tengas: ● Múltiples VMs ● Redundancia de dominios ● Failover automático ● Monitoreo ● Tolerancia a indisponibilidad ● Aprovisionamiento automatizado http://www.distributedsystemscourse.com/

Slide 20

Slide 20 text

Acuerdos de Nivel de Servicio http://www.distributedsyst emscourse.com/ SLA requiere que tu tengas: ● Muy pocas personas leen los SLAs en detalle hasta que la falla pasa. ● En un negocio competitivo, lo que el cliente pierde es más que lo establecido en un SLA. ● Los descuentos y devoluciones nos dejan claro que los desastres son esperados. ● Los créditos probablemente NO cubren las pérdidas.

Slide 21

Slide 21 text

SLAs: Recomendaciones ● Diferentes aplicaciones tienen diferentes requerimientos. ● Sea conservador! Primero obtenga experiencia configurando SLOs > tiempo de reacción. ● ¿Seguro que puede dar soporte 7 x 24? ● Estudie los SLAs de sus dependencias! How c ¿Exceder mis SLOs? Programe un outage! ● Intenta: ○ Headrooms ● No SLAs implicitos

Slide 22

Slide 22 text

CUAL ES LA DIFERENCIA

Slide 23

Slide 23 text

RECURSOS

Slide 24

Slide 24 text

https://cre.page.link/art-of-slos-handbook MATEMATICAS SOBRE SLAs

Slide 25

Slide 25 text

"99.9%" availability (o alcanzar "tres 9s"). MATEMATICAS SOBRE SLAs

Slide 26

Slide 26 text

● Consider Microsoft Azure, Amazon EC2, Google GCE ● Promise 99.95% uptime (22 minutes downtime/month) ○ They rarely expect their hardware or software to fail ○ When it fails they think they can fix it quickly ● 1-minute sampling frequency ○ GCE doesn’t count <5 minute outages LA PROMESA EN CLOUD

Slide 27

Slide 27 text

CUANDO ALERTAR

Slide 28

Slide 28 text

No content

Slide 29

Slide 29 text

ERROR BUDGET Un presupuesto de errores es la cantidad máxima de tiempo que un sistema puede fallar sin consecuencias contractuales Si su SLA promete un tiempo de actividad del 99,95%, su presupuesto de errores es de cuatro horas, 22 minutos y 48 segundos. Y si su SLA promete que su equipo responderá el 99,9%, su presupuesto de errores es de ocho horas, 46 minutos y 12 segundos.

Slide 30

Slide 30 text

DISCUSION

Slide 31

Slide 31 text

PREGUNTAS ● ¿Qué pasa cuando no se define un SLI? ● ¿Han configurado SLIs antes de SLOs? ● ¿Es importante el tamaño de la Organización? ● ¿En qué momento definen los SLOs & SLAs?

Slide 32

Slide 32 text

DEMO EN GCP

Slide 33

Slide 33 text

The Art of SLOs - Worksheet https://docs.google.com/document/d/1bRkVu7tuow3K21669mzXEEhk1 Ki-iukMFehZAR0dAvU/edit?usp=sharing Use https://www.google.com/search?client=firefox-b-d&q=RecordSEV+tool ++https%3A%2F%2Fdocs.google.com%2Fforms%2Fd%2Fe%2F1FAIpQL SeFrBF6KFEu1D38IgxieaLYo4Mt7UfDu1J_kitGTvqXVcsqXA%2Fviewform Review this READme https://gist.github.com/StevenACoffman/836295e378dbb3e2d9bc1dac074086ad TAREA

Slide 34

Slide 34 text

https://www.qwiklabs.com/focuses/4186 ?parent=catalog QUICKLABS