Observability 101: Monitoring Your Mobile Apps

Observability 101: Monitoreando tus apps móviles Bruno Aybar Senior Enginer
@ Shopify

Observability 101: Monitoreando tus apps móviles Bruno Aybar

— Embrace Backend says: “99.999%" Frontend says: “Your mobile app
sucks."

Observabilidad y otras hierbas Terminologí a 01

Observabilidad Metrics Telemetry Logs Traces Monitoring SLI / SLO /
SLA Cardinality Span

“Es una medida de qué tan bien se puede conocer
el estado de un sistema a partir de sus múltiples salidas (señales)” Observabilidad

Metrics, Logs, Traces Signals 02

— Padre "Estaré pendiente del desempeño académico de mis hijos"

Libreta de Notas Pepito Juanita Examen 1 20 16 Examen
2 20 13 Examen 3 17 7 Promedio ﬁnal 19 12

2 20 13 Examen 3 17 7 Promedio ﬁnal 19 12 Métricas

Correo institucional "Varios profesores me indican que Juanita se ha
estado quedando dormida en clase." — Miss Alyssa

Correo institucional "Varios profesores me indican que Juanita se ha
estado quedando dormida en clase." — Miss Alyssa Logs

Registro de asistencia • Lunes: tarde • Martes: tarde •
Miercoles: tarde

Registro de asistencia • Lunes: ◦ Estado: Tarde ◦ Hora
exacta: 07:48am ◦ Justiﬁcado: ✅ ◦ Motivo: Accidente de tránsito • Martes: … • Miercoles: …

Registro de asistencia (Structured) Logs • Lunes: tarde • Martes:
tarde • Miercoles: tarde

Signals Las señales son outputs que describen la actividad subyacente
del sistema y las aplicaciones que se ejecutan en una plataforma.

Open Telemetry Framework + toolkit de Observabilidad diseñado para crear
data y manejar datos de telemetría

Signals (Telemetry data) Una medición de un servicio realizada en
tiempo de ejecución Registro (con marca de tiempo) estructurado o no, con metadatos opcionales. Una colección de logs estructurados con contexto, duración, correlación, jerarquía, y más Metrics Logs Traces

Metric Una medición (numérica) realizada en tiempo de ejecución. Además,
consiste de: - el momento en que fue capturada y - los metadatos asociados.

Metric app_launched (count + 1)

Metric app_launched (count + 1) screen_visit (count + 1)

Metric app_launched (count + 1) screen_visit (count + 1) time_to_initial_display
(value = 500ms)

Metric app_launched (count + 1) screen_visit (count + 1) time_to_initial_display
(value = 500ms) time_to_fully_drawn (value = 2s)

Metrics → Metadata app_launched (count + 1) • timestamp =
… • brand = 'pixel' • os_platform = android • os_version = '15' • app_version = '1.0.0' Cada uno de estos aumenta la cardinalidad

Metrics → Types app_launched (count + 1)

Metrics → Types app_launched (count + 1) Counte r

Metrics → Types Un valor que se acumula a lo
largo del tiempo Mide el valor actual de una métrica al momento de su medición Muestra la distribución de un conjunto de valores numéricos a lo largo del tiempo Counter Gauge (indicador) Histogram

Metrics → Counter Un valor que se acumula a lo
largo del tiempo

Metrics → Counter Ejemplo: cantidad de compras por hora

Metrics → Gauge Mide el valor actual de una métrica
al momento de su medición

Metrics → Gauge Ejemplo: consumo de memoria promedio en MB

Metrics → Histogram Medición que muestra la distribución de un
conjunto de valores numéricos a lo largo del tiempo

Metrics → Histogram Ejemplo: launch to interactive by version (p75)

Metrics → Histogram Ejemplo: tiempo

Logs Registro (con marca de tiempo) estructurado o no, con
metadatos opcionales.

Logs ¿Logcat?

data y manejar datos de telemetría

data y manejar datos de telemetría "de lejos"

data y manejar datos de telemetría "medida"

Logs Logcat ← ¿lo podemos observar de lejos?

Logs collection

Traces Una colección de logs estructurados con contexto, duración, correlación,
jerarquía, y más Correctamente implementados, permiten realizar "tracing distribuido"

Traces trace_id = ABC | span_id = 1 App startup
trace_id = ABC | span_id = 2 Start process trace_id = ABC | span_id = 3 Class loading trace_id = ABC | span_id = 4 Activity launch

Traces trace_id = ABC | span_id = 1 App startup
trace_id = ABC | span_id = 2 Start process trace_id = ABC | span_id = 3 Class loading trace_id = ABC | span_id = 4 Activity launch Para otra charla…

SLI, SLO, SLA Service Level Metrics 03

2 20 13 Examen 3 17 7 Promedio ﬁnal 19 12

2 20 13 Examen 3 17 7 Promedio ﬁnal 19 12 ¿Son valores aceptables?

— Padre "Tienen que apuntar a un promedio perfecto" (promedio
ﬁnal = 20)

"Tienen que apuntar a un promedio perfecto" (promedio ﬁnal =
20) Service Level Objective (SLO)

2 20 13 Examen 3 19 7 Promedio ﬁnal 20 ✅ 12 ❌ Service Level Indicator (SLI)

— Padre e hijos "No siempre se logra la perfección,
es entendible. Sin embargo, acordemos que no deben desaprobar" (promedio ﬁnal > 10)

"Acordemos que no deben desaprobar" (promedio ﬁnal > 10) Service
Level Agreement (SLA)

Service Level Metrics La métrica que monitoreas. El valor esperado
de la métrica que monitoreas. El valor que, contractualmente, estamos obligados a cumplir. SLI (indicator) SLO (objective) SLA (agreement)

vs Monitoreo Observabilit y 04

Observabilida d Monitoreo

Todo esto es "monitoring" Métricas, SLI, SLO, SLA, etc.

¿Dónde está la observabilidad?

No solo sé que ocurre un error. También tengo las
herramientas para entender el porqué. — Developer

Métricas (session stability) Monitoreo: "De aquello que sabemos que no
sabemos" Qué Cómo How many crash-free users? Known Unknowns

Observabilidad: "De aquello que no sabemos que no sabemos" Unknown
Unknowns Logs Qué Cómo Why did these sessions crashed?

No es solo conocer el estado del sistema, sino también
tener las herramientas para entender porqué se encuentra en ese estado. Observabilidad

Otras consideraciones • Why is observability so expensive? • Why
does no one talk about mobile observability? • Embrace, Bitdrift • Play / App Store, Bugsnag, Dynatrace, NewRelic, etc. 01 03 02 04 La observabilidad es costosa La observabilidad en mobile es difícil Herramientas de tracing para mobile Herramientas de observability para mobile

Honeycomb • Observability: Glossary • Monitoring vs Observability • Understanding
High Cardinality and its role in Observability Matt Klein / bitdrifts • Why is observability so expensive? • Why does no one talk about mobile observability? Embrace • Deﬁning and measuring mobile SLOs NewRelic • What is Observability Open Telemetry • Observability Primer Recursos

Encuesta Salarial 2024

Gracias a: @Girafaly

Bruno Aybar Twitter: @brunoaybarg LinkedIn: /bruno-aybar ¿Preguntas?

Observability 101: Monitoring Your Mobile Apps

Observability 101: Monitoring Your Mobile Apps

More Decks by Bruno Aybar

Featured

Transcript