Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Liz fong-Jones - Production Excellence
Search
DevOpsDays GDL
February 21, 2020
Technology
0
360
Liz fong-Jones - Production Excellence
DevOps Days GDL 2020 - February 20th
DevOpsDays GDL
February 21, 2020
Tweet
Share
More Decks by DevOpsDays GDL
See All by DevOpsDays GDL
Julian Limon - Aligned autonomy: How clarity on outcomes gets us to self-organized teams that win
devopsdaysgdl
0
580
Jorge Castro - Building DevOps Ways of Working at large Enterprise through learning, collaboration and Gamification experiences: Continuous WoWs, DevUps and Feedback
devopsdaysgdl
0
390
Salvador Elizarraras - Five Ways to Improve Team Performance
devopsdaysgdl
0
280
Tommy Adams - Cutting the Cord: Letting Your Remote Team Run Free
devopsdaysgdl
0
280
Leoswaldo Macias - Protecting your App in the Cloud
devopsdaysgdl
0
370
Cameron Motevasselani - Extending Spinnaker for the Enterprise
devopsdaysgdl
0
340
Jesus Contreras - Containers y DevTools en AWS
devopsdaysgdl
0
350
Mofizur Rahman - Knative: Serverless Computing on Kubernetes
devopsdaysgdl
0
390
Ra Acosta - SAFe Journey 5.0
devopsdaysgdl
0
280
Other Decks in Technology
See All in Technology
Vitest Highlights in Angular
rainerhahnekamp
0
120
re:Inventで出たインフラエンジニアが嬉しかったアップデート
nagisa53
4
230
20260129_CB_Kansai
takuyay0ne
1
240
SREじゃなかった僕らがenablingを通じて「SRE実践者」になるまでのリアル / SRE Kaigi 2026
aeonpeople
5
360
システムのアラート調査をサポートするAI Agentの紹介/Introduction to an AI Agent for System Alert Investigation
taddy_919
1
1.1k
制約が導く迷わない設計 〜 信頼性と運用性を両立するマイナンバー管理システムの実践 〜
bwkw
2
470
SREが向き合う大規模リアーキテクチャ 〜信頼性とアジリティの両立〜
zepprix
0
220
AI開発をスケールさせるデータ中心の仕組みづくり
kzykmyzw
0
190
toCプロダクトにおけるAI機能開発のしくじりと学び / ai-product-failures-and-learnings
rince
6
4.7k
Oracle Cloud Infrastructure:2026年1月度サービス・アップデート
oracle4engineer
PRO
0
200
「AIでできますか?」から「Agentを作ってみました」へ ~「理論上わかる」と「やってみる」の隔たりを埋める方法
applism118
14
9k
DatabricksホストモデルでAIコーディング環境を構築する
databricksjapan
0
210
Featured
See All Featured
JAMstack: Web Apps at Ludicrous Speed - All Things Open 2022
reverentgeek
1
320
Why Mistakes Are the Best Teachers: Turning Failure into a Pathway for Growth
auna
0
48
Stop Working from a Prison Cell
hatefulcrawdad
273
21k
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
59
42k
Building Flexible Design Systems
yeseniaperezcruz
330
40k
Designing for Performance
lara
610
70k
Design in an AI World
tapps
0
140
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
117
100k
Getting science done with accelerated Python computing platforms
jacobtomlinson
1
110
How to build an LLM SEO readiness audit: a practical framework
nmsamuel
1
630
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
170
Transcript
Detangling complex systems Liz Fong-Jones @lizthegrey #DevOpsDaysGDL February 21, 2020
with compassion & production excellence 1 Illustrated by @emilywithcurls!
Entender sistemas complejos Liz Fong-Jones @lizthegrey #DevOpsDaysGDL el 21 de
febrero, 2020 con compasión & excelencia de producción 2 Ilustrada por @emilywithcurls!
@lizthegrey en #DevOpsDaysGDL We write code to solve problems. 3
Como ingenieros, solucionamos problemas.
@lizthegrey en #DevOpsDaysGDL But our job isn't done upon commit.
4 Hay más trabajo después del commit.
@lizthegrey en #DevOpsDaysGDL Production is increasingly complex. 5 La producción
es más compleja.
@lizthegrey en #DevOpsDaysGDL It's harder to understand our systems. 6
Entender los sistemas es más difícil.
@lizthegrey en #DevOpsDaysGDL What does uptime mean? 7 Que significa
tiempo útil?
@lizthegrey en #DevOpsDaysGDL Is it measured in servers? 8 Se
mide por servidores?
@lizthegrey en #DevOpsDaysGDL Is it measured in complaints? 9 Se
mide por quejas?
@lizthegrey en #DevOpsDaysGDL How about juggling everything else? 10 Cómo
podemos hacer todo lo demás?
@lizthegrey en #DevOpsDaysGDL Our strategies need to evolve. 11 Tenemos
que usar otras estrategias.
@lizthegrey en #DevOpsDaysGDL Don't "buy" DevOps. No "compres" DevOps 12
@lizthegrey en #DevOpsDaysGDL When we order the alphabet soup... 13
Cuando pedimos la sopa de letras...
@lizthegrey en #DevOpsDaysGDL Noisy alerts. Grumpy engineers. 14 Despertamos con
frecuencia.
@lizthegrey en #DevOpsDaysGDL Walls of meaningless dashboards. 15 No sabemos
dónde mirar.
@lizthegrey en #DevOpsDaysGDL Incidents take forever to fix. 16 No
podemos reparar rápidamente.
@lizthegrey en #DevOpsDaysGDL Everyone bugs the "expert". 17 Todo el
equipo molesta al experto.
@lizthegrey en #DevOpsDaysGDL Deploys are unpredictable. 18 No podemos desplegar
con confianza.
@lizthegrey en #DevOpsDaysGDL There's no time to do projects... 19
No hay horas en el día para proyectos.
@lizthegrey en #DevOpsDaysGDL and when there's time, there's no plan.
20 y no sabemos qué debemos hacer.
@lizthegrey en #DevOpsDaysGDL The team is struggling to hold on.
21 No podemos aguantar esto.
@lizthegrey en #DevOpsDaysGDL What are we missing? 22 Qué nos
hemos perdido?
@lizthegrey en #DevOpsDaysGDL We forgot who operates systems. 23 Hemos
olvidado quién opera los sistemas.
@lizthegrey en #DevOpsDaysGDL Tools aren't magical. 24 Las herramientas no
son mágicas.
@lizthegrey en #DevOpsDaysGDL Invest in people, culture, & process. 25
Inviertas en tu gente, cultura, y procesas.
@lizthegrey en #DevOpsDaysGDL Enter the art of Production Excellence. 26
Necesitamos Excelencia de Producción.
@lizthegrey en #DevOpsDaysGDL Make systems more reliable & friendly. 27
Cree sistemas más confiable y amigable.
@lizthegrey en #DevOpsDaysGDL ProdEx takes planning. 28 Se necesita planear
para ProdEx.
@lizthegrey en #DevOpsDaysGDL Measure and act on what matters. 29
Midas y correjas lo más importante.
@lizthegrey en #DevOpsDaysGDL Incluyas a todos. Involve everyone. 30
@lizthegrey en #DevOpsDaysGDL Encourage asking questions. 31 Recompenses haciendo preguntas.
@lizthegrey en #DevOpsDaysGDL How do we get started? 32 Cómo
podemos empezar?
@lizthegrey en #DevOpsDaysGDL Know when it's too broken. 33 Tenemos
que saber cuándo está muy malo.
@lizthegrey en #DevOpsDaysGDL & be able to debug, together when
it is. 34 y poder depurar, juntos, cuando está malo.
@lizthegrey en #DevOpsDaysGDL Eliminate (unnecessary) complexity. 35 Tenemos que eliminar
la complejidad.
@lizthegrey en #DevOpsDaysGDL Our systems are always failing. 36 Los
sistemas siempre fallan.
@lizthegrey en #DevOpsDaysGDL What if we measure too broken? 37
Podemos medir las fallas.
@lizthegrey en #DevOpsDaysGDL We need Service Level Indicators 38 Necesitamos
Indicadores del Nivel de Servicio.
@lizthegrey en #DevOpsDaysGDL SLIs and SLOs are common language. 39
SLIs y SLOs son idioma común.
@lizthegrey en #DevOpsDaysGDL Think in terms of events in context.
40 Consideramos los eventos y sus contextos.
@lizthegrey en #DevOpsDaysGDL Is this event good or bad? 41
Cómo sabemos si un evento es malo?
@lizthegrey en #DevOpsDaysGDL Are users grumpy? Ask your PM. 42
Hay quejas? El gerente de producto saberá.
@lizthegrey en #DevOpsDaysGDL What threshold buckets events? 43 Cuál es
el umbral entre lo bueno y lo malo?
@lizthegrey en #DevOpsDaysGDL HTTP Code 200? Latency < 300ms? 44
El código HTTP 200? Latencia < 300ms?
@lizthegrey en #DevOpsDaysGDL How many eligible events did we see?
45 Cuántos eventos elegibles medimos?
@lizthegrey en #DevOpsDaysGDL Availability: Good / Eligible Events 46 La
disponibilidad = Buenos / Elegibles
@lizthegrey en #DevOpsDaysGDL Set a target Service Level Objective. 47
Establezcas un Objetivo.
@lizthegrey en #DevOpsDaysGDL Use a window and target percentage. 48
Tiene una ventana temporal y proporción.
@lizthegrey en #DevOpsDaysGDL 99.9% of events good in past 30
days. 49 99.9% de eventos del mes pasado serán buenos.
@lizthegrey en #DevOpsDaysGDL A good SLO barely keeps users happy.
50 Apenas mantiene contentos al cliente.
@lizthegrey en #DevOpsDaysGDL Drive alerting with SLOs. 51 Se puede
usar SLOs para alertar.
@lizthegrey en #DevOpsDaysGDL Error budget: allowed unavailability 52 El presupuesto
de errores permitidos.
@lizthegrey en #DevOpsDaysGDL How long until I run out? 53
Cuánto tiempo hasta se acabe?
@lizthegrey en #DevOpsDaysGDL Page if it's hours. 54 Ticket if
it's days. Envíe una alerta si tardará horas. Cree una tarea si tardará días.
@lizthegrey en #DevOpsDaysGDL 55 Tenemos un gran problema. Uh oh,
better wake someone up.
@lizthegrey en #DevOpsDaysGDL Data-driven business decisions. 56 Decidas utilizando datos.
@lizthegrey en #DevOpsDaysGDL Is it safe to do this risky
experiment? 57 Es seguro probar esto?
@lizthegrey en #DevOpsDaysGDL Should we invest in more reliability? 58
Debemos invertir en más confiabilidad?
@lizthegrey en #DevOpsDaysGDL Perfect SLO > Good SLO >>> No
SLO 59 Lo perfecto es enemigo de lo bueno.
@lizthegrey en #DevOpsDaysGDL Measure what you can today. 60 Midas
lo que puedes hoy.
@lizthegrey en #DevOpsDaysGDL Iterate to meet user needs. 61 Seas
flexible y cambias con necesidades.
@lizthegrey en #DevOpsDaysGDL Only alert on what matters. 62 Sólo
reciba alertas cuando es necesario.
@lizthegrey en #DevOpsDaysGDL SLIs & SLOs are only half the
picture... 63 SLIs sólo son la mitad de la solución...
@lizthegrey en #DevOpsDaysGDL Our outages are never identical. 64 Los
cortes nunca son los mismos.
@lizthegrey en #DevOpsDaysGDL Failure modes can't be predicted. 65 No
podemos saber cómo va a fallar.
@lizthegrey en #DevOpsDaysGDL Tenemos que depurar fallas nuevas. 66 Debug
novel cases. In production.
@lizthegrey en #DevOpsDaysGDL Dive into data to ask new questions.
67 Formules preguntas nuevas con datos.
@lizthegrey en #DevOpsDaysGDL Allow forming & testing hypotheses. 68 Tenemos
que probar las hipótesis.
@lizthegrey en #DevOpsDaysGDL Our services must be observable. 69 Necesitamos
observabilidad.
@lizthegrey en #DevOpsDaysGDL Can you examine events in context? 70
Conoces los eventos y sus contextos?
@lizthegrey en #DevOpsDaysGDL Can you explain the variance? 71 Puedes
explicar las diferencias?
@lizthegrey en #DevOpsDaysGDL using relevant dimensions? 72 con las dimensiones
pertinentes?
@lizthegrey en #DevOpsDaysGDL Can you mitigate impact & debug later?
73 Puedes reparar antes y depurar después?
@lizthegrey en #DevOpsDaysGDL Observability goes beyond break/fix. 74 Observabilidad mejora
más que reparar. OPERATIONAL RESILIENCE MANAGED TECH DEBT QUALITY CODE PREDICTABLE RELEASE USER INSIGHT
@lizthegrey en #DevOpsDaysGDL Observability isn't just the data. 75 Observabilidad
es más que los datos. INSTRUMENT QUERY
@lizthegrey en #DevOpsDaysGDL SLOs and Observability go together. 76 SLOs
y Observabilidad funcionan juntos.
@lizthegrey en #DevOpsDaysGDL But they alone don't create collaboration. 77
También necesitamos colaboración.
@lizthegrey en #DevOpsDaysGDL Heroism isn't sustainable. 78 No podemos ser
héroes por siempre.
@lizthegrey en #DevOpsDaysGDL Debugging is not a solo activity. 79
No podemos depurar sólos.
@lizthegrey en #DevOpsDaysGDL Debugging is for everyone. 80 Todos los
puestos participan en depurar.
@lizthegrey en #DevOpsDaysGDL Collaboration is interpersonal. 81 Tenemos que comunicar
entre personas.
@lizthegrey en #DevOpsDaysGDL Lean on your team. 82 Nuestro equipo
puede ayudarnos.
@lizthegrey en #DevOpsDaysGDL We learn better when we document. 83
Aprendemos más cuando documentamos.
@lizthegrey en #DevOpsDaysGDL Fix hero culture. Share knowledge. 84 No
habrá héroes si compartimos.
@lizthegrey en #DevOpsDaysGDL Reward curiosity and teamwork. 85 Recompenses curiosidad
y cooperación.
@lizthegrey en #DevOpsDaysGDL 86 Improve the future by learning the
past. Mejoras la futura cuando aprendas el pasado.
@lizthegrey en #DevOpsDaysGDL Outages don't repeat, but they rhyme. 87
Los cortes tienen similaridades.
@lizthegrey en #DevOpsDaysGDL Risk analysis helps us plan. 88 Cuando
analizamos los riesgos, planificamos.
@lizthegrey en #DevOpsDaysGDL Quantify risks by frequency & impact. 89
Los riesgos tienen frecuencias y efectos.
@lizthegrey en #DevOpsDaysGDL Which risks are most significant? 90 Cuáles
riesgos son los más peligrosos?
@lizthegrey en #DevOpsDaysGDL Address risks that threaten the SLO. 91
Arregles riesgos que amenazan el SLO.
@lizthegrey en #DevOpsDaysGDL Make the business case to fix them.
92 Tenemos razones para arreglarlos.
@lizthegrey en #DevOpsDaysGDL And prioritize completing the work. 93 Y
podemos priorizar la finalización.
@lizthegrey en #DevOpsDaysGDL Don't waste time chrome polishing. 94 No
debemos perder horas sin hacer nada.
@lizthegrey en #DevOpsDaysGDL Lack of observability is systemic risk. 95
La falta de observabilidad es un riesgo.
@lizthegrey en #DevOpsDaysGDL So is lack of collaboration. 96 Y
la falta de colaboración también.
@lizthegrey en #DevOpsDaysGDL 97 Success doesn't demand heroism. No necesitamos
héroes para tener éxito.
@lizthegrey en #DevOpsDaysGDL Season the alphabet soup with ProdEx 98
La sopa sabe más deliciosa con ProdEx
@lizthegrey en #DevOpsDaysGDL ProdEx is easier with the right tools!
99 ProdEx es fácil con herramientas útiles!
@lizthegrey en #DevOpsDaysGDL Excelencia de producción mejora los equipos. Medir.
Depurar. Colaborar. Reparar. 100 lizthegrey.com; @lizthegrey PS tengo pegatinas! /liz
@lizthegrey en #DevOpsDaysGDL Production Excellence brings teams closer together. Measure.
Debug. Collaborate. Fix. 101 lizthegrey.com; @lizthegrey p.s. I have stickers! /liz