Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Liz fong-Jones - Production Excellence

Liz fong-Jones - Production Excellence

DevOps Days GDL 2020 - February 20th

Cc51a96581c0e265b8b3325dcadb6d2c?s=128

DevOpsDays GDL

February 21, 2020
Tweet

Transcript

  1. Detangling complex systems Liz Fong-Jones @lizthegrey #DevOpsDaysGDL February 21, 2020

    with compassion & production excellence 1 Illustrated by @emilywithcurls!
  2. Entender sistemas complejos Liz Fong-Jones @lizthegrey #DevOpsDaysGDL el 21 de

    febrero, 2020 con compasión & excelencia de producción 2 Ilustrada por @emilywithcurls!
  3. @lizthegrey en #DevOpsDaysGDL We write code to solve problems. 3

    Como ingenieros, solucionamos problemas.
  4. @lizthegrey en #DevOpsDaysGDL But our job isn't done upon commit.

    4 Hay más trabajo después del commit.
  5. @lizthegrey en #DevOpsDaysGDL Production is increasingly complex. 5 La producción

    es más compleja.
  6. @lizthegrey en #DevOpsDaysGDL It's harder to understand our systems. 6

    Entender los sistemas es más difícil.
  7. @lizthegrey en #DevOpsDaysGDL What does uptime mean? 7 Que significa

    tiempo útil?
  8. @lizthegrey en #DevOpsDaysGDL Is it measured in servers? 8 Se

    mide por servidores?
  9. @lizthegrey en #DevOpsDaysGDL Is it measured in complaints? 9 Se

    mide por quejas?
  10. @lizthegrey en #DevOpsDaysGDL How about juggling everything else? 10 Cómo

    podemos hacer todo lo demás?
  11. @lizthegrey en #DevOpsDaysGDL Our strategies need to evolve. 11 Tenemos

    que usar otras estrategias.
  12. @lizthegrey en #DevOpsDaysGDL Don't "buy" DevOps. No "compres" DevOps 12

  13. @lizthegrey en #DevOpsDaysGDL When we order the alphabet soup... 13

    Cuando pedimos la sopa de letras...
  14. @lizthegrey en #DevOpsDaysGDL Noisy alerts. Grumpy engineers. 14 Despertamos con

    frecuencia.
  15. @lizthegrey en #DevOpsDaysGDL Walls of meaningless dashboards. 15 No sabemos

    dónde mirar.
  16. @lizthegrey en #DevOpsDaysGDL Incidents take forever to fix. 16 No

    podemos reparar rápidamente.
  17. @lizthegrey en #DevOpsDaysGDL Everyone bugs the "expert". 17 Todo el

    equipo molesta al experto.
  18. @lizthegrey en #DevOpsDaysGDL Deploys are unpredictable. 18 No podemos desplegar

    con confianza.
  19. @lizthegrey en #DevOpsDaysGDL There's no time to do projects... 19

    No hay horas en el día para proyectos.
  20. @lizthegrey en #DevOpsDaysGDL and when there's time, there's no plan.

    20 y no sabemos qué debemos hacer.
  21. @lizthegrey en #DevOpsDaysGDL The team is struggling to hold on.

    21 No podemos aguantar esto.
  22. @lizthegrey en #DevOpsDaysGDL What are we missing? 22 Qué nos

    hemos perdido?
  23. @lizthegrey en #DevOpsDaysGDL We forgot who operates systems. 23 Hemos

    olvidado quién opera los sistemas.
  24. @lizthegrey en #DevOpsDaysGDL Tools aren't magical. 24 Las herramientas no

    son mágicas.
  25. @lizthegrey en #DevOpsDaysGDL Invest in people, culture, & process. 25

    Inviertas en tu gente, cultura, y procesas.
  26. @lizthegrey en #DevOpsDaysGDL Enter the art of Production Excellence. 26

    Necesitamos Excelencia de Producción.
  27. @lizthegrey en #DevOpsDaysGDL Make systems more reliable & friendly. 27

    Cree sistemas más confiable y amigable.
  28. @lizthegrey en #DevOpsDaysGDL ProdEx takes planning. 28 Se necesita planear

    para ProdEx.
  29. @lizthegrey en #DevOpsDaysGDL Measure and act on what matters. 29

    Midas y correjas lo más importante.
  30. @lizthegrey en #DevOpsDaysGDL Incluyas a todos. Involve everyone. 30

  31. @lizthegrey en #DevOpsDaysGDL Encourage asking questions. 31 Recompenses haciendo preguntas.

  32. @lizthegrey en #DevOpsDaysGDL How do we get started? 32 Cómo

    podemos empezar?
  33. @lizthegrey en #DevOpsDaysGDL Know when it's too broken. 33 Tenemos

    que saber cuándo está muy malo.
  34. @lizthegrey en #DevOpsDaysGDL & be able to debug, together when

    it is. 34 y poder depurar, juntos, cuando está malo.
  35. @lizthegrey en #DevOpsDaysGDL Eliminate (unnecessary) complexity. 35 Tenemos que eliminar

    la complejidad.
  36. @lizthegrey en #DevOpsDaysGDL Our systems are always failing. 36 Los

    sistemas siempre fallan.
  37. @lizthegrey en #DevOpsDaysGDL What if we measure too broken? 37

    Podemos medir las fallas.
  38. @lizthegrey en #DevOpsDaysGDL We need Service Level Indicators 38 Necesitamos

    Indicadores del Nivel de Servicio.
  39. @lizthegrey en #DevOpsDaysGDL SLIs and SLOs are common language. 39

    SLIs y SLOs son idioma común.
  40. @lizthegrey en #DevOpsDaysGDL Think in terms of events in context.

    40 Consideramos los eventos y sus contextos.
  41. @lizthegrey en #DevOpsDaysGDL Is this event good or bad? 41

    Cómo sabemos si un evento es malo?
  42. @lizthegrey en #DevOpsDaysGDL Are users grumpy? Ask your PM. 42

    Hay quejas? El gerente de producto saberá.
  43. @lizthegrey en #DevOpsDaysGDL What threshold buckets events? 43 Cuál es

    el umbral entre lo bueno y lo malo?
  44. @lizthegrey en #DevOpsDaysGDL HTTP Code 200? Latency < 300ms? 44

    El código HTTP 200? Latencia < 300ms?
  45. @lizthegrey en #DevOpsDaysGDL How many eligible events did we see?

    45 Cuántos eventos elegibles medimos?
  46. @lizthegrey en #DevOpsDaysGDL Availability: Good / Eligible Events 46 La

    disponibilidad = Buenos / Elegibles
  47. @lizthegrey en #DevOpsDaysGDL Set a target Service Level Objective. 47

    Establezcas un Objetivo.
  48. @lizthegrey en #DevOpsDaysGDL Use a window and target percentage. 48

    Tiene una ventana temporal y proporción.
  49. @lizthegrey en #DevOpsDaysGDL 99.9% of events good in past 30

    days. 49 99.9% de eventos del mes pasado serán buenos.
  50. @lizthegrey en #DevOpsDaysGDL A good SLO barely keeps users happy.

    50 Apenas mantiene contentos al cliente.
  51. @lizthegrey en #DevOpsDaysGDL Drive alerting with SLOs. 51 Se puede

    usar SLOs para alertar.
  52. @lizthegrey en #DevOpsDaysGDL Error budget: allowed unavailability 52 El presupuesto

    de errores permitidos.
  53. @lizthegrey en #DevOpsDaysGDL How long until I run out? 53

    Cuánto tiempo hasta se acabe?
  54. @lizthegrey en #DevOpsDaysGDL Page if it's hours. 54 Ticket if

    it's days. Envíe una alerta si tardará horas. Cree una tarea si tardará días.
  55. @lizthegrey en #DevOpsDaysGDL 55 Tenemos un gran problema. Uh oh,

    better wake someone up.
  56. @lizthegrey en #DevOpsDaysGDL Data-driven business decisions. 56 Decidas utilizando datos.

  57. @lizthegrey en #DevOpsDaysGDL Is it safe to do this risky

    experiment? 57 Es seguro probar esto?
  58. @lizthegrey en #DevOpsDaysGDL Should we invest in more reliability? 58

    Debemos invertir en más confiabilidad?
  59. @lizthegrey en #DevOpsDaysGDL Perfect SLO > Good SLO >>> No

    SLO 59 Lo perfecto es enemigo de lo bueno.
  60. @lizthegrey en #DevOpsDaysGDL Measure what you can today. 60 Midas

    lo que puedes hoy.
  61. @lizthegrey en #DevOpsDaysGDL Iterate to meet user needs. 61 Seas

    flexible y cambias con necesidades.
  62. @lizthegrey en #DevOpsDaysGDL Only alert on what matters. 62 Sólo

    reciba alertas cuando es necesario.
  63. @lizthegrey en #DevOpsDaysGDL SLIs & SLOs are only half the

    picture... 63 SLIs sólo son la mitad de la solución...
  64. @lizthegrey en #DevOpsDaysGDL Our outages are never identical. 64 Los

    cortes nunca son los mismos.
  65. @lizthegrey en #DevOpsDaysGDL Failure modes can't be predicted. 65 No

    podemos saber cómo va a fallar.
  66. @lizthegrey en #DevOpsDaysGDL Tenemos que depurar fallas nuevas. 66 Debug

    novel cases. In production.
  67. @lizthegrey en #DevOpsDaysGDL Dive into data to ask new questions.

    67 Formules preguntas nuevas con datos.
  68. @lizthegrey en #DevOpsDaysGDL Allow forming & testing hypotheses. 68 Tenemos

    que probar las hipótesis.
  69. @lizthegrey en #DevOpsDaysGDL Our services must be observable. 69 Necesitamos

    observabilidad.
  70. @lizthegrey en #DevOpsDaysGDL Can you examine events in context? 70

    Conoces los eventos y sus contextos?
  71. @lizthegrey en #DevOpsDaysGDL Can you explain the variance? 71 Puedes

    explicar las diferencias?
  72. @lizthegrey en #DevOpsDaysGDL using relevant dimensions? 72 con las dimensiones

    pertinentes?
  73. @lizthegrey en #DevOpsDaysGDL Can you mitigate impact & debug later?

    73 Puedes reparar antes y depurar después?
  74. @lizthegrey en #DevOpsDaysGDL Observability goes beyond break/fix. 74 Observabilidad mejora

    más que reparar. OPERATIONAL RESILIENCE MANAGED TECH DEBT QUALITY CODE PREDICTABLE RELEASE USER INSIGHT
  75. @lizthegrey en #DevOpsDaysGDL Observability isn't just the data. 75 Observabilidad

    es más que los datos. INSTRUMENT QUERY
  76. @lizthegrey en #DevOpsDaysGDL SLOs and Observability go together. 76 SLOs

    y Observabilidad funcionan juntos.
  77. @lizthegrey en #DevOpsDaysGDL But they alone don't create collaboration. 77

    También necesitamos colaboración.
  78. @lizthegrey en #DevOpsDaysGDL Heroism isn't sustainable. 78 No podemos ser

    héroes por siempre.
  79. @lizthegrey en #DevOpsDaysGDL Debugging is not a solo activity. 79

    No podemos depurar sólos.
  80. @lizthegrey en #DevOpsDaysGDL Debugging is for everyone. 80 Todos los

    puestos participan en depurar.
  81. @lizthegrey en #DevOpsDaysGDL Collaboration is interpersonal. 81 Tenemos que comunicar

    entre personas.
  82. @lizthegrey en #DevOpsDaysGDL Lean on your team. 82 Nuestro equipo

    puede ayudarnos.
  83. @lizthegrey en #DevOpsDaysGDL We learn better when we document. 83

    Aprendemos más cuando documentamos.
  84. @lizthegrey en #DevOpsDaysGDL Fix hero culture. Share knowledge. 84 No

    habrá héroes si compartimos.
  85. @lizthegrey en #DevOpsDaysGDL Reward curiosity and teamwork. 85 Recompenses curiosidad

    y cooperación.
  86. @lizthegrey en #DevOpsDaysGDL 86 Improve the future by learning the

    past. Mejoras la futura cuando aprendas el pasado.
  87. @lizthegrey en #DevOpsDaysGDL Outages don't repeat, but they rhyme. 87

    Los cortes tienen similaridades.
  88. @lizthegrey en #DevOpsDaysGDL Risk analysis helps us plan. 88 Cuando

    analizamos los riesgos, planificamos.
  89. @lizthegrey en #DevOpsDaysGDL Quantify risks by frequency & impact. 89

    Los riesgos tienen frecuencias y efectos.
  90. @lizthegrey en #DevOpsDaysGDL Which risks are most significant? 90 Cuáles

    riesgos son los más peligrosos?
  91. @lizthegrey en #DevOpsDaysGDL Address risks that threaten the SLO. 91

    Arregles riesgos que amenazan el SLO.
  92. @lizthegrey en #DevOpsDaysGDL Make the business case to fix them.

    92 Tenemos razones para arreglarlos.
  93. @lizthegrey en #DevOpsDaysGDL And prioritize completing the work. 93 Y

    podemos priorizar la finalización.
  94. @lizthegrey en #DevOpsDaysGDL Don't waste time chrome polishing. 94 No

    debemos perder horas sin hacer nada.
  95. @lizthegrey en #DevOpsDaysGDL Lack of observability is systemic risk. 95

    La falta de observabilidad es un riesgo.
  96. @lizthegrey en #DevOpsDaysGDL So is lack of collaboration. 96 Y

    la falta de colaboración también.
  97. @lizthegrey en #DevOpsDaysGDL 97 Success doesn't demand heroism. No necesitamos

    héroes para tener éxito.
  98. @lizthegrey en #DevOpsDaysGDL Season the alphabet soup with ProdEx 98

    La sopa sabe más deliciosa con ProdEx
  99. @lizthegrey en #DevOpsDaysGDL ProdEx is easier with the right tools!

    99 ProdEx es fácil con herramientas útiles!
  100. @lizthegrey en #DevOpsDaysGDL Excelencia de producción mejora los equipos. Medir.

    Depurar. Colaborar. Reparar. 100 lizthegrey.com; @lizthegrey PS tengo pegatinas! /liz
  101. @lizthegrey en #DevOpsDaysGDL Production Excellence brings teams closer together. Measure.

    Debug. Collaborate. Fix. 101 lizthegrey.com; @lizthegrey p.s. I have stickers! /liz