Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Liz fong-Jones - Production Excellence

Liz fong-Jones - Production Excellence

DevOps Days GDL 2020 - February 20th

DevOpsDays GDL

February 21, 2020
Tweet

More Decks by DevOpsDays GDL

Other Decks in Technology

Transcript

  1. Detangling complex systems
    Liz Fong-Jones
    @lizthegrey
    #DevOpsDaysGDL
    February 21, 2020
    with compassion & production excellence
    1
    Illustrated by @emilywithcurls!

    View Slide

  2. Entender sistemas complejos
    Liz Fong-Jones
    @lizthegrey
    #DevOpsDaysGDL
    el 21 de febrero, 2020
    con compasión & excelencia de producción
    2
    Ilustrada por @emilywithcurls!

    View Slide

  3. @lizthegrey en #DevOpsDaysGDL
    We write code to solve problems.
    3
    Como ingenieros, solucionamos problemas.

    View Slide

  4. @lizthegrey en #DevOpsDaysGDL
    But our job isn't done upon commit.
    4
    Hay más trabajo después del commit.

    View Slide

  5. @lizthegrey en #DevOpsDaysGDL
    Production is increasingly complex.
    5
    La producción es más compleja.

    View Slide

  6. @lizthegrey en #DevOpsDaysGDL
    It's harder to understand our systems.
    6
    Entender los sistemas es más difícil.

    View Slide

  7. @lizthegrey en #DevOpsDaysGDL
    What does uptime mean?
    7
    Que significa tiempo útil?

    View Slide

  8. @lizthegrey en #DevOpsDaysGDL
    Is it measured in servers?
    8
    Se mide por servidores?

    View Slide

  9. @lizthegrey en #DevOpsDaysGDL
    Is it measured in complaints?
    9
    Se mide por quejas?

    View Slide

  10. @lizthegrey en #DevOpsDaysGDL
    How about juggling everything else?
    10
    Cómo podemos hacer todo lo demás?

    View Slide

  11. @lizthegrey en #DevOpsDaysGDL
    Our strategies need to evolve.
    11
    Tenemos que usar otras estrategias.

    View Slide

  12. @lizthegrey en #DevOpsDaysGDL
    Don't "buy" DevOps.
    No "compres" DevOps
    12

    View Slide

  13. @lizthegrey en #DevOpsDaysGDL
    When we order the alphabet soup...
    13
    Cuando pedimos la sopa de letras...

    View Slide

  14. @lizthegrey en #DevOpsDaysGDL
    Noisy alerts. Grumpy engineers.
    14
    Despertamos con frecuencia.

    View Slide

  15. @lizthegrey en #DevOpsDaysGDL
    Walls of meaningless dashboards.
    15
    No sabemos dónde mirar.

    View Slide

  16. @lizthegrey en #DevOpsDaysGDL
    Incidents take forever to fix.
    16
    No podemos reparar rápidamente.

    View Slide

  17. @lizthegrey en #DevOpsDaysGDL
    Everyone bugs the "expert".
    17
    Todo el equipo molesta al experto.

    View Slide

  18. @lizthegrey en #DevOpsDaysGDL
    Deploys are unpredictable.
    18
    No podemos desplegar con confianza.

    View Slide

  19. @lizthegrey en #DevOpsDaysGDL
    There's no time to do projects...
    19
    No hay horas en el día para proyectos.

    View Slide

  20. @lizthegrey en #DevOpsDaysGDL
    and when there's time, there's no plan.
    20
    y no sabemos qué debemos hacer.

    View Slide

  21. @lizthegrey en #DevOpsDaysGDL
    The team is struggling to hold on.
    21
    No podemos aguantar esto.

    View Slide

  22. @lizthegrey en #DevOpsDaysGDL
    What are we missing?
    22
    Qué nos hemos perdido?

    View Slide

  23. @lizthegrey en #DevOpsDaysGDL
    We forgot who operates systems.
    23
    Hemos olvidado quién opera los sistemas.

    View Slide

  24. @lizthegrey en #DevOpsDaysGDL
    Tools aren't magical.
    24
    Las herramientas no son mágicas.

    View Slide

  25. @lizthegrey en #DevOpsDaysGDL
    Invest in people, culture, & process.
    25
    Inviertas en tu gente, cultura, y procesas.

    View Slide

  26. @lizthegrey en #DevOpsDaysGDL
    Enter the art of
    Production Excellence.
    26
    Necesitamos
    Excelencia de Producción.

    View Slide

  27. @lizthegrey en #DevOpsDaysGDL
    Make systems more reliable & friendly.
    27
    Cree sistemas más confiable y amigable.

    View Slide

  28. @lizthegrey en #DevOpsDaysGDL
    ProdEx takes planning.
    28
    Se necesita planear para ProdEx.

    View Slide

  29. @lizthegrey en #DevOpsDaysGDL
    Measure and act on what matters.
    29
    Midas y correjas lo más importante.

    View Slide

  30. @lizthegrey en #DevOpsDaysGDL
    Incluyas a todos.
    Involve everyone.
    30

    View Slide

  31. @lizthegrey en #DevOpsDaysGDL
    Encourage asking questions.
    31
    Recompenses haciendo preguntas.

    View Slide

  32. @lizthegrey en #DevOpsDaysGDL
    How do we get started?
    32
    Cómo podemos empezar?

    View Slide

  33. @lizthegrey en #DevOpsDaysGDL
    Know when it's too broken.
    33
    Tenemos que saber cuándo está muy malo.

    View Slide

  34. @lizthegrey en #DevOpsDaysGDL
    & be able to debug, together when it is.
    34
    y poder depurar, juntos, cuando está malo.

    View Slide

  35. @lizthegrey en #DevOpsDaysGDL
    Eliminate (unnecessary) complexity.
    35
    Tenemos que eliminar la complejidad.

    View Slide

  36. @lizthegrey en #DevOpsDaysGDL
    Our systems are always failing.
    36
    Los sistemas siempre fallan.

    View Slide

  37. @lizthegrey en #DevOpsDaysGDL
    What if we measure too broken?
    37
    Podemos medir las fallas.

    View Slide

  38. @lizthegrey en #DevOpsDaysGDL
    We need
    Service Level Indicators
    38
    Necesitamos Indicadores
    del Nivel de Servicio.

    View Slide

  39. @lizthegrey en #DevOpsDaysGDL
    SLIs and SLOs are common language.
    39
    SLIs y SLOs son idioma común.

    View Slide

  40. @lizthegrey en #DevOpsDaysGDL
    Think in terms of events in context.
    40
    Consideramos los eventos y sus contextos.

    View Slide

  41. @lizthegrey en #DevOpsDaysGDL
    Is this event good or bad?
    41
    Cómo sabemos si un evento es malo?

    View Slide

  42. @lizthegrey en #DevOpsDaysGDL
    Are users grumpy? Ask your PM.
    42
    Hay quejas? El gerente de producto saberá.

    View Slide

  43. @lizthegrey en #DevOpsDaysGDL
    What threshold buckets events?
    43
    Cuál es el umbral entre lo bueno y lo malo?

    View Slide

  44. @lizthegrey en #DevOpsDaysGDL
    HTTP Code 200? Latency < 300ms?
    44
    El código HTTP 200? Latencia < 300ms?

    View Slide

  45. @lizthegrey en #DevOpsDaysGDL
    How many eligible events did we see?
    45
    Cuántos eventos elegibles medimos?

    View Slide

  46. @lizthegrey en #DevOpsDaysGDL
    Availability: Good / Eligible Events
    46
    La disponibilidad = Buenos / Elegibles

    View Slide

  47. @lizthegrey en #DevOpsDaysGDL
    Set a target Service Level Objective.
    47
    Establezcas un Objetivo.

    View Slide

  48. @lizthegrey en #DevOpsDaysGDL
    Use a window and target percentage.
    48
    Tiene una ventana temporal y proporción.

    View Slide

  49. @lizthegrey en #DevOpsDaysGDL
    99.9% of events good in past 30 days.
    49
    99.9% de eventos del mes pasado serán buenos.

    View Slide

  50. @lizthegrey en #DevOpsDaysGDL
    A good SLO barely keeps users happy.
    50
    Apenas mantiene contentos al cliente.

    View Slide

  51. @lizthegrey en #DevOpsDaysGDL
    Drive alerting with SLOs.
    51
    Se puede usar SLOs para alertar.

    View Slide

  52. @lizthegrey en #DevOpsDaysGDL
    Error budget: allowed unavailability
    52
    El presupuesto de errores permitidos.

    View Slide

  53. @lizthegrey en #DevOpsDaysGDL
    How long until I run out?
    53
    Cuánto tiempo hasta se acabe?

    View Slide

  54. @lizthegrey en #DevOpsDaysGDL
    Page if it's hours.
    54
    Ticket if it's days.
    Envíe una alerta
    si tardará horas.
    Cree una tarea
    si tardará días.

    View Slide

  55. @lizthegrey en #DevOpsDaysGDL
    55
    Tenemos un gran problema.
    Uh oh, better wake someone up.

    View Slide

  56. @lizthegrey en #DevOpsDaysGDL
    Data-driven business decisions.
    56
    Decidas utilizando datos.

    View Slide

  57. @lizthegrey en #DevOpsDaysGDL
    Is it safe to do this risky experiment?
    57
    Es seguro probar esto?

    View Slide

  58. @lizthegrey en #DevOpsDaysGDL
    Should we invest in more reliability?
    58
    Debemos invertir en más confiabilidad?

    View Slide

  59. @lizthegrey en #DevOpsDaysGDL
    Perfect SLO > Good SLO >>> No SLO
    59
    Lo perfecto es enemigo de lo bueno.

    View Slide

  60. @lizthegrey en #DevOpsDaysGDL
    Measure what you can today.
    60
    Midas lo que puedes hoy.

    View Slide

  61. @lizthegrey en #DevOpsDaysGDL
    Iterate to meet user needs.
    61
    Seas flexible y cambias con necesidades.

    View Slide

  62. @lizthegrey en #DevOpsDaysGDL
    Only alert on what matters.
    62
    Sólo reciba alertas cuando es necesario.

    View Slide

  63. @lizthegrey en #DevOpsDaysGDL
    SLIs & SLOs are
    only half the picture...
    63
    SLIs sólo son
    la mitad de la solución...

    View Slide

  64. @lizthegrey en #DevOpsDaysGDL
    Our outages are never identical.
    64
    Los cortes nunca son los mismos.

    View Slide

  65. @lizthegrey en #DevOpsDaysGDL
    Failure modes can't be predicted.
    65
    No podemos saber cómo va a fallar.

    View Slide

  66. @lizthegrey en #DevOpsDaysGDL
    Tenemos que depurar fallas nuevas.
    66
    Debug novel cases. In production.

    View Slide

  67. @lizthegrey en #DevOpsDaysGDL
    Dive into data to ask new questions.
    67
    Formules preguntas nuevas con datos.

    View Slide

  68. @lizthegrey en #DevOpsDaysGDL
    Allow forming & testing hypotheses.
    68
    Tenemos que probar las hipótesis.

    View Slide

  69. @lizthegrey en #DevOpsDaysGDL
    Our services must be observable.
    69
    Necesitamos observabilidad.

    View Slide

  70. @lizthegrey en #DevOpsDaysGDL
    Can you examine events in context?
    70
    Conoces los eventos y sus contextos?

    View Slide

  71. @lizthegrey en #DevOpsDaysGDL
    Can you explain the variance?
    71
    Puedes explicar las diferencias?

    View Slide

  72. @lizthegrey en #DevOpsDaysGDL
    using relevant dimensions?
    72
    con las dimensiones pertinentes?

    View Slide

  73. @lizthegrey en #DevOpsDaysGDL
    Can you mitigate impact & debug later?
    73
    Puedes reparar antes y depurar después?

    View Slide

  74. @lizthegrey en #DevOpsDaysGDL
    Observability goes beyond break/fix.
    74
    Observabilidad mejora más que reparar.
    OPERATIONAL
    RESILIENCE
    MANAGED
    TECH DEBT
    QUALITY
    CODE
    PREDICTABLE
    RELEASE
    USER INSIGHT

    View Slide

  75. @lizthegrey en #DevOpsDaysGDL
    Observability isn't just the data.
    75
    Observabilidad es más que los datos.
    INSTRUMENT QUERY

    View Slide

  76. @lizthegrey en #DevOpsDaysGDL
    SLOs and Observability go together.
    76
    SLOs y Observabilidad funcionan juntos.

    View Slide

  77. @lizthegrey en #DevOpsDaysGDL
    But they alone don't
    create collaboration.
    77
    También necesitamos
    colaboración.

    View Slide

  78. @lizthegrey en #DevOpsDaysGDL
    Heroism isn't sustainable.
    78
    No podemos ser héroes por siempre.

    View Slide

  79. @lizthegrey en #DevOpsDaysGDL
    Debugging is not a solo activity.
    79
    No podemos depurar sólos.

    View Slide

  80. @lizthegrey en #DevOpsDaysGDL
    Debugging is for everyone.
    80
    Todos los puestos participan en depurar.

    View Slide

  81. @lizthegrey en #DevOpsDaysGDL
    Collaboration is interpersonal.
    81
    Tenemos que comunicar entre personas.

    View Slide

  82. @lizthegrey en #DevOpsDaysGDL
    Lean on your team.
    82
    Nuestro equipo puede ayudarnos.

    View Slide

  83. @lizthegrey en #DevOpsDaysGDL
    We learn better when we document.
    83
    Aprendemos más cuando documentamos.

    View Slide

  84. @lizthegrey en #DevOpsDaysGDL
    Fix hero culture. Share knowledge.
    84
    No habrá héroes si compartimos.

    View Slide

  85. @lizthegrey en #DevOpsDaysGDL
    Reward curiosity and teamwork.
    85
    Recompenses curiosidad y cooperación.

    View Slide

  86. @lizthegrey en #DevOpsDaysGDL
    86
    Improve the future by learning the past.
    Mejoras la futura cuando aprendas el pasado.

    View Slide

  87. @lizthegrey en #DevOpsDaysGDL
    Outages don't repeat, but they rhyme.
    87
    Los cortes tienen similaridades.

    View Slide

  88. @lizthegrey en #DevOpsDaysGDL
    Risk analysis
    helps us plan.
    88
    Cuando analizamos los
    riesgos, planificamos.

    View Slide

  89. @lizthegrey en #DevOpsDaysGDL
    Quantify risks by frequency & impact.
    89
    Los riesgos tienen frecuencias y efectos.

    View Slide

  90. @lizthegrey en #DevOpsDaysGDL
    Which risks are most significant?
    90
    Cuáles riesgos son los más peligrosos?

    View Slide

  91. @lizthegrey en #DevOpsDaysGDL
    Address risks that threaten the SLO.
    91
    Arregles riesgos que amenazan el SLO.

    View Slide

  92. @lizthegrey en #DevOpsDaysGDL
    Make the business case to fix them.
    92
    Tenemos razones para arreglarlos.

    View Slide

  93. @lizthegrey en #DevOpsDaysGDL
    And prioritize completing the work.
    93
    Y podemos priorizar la finalización.

    View Slide

  94. @lizthegrey en #DevOpsDaysGDL
    Don't waste time chrome polishing.
    94
    No debemos perder horas sin hacer nada.

    View Slide

  95. @lizthegrey en #DevOpsDaysGDL
    Lack of observability is systemic risk.
    95
    La falta de observabilidad es un riesgo.

    View Slide

  96. @lizthegrey en #DevOpsDaysGDL
    So is lack of collaboration.
    96
    Y la falta de colaboración también.

    View Slide

  97. @lizthegrey en #DevOpsDaysGDL
    97
    Success doesn't demand heroism.
    No necesitamos héroes para tener éxito.

    View Slide

  98. @lizthegrey en #DevOpsDaysGDL
    Season the alphabet soup with ProdEx
    98
    La sopa sabe más deliciosa con ProdEx

    View Slide

  99. @lizthegrey en #DevOpsDaysGDL
    ProdEx is easier with the right tools!
    99
    ProdEx es fácil con herramientas útiles!

    View Slide

  100. @lizthegrey en #DevOpsDaysGDL
    Excelencia de producción
    mejora los equipos.
    Medir. Depurar. Colaborar. Reparar.
    100
    lizthegrey.com; @lizthegrey
    PS tengo pegatinas!
    /liz

    View Slide

  101. @lizthegrey en #DevOpsDaysGDL
    Production Excellence
    brings teams closer together.
    Measure. Debug. Collaborate. Fix.
    101
    lizthegrey.com; @lizthegrey
    p.s. I have stickers!
    /liz

    View Slide