Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Flucht aus der DevOps-Hölle

Flucht aus der DevOps-Hölle

Du bist verantwortlich für das System: es fällt aus, die Benutzer merken es, informieren dich, und noch hast du keine Ahnung, was los ist, aber die Zeit läuft. Herzlich Willkommen in der DevOps-Hölle! In genau dieser Hölle fanden wir uns vor zwei Jahren mehr als einmal wieder. Da es so furchtbar ist, wie es sich anhört, machten wir uns auf die Reise, um dem Ganzen zu entkommen.

Um ehrlich zu sein, unser System fällt immer noch aus, aber wir haben viel dazugelernt. So sind wir heute in der Lage, rechtzeitig einzugreifen, sodass die Benutzer keine Auswirkungen zu spüren bekommen oder wir zumindest die Ausfallzeiten so kurz wie möglich halten.

Ich lade dich ein, uns auf der Reise zu begleiten und zu sehen, wie wir all die Dämonen besiegt haben, die wir unterwegs getroffen haben.

5.11.2019, W-JAX, München, https://jax.de/

Video der Englischen Variante: https://www.youtube.com/watch?v=EuKLna3wDww

Silvia Schreier

November 05, 2019
Tweet

More Decks by Silvia Schreier

Other Decks in Programming

Transcript

  1. Flucht aus der DevOps-Hölle Silvia Schreier, @aivlis_s W-JAX 2019, München

    Photo von JR Korpa https://unsplash.com/photos/-AsMlld5e2I
  2. Das System sollte glücklich bis zu seinem Lebensende laufen. Es

    gab sogar echte Benutzer. Photo von Anders Jildén https://unsplash.com/photos/O85h02qZ24w
  3. ~250 Microservices Kubernetes Cassandra, Solr, Kafka, Postgres JVM (Java, Kotlin,

    Clojure), Go, Python, Node.js, React 11 Teams ~80 Entwickler Benutzer sind METRO Kunden & Mitarbeiter 20 Länder Schnittstellen zu 20 anderen Systemen
  4. Informationen von den Benutzern Nichts geht. Das System ist langsam.

    Wir haben Performanzprobleme. Wir sehen falsche Daten. Photo von Jens Johnsson https://unsplash.com/photos/qFYBki6u3Ik
  5. Struktur und Fluss der Informationen von Benutzern verbessern Photo von

    Kelly Sikkema https://unsplash.com/photos/SiOW0btU0zk
  6. Zu Beginn fühlt man sich oft etwas verloren. Photo von

    Rosie Fraser https://unsplash.com/photos/1L71sPT5XKc
  7. Welche Metriken sind hilfreich? CPU, Memory, Network Traffic, Disk usage,

    I/O Request count, response times & status codes Threads & thread status
  8. Erweitere deinen Werkzeugkasten und teile ihn mit anderen. Photo von

    Hunter Haley https://unsplash.com/photos/s8OO2-t-HmQ
  9. Im Laufe der Zeit erkennt man die Muster. Hör auf

    dein Bauchgefühl! Photo von James McDonald https://unsplash.com/photos/GZMjMukr5zU
  10. Wie können wir anfangen das Feuer zu bekämpfen? Photo von

    Andrei Slobtsov https://unsplash.com/photos/7RfP8lLkHwI
  11. Have you tried turning it off and on again? Photo

    von Aleksandar Cvetanovic https://unsplash.com/photos/cw_uvISXkCI
  12. Lerne dein System und insbesondere seine Schwachstellen kennen. Photo von

    Michał Parzuchowski https://unsplash.com/photos/geNNFqfvw48
  13. um Abhängigkeiten und Seiteneffekte besser einschätzen zu können. Photo von

    Hunter Haley https://unsplash.com/photos/ZiQkhI7417A
  14. Es hilft auch besser zu priorisieren oder Zwischenlösungen zu finden.

    Photo von Cupcake Media https://unsplash.com/photos/JfOT-WwO1Ig
  15. Was ist wenn das Monitoring grün ist, in Wirklichkeit aber

    nicht alles ok ist? Photo von Katya Austin https://unsplash.com/photos/4Vg6ez9jaec
  16. Dein System ist nicht alleine! Es gibt so viel mehr.

    Photo von Bryan Goff https://unsplash.com/photos/RF4p4rTM-2s
  17. Es gibt Zufälle, die du niemals für möglich halten wirst.

    Photo von Brett Jordan https://unsplash.com/photos/4aB1nGtD_Sg
  18. Was passiert um mein System herum? Was passiert in meinem

    System? Probleme proaktiv verhindern
  19. Definiere Alerts, um von Problemen zu wissen, bevor Benutzer sie

    bemerken. Photo von Liam Briese https://unsplash.com/photos/8iwplTLLSWg
  20. Passe die Alerts im Laufe der Zeit an um Fehlalarme

    zu vermeiden. Photo von Filip Barna https://unsplash.com/photos/SlIu4D_rTPo
  21. Was passiert um mein System herum? Was passiert in meinem

    System? Probleme proaktiv verhindern Daten- getriebener Betrieb
  22. Wie ist die aktuelle Stabilität des Systems? Photo von Harshal

    Desai https://unsplash.com/photos/0hCIrw8dVfE
  23. Was sind die SLOs des Systems? Photo von Crystal Kwok

    https://unsplash.com/photos/9XsXOdkdxPQ
  24. Kommunikation Probleme proaktiv verhindern Was passiert um mein System herum?

    Was passiert in meinem System? Daten- getriebener Betrieb
  25. Kommunikation Verantwortung Probleme proaktiv verhindern Was passiert um mein System

    herum? Was passiert in meinem System? Daten- getriebener Betrieb
  26. Stelle klare Verantwortlichkeiten sicher und lerne sie zu schätzen. Photo

    von Anton Shuvalov https://unsplash.com/photos/tOJDsuU9MlE
  27. Programmierst du anders, wenn das Risiko besteht den Code morgens

    um 3 Uhr debuggen zu müssen? Photo von Bailey Torres https://unsplash.com/photos/C5vBBUkyBss
  28. Kommunikation Probleme proaktiv verhindern Was passiert um mein System herum?

    Was passiert in meinem System? Daten- getriebener Betrieb Verantwortung Menschen
  29. Vermeide Politik, aber lerne das Spiel! Photo von Ricardo Gomez

    Angel https://unsplash.com/photos/w6diABfADkg
  30. Unterschätze nicht den Wert des Wissens, wer bei einem Problem

    helfen kann. Photo von Brittany Colette https://unsplash.com/photos/GFLMi4c8XMg
  31. Probleme proaktiv verhindern Was passiert um mein System herum? Was

    passiert in meinem System? Daten- getriebener Betrieb Verantwortung Menschen Kultur Kommunikation
  32. Kommunikation Menschen Kultur Kontinuierliche Verbesserung Probleme proaktiv verhindern Was passiert

    um mein System herum? Was passiert in meinem System? Daten- getriebener Betrieb Verantwortung