Pro Yearly is on sale from $80 to $50! »

Flucht aus der DevOps-Hölle

Flucht aus der DevOps-Hölle

Du bist verantwortlich für das System: es fällt aus, die Benutzer merken es, informieren dich, und noch hast du keine Ahnung, was los ist, aber die Zeit läuft. Herzlich Willkommen in der DevOps-Hölle! In genau dieser Hölle fanden wir uns vor zwei Jahren mehr als einmal wieder. Da es so furchtbar ist, wie es sich anhört, machten wir uns auf die Reise, um dem Ganzen zu entkommen.

Um ehrlich zu sein, unser System fällt immer noch aus, aber wir haben viel dazugelernt. So sind wir heute in der Lage, rechtzeitig einzugreifen, sodass die Benutzer keine Auswirkungen zu spüren bekommen oder wir zumindest die Ausfallzeiten so kurz wie möglich halten.

Ich lade dich ein, uns auf der Reise zu begleiten und zu sehen, wie wir all die Dämonen besiegt haben, die wir unterwegs getroffen haben.

5.11.2019, W-JAX, München, https://jax.de/

Video der Englischen Variante: https://www.youtube.com/watch?v=EuKLna3wDww

285971c4a2aec35b8ab5f54cb66f7d1b?s=128

Silvia Schreier

November 05, 2019
Tweet

Transcript

  1. Flucht aus der DevOps-Hölle Silvia Schreier, @aivlis_s W-JAX 2019, München

    Photo von JR Korpa https://unsplash.com/photos/-AsMlld5e2I
  2. Märchenstunde Photo von hannah grace https://unsplash.com/photos/hIvsDdNT_f8

  3. Es war einmal Photo von Cederic X https://unsplash.com/photos/21DP3hytVHw

  4. ein Team mutiger Entwickler, Photo von Hugo L. Casanova https://unsplash.com/photos/GDre1q4wEJk

  5. die den Auftrag bekamen Photo von Ricardo Cruz https://unsplash.com/photos/P8LZaU52NME

  6. einen Webshop und Fulfillment-System für den Lebensmittelgroßhandel Photo von ja

    ma https://unsplash.com/photos/-gOUx23DNks
  7. zu entwickeln und zu betreiben. Photo von Fleur https://unsplash.com/photos/dQf7RZhMOJU

  8. Es gab gute Tage Photo von Johann Siemens https://unsplash.com/photos/EPy0gBJzzZU

  9. und weniger gute Tage. Photo von Dieter Pelz https://unsplash.com/photos/dQf7RZhMOJU

  10. Das System sollte glücklich bis zu seinem Lebensende laufen. Es

    gab sogar echte Benutzer. Photo von Anders Jildén https://unsplash.com/photos/O85h02qZ24w
  11. Doch plötzlich stand alles in Flammen. Photo von raquel raclette

    https://unsplash.com/photos/MYjFOiVWWT8
  12. Willkommen in der DevOps-Hölle! Photo von JR Korpa https://unsplash.com/photos/-AsMlld5e2I

  13. ~250 Microservices Kubernetes Cassandra, Solr, Kafka, Postgres JVM (Java, Kotlin,

    Clojure), Go, Python, Node.js, React 11 Teams ~80 Entwickler Benutzer sind METRO Kunden & Mitarbeiter 20 Länder Schnittstellen zu 20 anderen Systemen
  14. Wo geht’s hier raus? Photo von Carolina Pimenta https://unsplash.com/photos/ELO-NmuvFCM

  15. Wo brennt es überhaupt? Photo von Jens Johnsson https://unsplash.com/photos/qFYBki6u3Ik

  16. Was passiert in meinem System?

  17. Informationen von den Benutzern Nichts geht. Das System ist langsam.

    Wir haben Performanzprobleme. Wir sehen falsche Daten. Photo von Jens Johnsson https://unsplash.com/photos/qFYBki6u3Ik
  18. Struktur und Fluss der Informationen von Benutzern verbessern Photo von

    Kelly Sikkema https://unsplash.com/photos/SiOW0btU0zk
  19. Was brennt? Photo von Jens Johnsson https://unsplash.com/photos/qFYBki6u3Ik

  20. Die Entwickler suchen währenddessen Photo von Jan Voth https://janvoth.com/

  21. in den Logs nach Anhaltspunkten. Photo von Cristina Gottardi https://unsplash.com/photos/8hJQKRIQZMY

  22. Monitoring ist dein Freund! Photo von Chris Leipelt https://unsplash.com/photos/4UgUpo3YdKk

  23. Monitoring ist dein Freund!

  24. Zu Beginn fühlt man sich oft etwas verloren. Photo von

    Rosie Fraser https://unsplash.com/photos/1L71sPT5XKc
  25. Welche Metriken sind hilfreich? CPU, Memory, Network Traffic, Disk usage,

    I/O Request count, response times & status codes Threads & thread status
  26. Erweitere deinen Werkzeugkasten und teile ihn mit anderen. Photo von

    Hunter Haley https://unsplash.com/photos/s8OO2-t-HmQ
  27. Im Laufe der Zeit erkennt man die Muster. Hör auf

    dein Bauchgefühl! Photo von James McDonald https://unsplash.com/photos/GZMjMukr5zU
  28. Manchmal versteht man die Graphen nicht, aber erkennt die Muster.

  29. Wie können wir anfangen das Feuer zu bekämpfen? Photo von

    Andrei Slobtsov https://unsplash.com/photos/7RfP8lLkHwI
  30. Have you tried turning it off and on again? Photo

    von Aleksandar Cvetanovic https://unsplash.com/photos/cw_uvISXkCI
  31. Lerne dein System und insbesondere seine Schwachstellen kennen. Photo von

    Michał Parzuchowski https://unsplash.com/photos/geNNFqfvw48
  32. Verstehe die Fachlichkeit und wie das System eingesetzt wird,

  33. um Abhängigkeiten und Seiteneffekte besser einschätzen zu können. Photo von

    Hunter Haley https://unsplash.com/photos/ZiQkhI7417A
  34. Es hilft auch besser zu priorisieren oder Zwischenlösungen zu finden.

    Photo von Cupcake Media https://unsplash.com/photos/JfOT-WwO1Ig
  35. Was passiert um mein System herum? Was passiert in meinem

    System?
  36. Was ist wenn das Monitoring grün ist, in Wirklichkeit aber

    nicht alles ok ist? Photo von Katya Austin https://unsplash.com/photos/4Vg6ez9jaec
  37. Dein System ist nicht alleine! Es gibt so viel mehr.

    Photo von Bryan Goff https://unsplash.com/photos/RF4p4rTM-2s
  38. Lerne die Umgebung kennen! Photo von Silas Baisch https://unsplash.com/photos/bNpAPNJCHsY

  39. Überwache dein System von verschiedenen Punkten. Photo von Donald Giannatti

    https://unsplash.com/photos/Wj1D-qiOseE
  40. Es gibt Zufälle, die du niemals für möglich halten wirst.

    Photo von Brett Jordan https://unsplash.com/photos/4aB1nGtD_Sg
  41. Was passiert um mein System herum? Was passiert in meinem

    System? Probleme proaktiv verhindern
  42. Identifiziere Vorboten und Anomalien in vergangenen Vorfällen. Photo von Michael

    Dam https://unsplash.com/photos/RF4p4rTM-2s
  43. Definiere Alerts, um von Problemen zu wissen, bevor Benutzer sie

    bemerken. Photo von Liam Briese https://unsplash.com/photos/8iwplTLLSWg
  44. Passe die Alerts im Laufe der Zeit an um Fehlalarme

    zu vermeiden. Photo von Filip Barna https://unsplash.com/photos/SlIu4D_rTPo
  45. Was passiert um mein System herum? Was passiert in meinem

    System? Probleme proaktiv verhindern Daten- getriebener Betrieb
  46. Wie ist die aktuelle Stabilität des Systems? Photo von Harshal

    Desai https://unsplash.com/photos/0hCIrw8dVfE
  47. Was sind die SLIs des Systems? Antwortzeiten Fehlerrate Verfügbarkeit /

    Latenz Funktionalität
  48. Was ist das Ziel? Photo von Annie Spratt https://unsplash.com/photos/t3IYuQZRDNE

  49. Was sind die SLOs des Systems? Photo von Crystal Kwok

    https://unsplash.com/photos/9XsXOdkdxPQ
  50. Kommunikation Probleme proaktiv verhindern Was passiert um mein System herum?

    Was passiert in meinem System? Daten- getriebener Betrieb
  51. Direkte Kommunikation ist der Schlüssel. Photo von Paweł Czerwiński https://unsplash.com/photos/-0xCCPIbl3M

    Photo von Kirsty TG https://unsplash.com/photos/xmY3qMBfzBs
  52. Kommunikation Verantwortung Probleme proaktiv verhindern Was passiert um mein System

    herum? Was passiert in meinem System? Daten- getriebener Betrieb
  53. Stelle klare Verantwortlichkeiten sicher und lerne sie zu schätzen. Photo

    von Anton Shuvalov https://unsplash.com/photos/tOJDsuU9MlE
  54. Programmierst du anders, wenn das Risiko besteht den Code morgens

    um 3 Uhr debuggen zu müssen? Photo von Bailey Torres https://unsplash.com/photos/C5vBBUkyBss
  55. Kommunikation Probleme proaktiv verhindern Was passiert um mein System herum?

    Was passiert in meinem System? Daten- getriebener Betrieb Verantwortung Menschen
  56. Es geht um Menschen & Kooperation. Photo von Jan Voth

    https://janvoth.com/
  57. Baue dir ein Netzwerk auf. Kenne deine Kontaktpersonen. Photo von

    Jan Voth https://janvoth.com/
  58. Sei nett! Sammle Karma und investiere es gezielt! Photo von

    Jan Voth https://janvoth.com/
  59. Vermeide Politik, aber lerne das Spiel! Photo von Ricardo Gomez

    Angel https://unsplash.com/photos/w6diABfADkg
  60. Unterschätze nicht den Wert des Wissens, wer bei einem Problem

    helfen kann. Photo von Brittany Colette https://unsplash.com/photos/GFLMi4c8XMg
  61. Probleme proaktiv verhindern Was passiert um mein System herum? Was

    passiert in meinem System? Daten- getriebener Betrieb Verantwortung Menschen Kultur Kommunikation
  62. Akzeptiere, dass dein System kaputt gehen wird! Photo von chuttersnap

    https://unsplash.com/photos/cGXdjyP6-NU
  63. Sei vorbereitet. Hab einen Plan. Photo von Glenn Carstens-Peters https://unsplash.com/photos/RLw-UC03Gwc

  64. Post Mortems und Fehlerkultur Photo von Agence Olloweb https://unsplash.com/photos/d9ILr-dbEdg

  65. Kommunikation Menschen Kultur Kontinuierliche Verbesserung Probleme proaktiv verhindern Was passiert

    um mein System herum? Was passiert in meinem System? Daten- getriebener Betrieb Verantwortung
  66. Don’t panic! Photo von Dharm Singh https://unsplash.com/photos/S2eX-jJSiOM

  67. Viel Erfolg bei deiner Flucht! Photo von JR Korpa https://unsplash.com/photos/-AsMlld5e2I

  68. @aivlis_s @wearemetronom Photo von Jan Voth https://janvoth.com/