Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Christian Uhl: Ein Herz für Produktion

Christian Uhl: Ein Herz für Produktion

Talk: Ein Herz für Produktion (15 min)

„You build it, you run it“ ist einfach gesagt, aber deswegen kann man es ja noch lange nicht. Welche „Methoden“ gibt es, um ein Entwicklungsteam von „Runs on my Machine“ zu „Owns the Service“ zu bringen? Bei Matmatch sind wir mit so einem Problem gestartet (es gibt keine Operators) und haben es die letzten drei Jahre ohne Downtime, Dataleaks und Datenverlust geschafft. Lasst uns über Monitoring und Observability reden und wie man diese Infrastruktur in den Griff bekommt.

Speaker: Christian Uhl

Christian war einige Jahre lang als Senior Software Consultant bei der codecentric AG tätig, bevor er als Head of Engineering zu Matmatch kam. Mittlerweile hat er eine große Vielfalt an verteilten Systemen gesehen und eine Vielzahl von Fehlern gemacht, die er jetzt teilen kann. Er interessiert sich besonders für verteilte Systeme und Microservices-Architekturen und ist immer neugierig, wie all diese Teile zusammenpassen.

More Decks by SoftwerkerKonf - Der Softwerker als Konferenz

Other Decks in Technology

Transcript

  1. EIN ❤ FÜR EIN ❤ FÜR PRODUKTION PRODUKTION YOU-BUILD-IT-YOU-RUN-IT SOFORTHILFE

    FÜR KLEINE YOU-BUILD-IT-YOU-RUN-IT SOFORTHILFE FÜR KLEINE ENTWICKLUNGSTEAMS ENTWICKLUNGSTEAMS Christian Uhl
  2. Seit ~3 Jahren durchgehend "on call" Kein OPS aber 220.000

    Monthly Active Users und 7 Entwickler*Innen
  3. Seit ~3 Jahren durchgehend "on call" Kein OPS aber 220.000

    Monthly Active Users und 7 Entwickler*Innen Insgesamt wohl so 10 Minuten Downtime vom Matmatch.com
  4. Seit ~3 Jahren durchgehend "on call" Kein OPS aber 220.000

    Monthly Active Users und 7 Entwickler*Innen Insgesamt wohl so 10 Minuten Downtime vom Matmatch.com Immerhin kein permanenter Datenverlust
  5. MÖGLICHKEITEN DEVOPS FALSCH ZU MÖGLICHKEITEN DEVOPS FALSCH ZU MACHEN: MACHEN:

    1. alle OPS Menschen einfach DevOps nennen und nach Hause gehen.
  6. MÖGLICHKEITEN DEVOPS FALSCH ZU MÖGLICHKEITEN DEVOPS FALSCH ZU MACHEN: MACHEN:

    1. alle OPS Menschen einfach DevOps nennen und nach Hause gehen. 2. Einfach kein OPS haben, wird schon schiefgehen.
  7. WIR HABEN UNS FÜR FEHLER ZWEI WIR HABEN UNS FÜR

    FEHLER ZWEI ENTSCHIEDEN ENTSCHIEDEN Wenn man kein Operations / Betrieb hat, dann muss man es wohl selber machen. Aber die meisten Entwickler*Innen wissen nicht wie so was geht.
  8. EMPATHIE EMPATHIE Um gut darin zu werden, ein System am

    laufen zu halten, muss man zuerst Empathie zum System aufbauen.
  9. TÄGLICHER CHECK IN TÄGLICHER CHECK IN COPS OF THE DAY

    COPS OF THE DAY Jeden Morgen arbeitet ein zufälliges Paar von Entwickler*Innen die Checkliste ab Sind alle Systeme okay? Was ist in den letzten 24 Stunden passiert? Wie sind die Fehlerbudgets?
  10. CHATOPS CHATOPS Das System sollte regelmässig Lebenszeichen geben, damit man

    immer mitbekommt dass es lebt und Mehrwert bringt. Am besten eignen sich Geschäftsevents (Benutzer registriert sich, führt eine Aktion aus...)
  11. SEI ON CALL SEI ON CALL Nichts erinnert dich mehr

    an Qualität, wie wenn dich der Mangel an Qualität um 3 Uhr morgens anruft.
  12. WISSEN WISSEN In den meisten diversen Teams gibt es ein

    wenig Wissen wie man ein Produktionssystem am laufen hält. Die Kunst ist jetzt diese Wissen zu verteilen.
  13. BLAMELESS POST-MORTEMS BLAMELESS POST-MORTEMS Beschreibung des Fehlers (mit root cause)

    Impact: Wer war betroffen, für wie lang? Welche Daten sind jetzt weg?
  14. BLAMELESS POST-MORTEMS BLAMELESS POST-MORTEMS Beschreibung des Fehlers (mit root cause)

    Impact: Wer war betroffen, für wie lang? Welche Daten sind jetzt weg? Beschreibung der "Stop the Bleeding" Aktion
  15. BLAMELESS POST-MORTEMS BLAMELESS POST-MORTEMS Beschreibung des Fehlers (mit root cause)

    Impact: Wer war betroffen, für wie lang? Welche Daten sind jetzt weg? Beschreibung der "Stop the Bleeding" Aktion Beschreibung des "vernünftigen" Fixes
  16. BLAMELESS POST-MORTEMS BLAMELESS POST-MORTEMS Beschreibung des Fehlers (mit root cause)

    Impact: Wer war betroffen, für wie lang? Welche Daten sind jetzt weg? Beschreibung der "Stop the Bleeding" Aktion Beschreibung des "vernünftigen" Fixes Am wichtigsten: Welche Prozessverbesserung braucht es, damit das nicht nochmal passieren kann?
  17. HOLT EUCH HILFE! HOLT EUCH HILFE! Ohne die Tipps von

    Freunden und Bekannten hätte ich das nicht geschafft
  18. HOLT EUCH HILFE! HOLT EUCH HILFE! Ohne die Tipps von

    Freunden und Bekannten hätte ich das nicht geschafft geht offen damit um was ihr nicht könnt
  19. HOLT EUCH HILFE! HOLT EUCH HILFE! Ohne die Tipps von

    Freunden und Bekannten hätte ich das nicht geschafft geht offen damit um was ihr nicht könnt Redet miteinander / in euerem Netzwerk / geht auf Meetups
  20. HOLT EUCH HILFE! HOLT EUCH HILFE! Ohne die Tipps von

    Freunden und Bekannten hätte ich das nicht geschafft geht offen damit um was ihr nicht könnt Redet miteinander / in euerem Netzwerk / geht auf Meetups Im schlimmsten Fall gibts ja noch Consulting-Firmen ;-)
  21. ZUSAMMENFASSUNG ZUSAMMENFASSUNG Mit Empathie und Wissen kann man ein System

    am Leben halten ❤ ABER ABER Lasst euch nicht täuschen, mit Pro s wäre es besser. Versucht langfristig dedizierte Personen für das Thema zu nden wenn euer Team/Firma/Startup wächst