Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Evolution im Monitoring (German)

Evolution im Monitoring (German)

This is the Presentation at the OSMC 2011 (in German), its about the Monitoring Framework we tinkered at wer-kennt-wen.de with open-source-tools and what we called 'grocksta'.

Die Präsentation wurde aufgezeichnet und kann sich auf Youtube angesehen werden; http://youtu.be/qpbrtJyy3lc

Jan Doberstein

November 30, 2011
Tweet

More Decks by Jan Doberstein

Other Decks in Technology

Transcript

  1. Die Evolution im Monitoring
    Monitoring bei RTLs wer-kennt-wen.de mit free und open source Software

    View Slide

  2. Über uns
    •  Internet-Plattform
    •  Soziales Netzwerk
    •  Registrierung ab 14 Jahren möglich
    •  Kostenlos
    •  Gründung: 3. Oktober 2006
    •  Über 9 Mio. Mitglieder
    •  Über 80 Mitarbeiter
    •  6,36 Mio. Unique User pro Monat
    •  Firmensitz in Köln

    View Slide

  3. Über mich
    Systemadministrator
    •  Überwachung
    •  Betrieb
    DevOp
    •  Weiterentwicklung
    •  Agiles Arbeiten in allen Bereichen
    Jan Doberstein

    View Slide

  4. Damals™
    1. Produktentwicklung
    2. Markteinführung
    3. Neue Hardware
    Nagios Cacti
    Monitoring!

    View Slide

  5. Entwicklung
    Okt. 06
    Apr. 07
    Nov. 07
    Jun. 08
    Dez. 08
    Jul. 09
    Jan. 10
    Aug. 10
    > 500 Server
    Serverwachstum
    Rasantes Wachstum
    §  Dezember 2007 1 Mio. User
    §  September 2008 4 Mio. User
    §  April 2010 8 Mio. User

    View Slide

  6. Aufbau
    §  Webserver
    §  Bilder
    §  Statischer Content
    §  Cache
    §  Middleware (Suche, Kontaktpfad)
    §  Datenbanken
    §  Speicher (Bilder)

    View Slide

  7. Aufbau Monitoring
    55 Messpunkte in der Sekunde
    Monolithische Architektur
    nur vertikal Skalierbar
    Cacti
    Nagios
    plain Vanilla
    Leistungsgrenzen & Nutzbarkeit

    View Slide

  8. Problem?
    §  Sequentielle Bearbeitung
    §  Komplexe Ereigniskette
    §  Komplizierte Wartung
    §  Messlücken

    View Slide

  9. Problem?
    §  Modellgetriebene Metriken
    §  Datenbank als Flaschenhals
    §  Nicht persistierte Daten können
    nicht ausgewertet werden!
    Referenzhardware
    CPU: HP DL380 8 Core Xeon X5450 @ 3 GHz
    RAM: 32 GByte ECC
    HD: Controller P400 / RAID5 6x HP SAS mit 10.000 RPM
    DB: MySQL 5.0.92 mit InnoDB Storage-Engine bei 70% Bufferpool/Memory
    OS: Linux wkwdb-fra99 2.6.18-4-amd64 #1 SMP Fri May 4 00:37:33 UTC 2007 x86_64 GNU/Linux

    View Slide

  10. Problem?
    §  Fehleranfälliger Workflow
    §  Kanban: tägliches Deployment
    §  Applikationsupdates betrifft auch das Monitoring

    View Slide

  11. Problem!

    View Slide

  12. Evolution
    grocksta
    schnell, dynamisch, stabil

    View Slide

  13. grocksta
    graphite
    §  Speicherung
    §  Darstellung
    rocksteady
    §  Middleware
    §  Business Logik
    statsd
    §  Aggregation
    §  Mittelwertbildung

    View Slide

  14. Architektur

    View Slide

  15. Kommunikation
    §  UDP für schnelle Updateintervalle
    §  Metriken können aggregiert werden
    §  (UDP miss unter 1 Promille)
    §  TCP für garantierte Übertragung
    §  Middleware arbeitet mit Metriken
    §  Queue ist nur der Transport

    View Slide

  16. Speicherung
    Retentions = Auflösung [s]:Anzahl Messpunkte
    graphite
    http://graphite.wikidot.com

    View Slide

  17. Business Logik
    rocksteady
    http://code.google.com/p/rocksteady

    View Slide

  18. Aggregation
    statsd
    "A network daemon for aggregating statistics
    (counters and timers), rolling them up, then
    sending them to graphite."
    https://github.com/etsy/statsd/blob/master/README.md
    https://github.com/etsy/statsd

    View Slide

  19. Darstellung
    graphite
    API !
    Opsview
    Dashboard
    (Nagios Checks)
    http://graphite.wikidot.com

    View Slide

  20. © Pieter Morlion (pieter.morlion @ flickr )

    View Slide

  21. Erstellung (Dev)
    §  Code getriebene Metriken
    §  Events
    §  Dynamische Metriken
    §  Wenig Code

    View Slide

  22. Erstellung (Op)
    root@cacti:~# echo "sys.$(hostname).users.loggedin \
    $(who|wc –l) \
    $(date +%s)" \
    | netcat –u statsd 6667

    View Slide

  23. Erstellung (Op)

    View Slide

  24. grocksta vs. cacti

    View Slide

  25. Zusammenfassung
    §  Monitoring ist agiler
    geworden
    §  Trends können schneller
    erkannt werden
    §  Mehr Messmöglichkeiten
    §  Ein genauerer Blick auf das
    Ganze

    View Slide

  26. Fragen?
    © Valerie Everett (valeriebb @ flickr)

    View Slide

  27. Danke
    Jan Doberstein
    [email protected]
    @jalogisch

    View Slide