Evolution im Monitoring (German)

Evolution im Monitoring (German)

This is the Presentation at the OSMC 2011 (in German), its about the Monitoring Framework we tinkered at wer-kennt-wen.de with open-source-tools and what we called 'grocksta'.

Die Präsentation wurde aufgezeichnet und kann sich auf Youtube angesehen werden; http://youtu.be/qpbrtJyy3lc

8bf1b7d831c3818f6f3997e260f9ad3d?s=128

Jan Doberstein

November 30, 2011
Tweet

Transcript

  1. Die Evolution im Monitoring Monitoring bei RTLs wer-kennt-wen.de mit free

    und open source Software
  2. Über uns •  Internet-Plattform •  Soziales Netzwerk •  Registrierung ab

    14 Jahren möglich •  Kostenlos •  Gründung: 3. Oktober 2006 •  Über 9 Mio. Mitglieder •  Über 80 Mitarbeiter •  6,36 Mio. Unique User pro Monat •  Firmensitz in Köln
  3. Über mich Systemadministrator •  Überwachung •  Betrieb DevOp •  Weiterentwicklung

    •  Agiles Arbeiten in allen Bereichen Jan Doberstein
  4. Damals™ 1. Produktentwicklung 2. Markteinführung 3. Neue Hardware Nagios Cacti

    Monitoring!
  5. Entwicklung Okt. 06 Apr. 07 Nov. 07 Jun. 08 Dez.

    08 Jul. 09 Jan. 10 Aug. 10 > 500 Server Serverwachstum Rasantes Wachstum §  Dezember 2007 1 Mio. User §  September 2008 4 Mio. User §  April 2010 8 Mio. User
  6. Aufbau §  Webserver §  Bilder §  Statischer Content §  Cache

    §  Middleware (Suche, Kontaktpfad) §  Datenbanken §  Speicher (Bilder)
  7. Aufbau Monitoring 55 Messpunkte in der Sekunde Monolithische Architektur nur

    vertikal Skalierbar Cacti Nagios plain Vanilla Leistungsgrenzen & Nutzbarkeit
  8. Problem? §  Sequentielle Bearbeitung §  Komplexe Ereigniskette §  Komplizierte Wartung

    §  Messlücken
  9. Problem? §  Modellgetriebene Metriken §  Datenbank als Flaschenhals §  Nicht

    persistierte Daten können nicht ausgewertet werden! Referenzhardware CPU: HP DL380 8 Core Xeon X5450 @ 3 GHz RAM: 32 GByte ECC HD: Controller P400 / RAID5 6x HP SAS mit 10.000 RPM DB: MySQL 5.0.92 mit InnoDB Storage-Engine bei 70% Bufferpool/Memory OS: Linux wkwdb-fra99 2.6.18-4-amd64 #1 SMP Fri May 4 00:37:33 UTC 2007 x86_64 GNU/Linux
  10. Problem? §  Fehleranfälliger Workflow §  Kanban: tägliches Deployment §  Applikationsupdates

    betrifft auch das Monitoring
  11. Problem!

  12. Evolution grocksta schnell, dynamisch, stabil

  13. grocksta graphite §  Speicherung §  Darstellung rocksteady §  Middleware § 

    Business Logik statsd §  Aggregation §  Mittelwertbildung
  14. Architektur

  15. Kommunikation §  UDP für schnelle Updateintervalle §  Metriken können aggregiert

    werden §  (UDP miss unter 1 Promille) §  TCP für garantierte Übertragung §  Middleware arbeitet mit Metriken §  Queue ist nur der Transport
  16. Speicherung Retentions = Auflösung [s]:Anzahl Messpunkte graphite http://graphite.wikidot.com

  17. Business Logik rocksteady http://code.google.com/p/rocksteady

  18. Aggregation statsd "A network daemon for aggregating statistics (counters and

    timers), rolling them up, then sending them to graphite." https://github.com/etsy/statsd/blob/master/README.md https://github.com/etsy/statsd
  19. Darstellung graphite API ! Opsview Dashboard (Nagios Checks) http://graphite.wikidot.com

  20. © Pieter Morlion (pieter.morlion @ flickr )

  21. Erstellung (Dev) §  Code getriebene Metriken §  Events §  Dynamische

    Metriken §  Wenig Code
  22. Erstellung (Op) root@cacti:~# echo "sys.$(hostname).users.loggedin \ $(who|wc –l) \ $(date

    +%s)" \ | netcat –u statsd 6667
  23. Erstellung (Op)

  24. grocksta vs. cacti

  25. Zusammenfassung §  Monitoring ist agiler geworden §  Trends können schneller

    erkannt werden §  Mehr Messmöglichkeiten §  Ein genauerer Blick auf das Ganze
  26. Fragen? © Valerie Everett (valeriebb @ flickr)

  27. Danke Jan Doberstein jan.doberstein@wer-kennt-wen.de @jalogisch