Evolution im Monitoring (German)

Die Evolution im Monitoring Monitoring bei RTLs wer-kennt-wen.de mit free
und open source Software

Über uns •  Internet-Plattform •  Soziales Netzwerk •  Registrierung ab
14 Jahren möglich •  Kostenlos •  Gründung: 3. Oktober 2006 •  Über 9 Mio. Mitglieder •  Über 80 Mitarbeiter •  6,36 Mio. Unique User pro Monat •  Firmensitz in Köln

Über mich Systemadministrator •  Überwachung •  Betrieb DevOp •  Weiterentwicklung
•  Agiles Arbeiten in allen Bereichen Jan Doberstein

Damals™ 1. Produktentwicklung 2. Markteinführung 3. Neue Hardware Nagios Cacti
Monitoring!

Entwicklung Okt. 06 Apr. 07 Nov. 07 Jun. 08 Dez.
08 Jul. 09 Jan. 10 Aug. 10 > 500 Server Serverwachstum Rasantes Wachstum §  Dezember 2007 1 Mio. User §  September 2008 4 Mio. User §  April 2010 8 Mio. User

Aufbau §  Webserver §  Bilder §  Statischer Content §  Cache
§  Middleware (Suche, Kontaktpfad) §  Datenbanken §  Speicher (Bilder)

Aufbau Monitoring 55 Messpunkte in der Sekunde Monolithische Architektur nur
vertikal Skalierbar Cacti Nagios plain Vanilla Leistungsgrenzen & Nutzbarkeit

Problem? §  Sequentielle Bearbeitung §  Komplexe Ereigniskette §  Komplizierte Wartung
§  Messlücken

Problem? §  Modellgetriebene Metriken §  Datenbank als Flaschenhals §  Nicht
persistierte Daten können nicht ausgewertet werden! Referenzhardware CPU: HP DL380 8 Core Xeon X5450 @ 3 GHz RAM: 32 GByte ECC HD: Controller P400 / RAID5 6x HP SAS mit 10.000 RPM DB: MySQL 5.0.92 mit InnoDB Storage-Engine bei 70% Bufferpool/Memory OS: Linux wkwdb-fra99 2.6.18-4-amd64 #1 SMP Fri May 4 00:37:33 UTC 2007 x86_64 GNU/Linux

Problem? §  Fehleranfälliger Workflow §  Kanban: tägliches Deployment §  Applikationsupdates
betrifft auch das Monitoring

Problem!

Evolution grocksta schnell, dynamisch, stabil

grocksta graphite §  Speicherung §  Darstellung rocksteady §  Middleware § 
Business Logik statsd §  Aggregation §  Mittelwertbildung

Architektur

Kommunikation §  UDP für schnelle Updateintervalle §  Metriken können aggregiert
werden §  (UDP miss unter 1 Promille) §  TCP für garantierte Übertragung §  Middleware arbeitet mit Metriken §  Queue ist nur der Transport

Speicherung Retentions = Auflösung [s]:Anzahl Messpunkte graphite http://graphite.wikidot.com

Business Logik rocksteady http://code.google.com/p/rocksteady

Aggregation statsd "A network daemon for aggregating statistics (counters and
timers), rolling them up, then sending them to graphite." https://github.com/etsy/statsd/blob/master/README.md https://github.com/etsy/statsd

Darstellung graphite API ! Opsview Dashboard (Nagios Checks) http://graphite.wikidot.com

Erstellung (Dev) §  Code getriebene Metriken §  Events §  Dynamische
Metriken §  Wenig Code

Erstellung (Op) root@cacti:~# echo "sys.$(hostname).users.loggedin \ $(who|wc –l) \ $(date
+%s)" \ | netcat –u statsd 6667

Erstellung (Op)

grocksta vs. cacti

Zusammenfassung §  Monitoring ist agiler geworden §  Trends können schneller
erkannt werden §  Mehr Messmöglichkeiten §  Ein genauerer Blick auf das Ganze

Danke Jan Doberstein [email protected] @jalogisch

Evolution im Monitoring (German)

Evolution im Monitoring (German)

Jan Doberstein

More Decks by Jan Doberstein

Other Decks in Technology

Featured

Transcript

Die Evolution im Monitoring Monitoring bei RTLs wer-kennt-wen.de mit free

Über uns •  Internet-Plattform •  Soziales Netzwerk •  Registrierung ab

Über mich Systemadministrator •  Überwachung •  Betrieb DevOp •  Weiterentwicklung

Damals™ 1. Produktentwicklung 2. Markteinführung 3. Neue Hardware Nagios Cacti

Entwicklung Okt. 06 Apr. 07 Nov. 07 Jun. 08 Dez.

Aufbau §  Webserver §  Bilder §  Statischer Content §  Cache

Aufbau Monitoring 55 Messpunkte in der Sekunde Monolithische Architektur nur

Problem? §  Sequentielle Bearbeitung §  Komplexe Ereigniskette §  Komplizierte Wartung

Problem? §  Modellgetriebene Metriken §  Datenbank als Flaschenhals §  Nicht

Problem? §  Fehleranfälliger Workflow §  Kanban: tägliches Deployment §  Applikationsupdates

Problem!

Evolution grocksta schnell, dynamisch, stabil

grocksta graphite §  Speicherung §  Darstellung rocksteady §  Middleware §

Architektur

Kommunikation §  UDP für schnelle Updateintervalle §  Metriken können aggregiert

Speicherung Retentions = Auflösung [s]:Anzahl Messpunkte graphite http://graphite.wikidot.com

Business Logik rocksteady http://code.google.com/p/rocksteady

Aggregation statsd "A network daemon for aggregating statistics (counters and

Darstellung graphite API ! Opsview Dashboard (Nagios Checks) http://graphite.wikidot.com

© Pieter Morlion (pieter.morlion @ flickr )

Erstellung (Dev) §  Code getriebene Metriken §  Events §  Dynamische

Erstellung (Op) root@cacti:~# echo "sys.$(hostname).users.loggedin \ $(who|wc –l) \ $(date

Erstellung (Op)

grocksta vs. cacti

Zusammenfassung §  Monitoring ist agiler geworden §  Trends können schneller

Fragen? © Valerie Everett (valeriebb @ flickr)

Danke Jan Doberstein [email protected] @jalogisch