LyonJug : centralisation des logs 2014/01

Devinette Que peut-on faire avec : • un morceau de
bois • un lapin • un bonsai • une cahute

Vladislav Pernin @vladislavpernin Centraliser des logs 21/01/2014

Agenda • Pourquoi • Live coding • Supervision @ERDF •
Retour d'expérience

Pourquoi • Beaucoup de serveurs • Accès aux machines limité
ou impossible • Ninja du | sed awk tail cat grep • Simplifier l'accès • Diagnostic • Statistiques / performance

Cible • Système temps réel (1s) • Robuste • Scalable
• Sans perte • Recherche facile • Complexité limitée

Source Logstash Book Architecture globale

Live coding

Centralisation des logs & supervision @ERDF

Architecture - Supervision

Supervision @ERDF

Retour expérience

Logstash Le plus riche fonctionnellement

Packaging one jar

Packages officiels deb et RPM depuis fin 2013 fournis par
elasticsearch

Rapide à mettre en œuvre

Bonne communauté

Encore jeune et mouvant Format des events va/a évolué Fait
désormais partie d'elasticsearch

Migration vers 1.2.x lourde à effectuer Codec Nouveau schéma JSON
@fields.maprop -> maprop sélection par type -> conditional

Problème de jeunesse désormais résolu tel que 40s de temps
de démarrage

Tail intelligent : rotation multi-ligne avec regexp sur début &
fin détection nouveaux fichiers wildcard et récursif exclusion start_position

Syslog Pratique pour les logs d'appliance

Découpage via grok Pattern custom WEBLOGIC_SERVER ####<%{WLSDATE:date}> <%{WORD:level}> <% {DATA:appender}>
<%{DATA:hostname}> <%{DATA:servername}> <% {DATA:threadname}> <?(?:<)?%{DATA:subsystem}?(?:>)?> <% {DATA:new_data_1}> <> <%{DATA:datenouse}> <%{DATA:beacode}> <% {WLS_MESSAGE:wlsmessage}>

Très puissant mais pas facilement dégogable regex à optimiser pour
la performance voir grokdebug.cloudfoundry.com

Tests unitaires/performances sur Grok indispensables

input exec sur des scripts SQL ex : statistiques détaillées
sur les requêtes SQL Oracle capturées par le Grid

Très extensible (ex : attente correction bug, PR, customisation)

Exemple de customisation : Retry sur la création de la
river ES Gestion d'une liste de brokers

Option -w nombre de threads des filtres, axe de tuning
intéressant

if watchdog_timeout then; echo Probleme, sans doute sur les regex
de Grok fi Process watcher (cron/supervisord) et redémarrage

Le watchdog_timeout peut arriver sur le parsing d'une énorme log
Exemple : avec un AOPLogger sur les arguments sans limite !

Assez performant mais empreinte CPU importante en charge Rapport gain
/ coût : Ok pour 50-100 lignes/s < 1-5% CPU 2000 lignes/s 150% CPU

Amélioration des performances notable depuis la version 1.2.x

Shipper light, feature -, perf +, jeune, à surveiller Exemple
: logstash-forwarder (anciennement Lumberjack)

RabbitMQ pas conseillé par le fondateur car « complexité, standard
mouvant et performance en mode persistant » Conseille redis ou zeromq … persistence, sécurité, installation ... Mon avis : marche très bien avec le lapin dans mon cas

Ok sur Windows

Ko AIX/Solaris Ok avec prochaine version JRuby

Sortie statsd / Graphite Retour arrière chez ERDF car trop
de complexité, produit hors souche, pas automatisable facilement, api bizarre, besoin/périmètre ?

Un fichier sincedb par type de logs Un filesystem dédié
… sinon si le FS hôte est plein, Logstash, selon la configuration va relire l'input complet à chaque itération

Job de nettoyage des sincedb car inode recyclés très vite

Appender Spring AMQP Rapide à mettre en œuvre

Mais pas thread safe (correction apportée et remontée)

Nommage des threads à faire Gestion du cycle de vie
des thread, timer $^*% !

Écriture d'un listener configurable enrichissant une liste d'appender avec des
appenders AMQP

Queue avec limite de taille / retry avec un offer
timeout une fois plein … mais pas avec 200 ms d'attente

Overhead négligeable au profiler en sampling en tout cas, pas
plus que le framework de log

Utilisation d'une surcouche à log4j « maison » hérité d'un
autre projet du client, une sorte de MDC un peu évolué fait bien le travail … mais sur log4j A minima utilisation de la façade slf4j

A partir de 8 000 messages/s, on tombe sur un
vieux problème de contention très connu dans log4j ! On ne rencontre pas forcément ce débit là tous les jours

Existe des équivalents Logback mais ne semblent pas packagé et
plutôt spécifique Simple à faire à la main

RabbitMQ Bel outil

Erlang à compiler sur RHEL car pas de RPM nox
récent

Bonne documentation

Pas si évident à mettre en œuvre et à paramétrer
pour un bon fonctionnement en production frame_max,hearbeat,tcp_listen_options inet_dist_listen... disk_free_limit,vm_memory_high_watermark cluster_partition_handling

… comme tout logiciel

Cron forçant la fermeture des connexions si des queues ont
des messages en attente et pas de consumer

Script de démarrage (/etc/init.d) robuste à écrire pour couvrir tous
les cas ex : attente du timeout tcp de fin

Cluster et queues distribuées

Intégration aux normes de sécurité de l'entreprise impeccable avec la
federation pour transport des logs d'une zone réseau à une autre en respectant le sens des flux

Sécurisation user/password et SSL

Dossier d'exploitation à faire Documenter les différents cas d'exploitation connus

Upgrade 2.x → 3.x difficile

Attention à la problématique des nœuds non synchronisés, perte de
messages possibles, ordre de redémarrage des nœuds et partitions failures Résolu en version 3.1

Performances limitées en mode persistant … 10 000 messages /
s … suffisant pour mon cas d'usage

Scale moyennement Plus de nœuds == HA Multiplier les queues
Récentes federated queues … au détriment de la complexité

Empreinte CPU en charge importante

Loadbalancer nécessaire pour une federation vers un cluster

elasticsearch Bel outil

Grande communauté

Documentation … à chercher :)

Reste encore un jeune produit

Log faisant parfois peur (Corrupted...) Tri curieux

Assez performant (5000 stacktraces/s sans tuning) sur un SAN Recherche
parmi 30 millions lignes de logs en quelques millisecondes

N'a jamais été le goulot d'étranglement en ingestion des logs

Hyper puissant pour stocker, chercher dans les logs en temps
réel (1s)

Packages officiels deb et RPM depuis fin 2013 fournis par
elasticsearch

River RabbitMQ très pratique Petit bug de robustesse en cours
de merge (05/2013) … mais deprecated en 1.0 pas très compliqué à reproduire sous un autre forme

Il faut structurer ses logs pour bénéficier complètement du moteur

Nécessite de savoir comment on va chercher pour savoir comment
indexer et avec quel mapping

Mapping à mettre au point (montée en compétence indispensable) De
moins en moins de travail à faire avec les releases récentes à la fois de Logstash et d'elasticsearch

Mapping custom : Compression (par défaut désormais) Élimination de la
duplication Analyseur custom Élision Type précis Indexation multi field

En cas de nouveau mapping : attendre prochaine rotation d'index
(jour/semaine) réindexer, possible sans interruption avec des alias

Percolation pour génération d'alerte au fil de l'eau

« nosql » sympa pas si évident

Pas possible de faire des recherches très complexes (join, group
by multiple, …) Plus ouvert avec le récent module d'agrégation en remplacement des facets dans la 1.0

Facette : très puissant mais attention au scope, les OOM
viennent vite Doc values pour stockage sur disque

Moteur de recherche : parfois difficile de comprendre les résultats

Message fourni à elasticsearch sans identifiant, génération par es Sauf
pour certains cas où on peut déduire l'identifiant de la log (Grid Oracle) et updater le document dans es

Couplage version serveur et transport client

Compression efficace : 3 ko / log en entrée →
1,8 ko en sortie en moyenne

Aucune sécurité iptables Proxy Post 1.0 ou pas

Outillage très limité pour l'instant Backup manuel Attendre 1.0 avec
snapshot/incrémental backup

Release fréquente Upgrade facile

Haute disponibilité Scalable

Partitioning aisé via le nommage des index Un par semaine

3 nœuds obligatoires sinon : soit pas de HA soit
split brain 1 nœud peut être simplement master-only

Paramétrage gateway... et discovery.zen... obligatoire Unicast Attention à la version
du JDK, 7 mais pas forcément la toute dernière version

Pas plus de la moitié de la RAM pour la
heap Filter cache à paramétrer Fréquence et pause GC à surveiller Lock HEAP dans la RAM (mlockall) Pas swapper Nombre de CPUs important

ihm IHM originelle de Logstash avait le mérite d'exister

Kibana : php au début, porté Ruby, puis en Bootstrap
& AngularJS

Multicritère, facetting Dashboard pré configurés et customisables

Ok pour le cas "général"

Dashboard assez avancé (source blog.xebia.fr)

Spécifique

Kibana 3 inexistant au démarrage Intégration avec le framework utilisé
sur le projet (ZK) pour homogénéité

Maîtrise et customisation complète

Besoin d'intégrer d'autres sources telles que JMX, Spring Batch, DB
et de faire des corrélations

Recherche multicritère et collant aux cas d'usages principaux Recherche sauvegardée
avec facetting

Ecran d'accueil type dashboard : est ce que mon système
est OK

Remarques diverses Fait ressortir tous les défauts des applications (visible
dans les logs) de manière criante … et aussi ceux des logs eux mêmes

Uniformisation des layout de logs indispensable n formats de date
à gérer == cauchemar

Multi lignes : plus simple avec délimiteur de début et
de fin, comme Weblogic Lignes de logs auto porteuses

Génération d'un identifiant de corrélation Suivi à travers toute l'architecture
des logs relatifs à une même action utilisateur

Enrichissement des messages avec environnement, projet et application pratique

Besoin de superviser la supervision mais attention Cron > fichier_journal
Job de détection de non réception de logs

Décision de : filtrer (groker) côté agent côté serveur logguer
directement en json ou json_event (format Logstash)

Débat agent / agentless

Autres pistes rsyslog tail intelligent, wildcard mais pas multiligne …
en fait si depuis quelques mois mais très limité

Buffer disque AMQP en beta

Version très ancienne sur les distributions Pas possible d'en installer
une plus récente

syslog-ng : pas multiligne, ni wildcard sauf dans version premium
Destination AMPQ pas disponible en premium

syslog-ng : API pas si simple

syslog-ng : fichier de persist (équivalent sincedb) non modulaire

syslog-ng : buffer de sortie, lorsqu'il est plein, drop silencieusement
les logs même si l'input est un fichier, on pourrait arrêter le tail

syslog-ng : buffer persistant avec premium

syslog-ng : logs avec apache tee -a | logger +
rotation logrotate / apachectl graceful

flume : réécrit en flume-ng

flume : très performant, empreinte CPU modéré

flume : pas (plus) de tail

flume : cluster Hadoop sous la main

flume : stockage HDFS

flume : recherche immédiate dans Hadoop pas évidente … pas
encore … intéractive déjà possible

flume : Hadoop ops pas simple

Piste intéressante : sink flume avec un split sur elasticsearch
et HDFS/HBase ou en écoute de HDFS/HBase

Graylog2 • installation ! (ruby, gem …), full Java dernière
version . • spécifique GELF • Logback en GELF • mongodb nécessaire • mapping figé ? • un seul index (max … récemment) • analitycs idem que Kibana

Heka (Mozilla) • 1ere annonce avril 2013 • inspiré de
Logstash • Go (performant) • plugin • input/output limité (jeune) • module es depuis l'été 2013 by @tlrx • à surveiller

Autres : • Spring XD avec des flux en |
• Morphlines de Cloudera • Zlogd de Zumba • Utiliser Solr (Logsene@sematext)

Splunk • très puissant • bien intégré • indexation brute
• reporting sexy • corrélation / alerte • écosystème C et python • plugin by Splunk ou communauté • pas extensible / intégrable • très cher, ex : 4Go/j = 300 000€

Solutions en mode SAAS • Loggly, New Relic, Papertrail, Logentries
• ok/nécessaire pour application déjà dans le cloud • non maîtrise • flux extérieur • RSSI pas content • coût assez obscur

... Logo ici

Apache Kafka • transport des logs • pour les plateformes
à très forte charge • throughput impressionnant • > 20 000/s en production et > 200 000/s en consommation sur un portable • scalabilité horizontale • nativement persistant • ok dans un écosystème bigdata

Performance Vitesse de lecture d'un fichier par Logstash Vitesse de
traitement par Logstash Vitesse d'indexation par elasticsearch sur un PC portable avec des access log Apache

Quelques chiffres ERDF 2 - 3 mois de logs pour
8-10 env = 25 Go d'index elasticsearch capacité de traitement de 800m/s avec deux serveurs (RabbitMQ, Logstash, elasticsearch) 4000 logs/s pendant les rattrapages un test de performance aux limites de 40 min = 1 000 000 logs

Pour finir Jeunesse relative des produits Problèmes d'intégration (contournés) Introduction
de nouvelles technologies nécessaire (apprentissage, maîtrise, complexité) Overhead, très limité (Logstash et appender 10- 100ms) et rapport gain/perte OK

Pour finir Automatisation d'installation multi environnements/projets/topologies réussie mais longue Des
cookbooks chef, modules Puppet, Ansible, deb, RPM existent … si ils correspondent à votre environnement Architecture à scaler pour très grande volumétrie En plein mouvement

Pour finir En plein mouvement Support éditeur désormais possible Beaucoup
de ressources/documentation de qualité, pas le cas il y a deux ans

Pour finir Centralisation des logs de plusieurs environnements et projets
Temps de diagnostic des problèmes et des tests de performance réduit drastiquement Développeurs & SNx autonomes

Pour finir Visibilité sur le système, son état Transparence sur
la qualité « visible depuis les logs » Corrélation à travers toute l'architecture, top 10 erreurs, ... Recherche de reproductibilité de bug facile Statistiques diverses ...

Questions ?

LyonJug : centralisation des logs 2014/01

LyonJug : centralisation des logs 2014/01

More Decks by Vladislav Pernin

Featured

Transcript