Human Talks Lyon Kafka 12/11/2013

Human Talks Lyon 12/11/2013 Retour d'expérience sur Kafka Vladislav Pernin
@vladislavpernin

Un broker distribué, persistant, scalable et performant Retour d'expérience

Cas d'usage / contexte Concepts Retour d'expérience

Cas d'usage / contexte

Projet en cours

Découplage entre briques logicielles Brique 1 production Kafka Brique 2
consommation

Robustesse Brique 1 production Kafka Brique 2 consommation

Persistance sur disque Pas de perte de message sur panne/arrêt

Absorber des vitesses de traitements différentes Brique 1 production Kafka
Brique 2 consommation 6000 messages/s 5000 messages/s

Performance : Throughput Latence

Scalabilité horizontale Kafka 1 Kafka 2 Kafka n

Alternative : JMS API, pas un protocole Clustering difficile Performance
en mode persistant limitée Scale pas

Alternative : AMQP Exemple : RabbitMQ Bon produit Performance en
mode persistant meilleure que JMS mais < 6000/s Scale pas

Linkedin engineering Opensourcé en 2011 chez Apache

En production sur des clusters avec des volumétries énormes (28
billions/j,300 000/s,1000 clients)

Concepts

Topics

Topic producer

Topic consumer

Écrit en Scala Tourne sur une simple JVM

Architecture globale

Un topic est partitionné

Les partitions sont répliquées

Un leader et N réplicas Répartis sur les brokers du
cluster

Nativement persistant sur filesystem

read : OS cache, API sendfile write : écritures disques
séquentielles

Un message consommé n'est pas effacé

Conservation des fichiers de logs de tous les messages par
topic

Purge par expiration et/ou taille maximale

Le broker ne « connaît » pas les consumers

Pas d'acknowledge/commit/rollback du consumer

Un consumer maintient son état de consommation dans Zookeeper :
offset

Il suffit donc de reculer les offsets pour faire du
replay

Deux sémantiques possibles : - Queue - Publish / Subscribe

Delivery : at least one

Conservation de l'ordre par partition

Un topic avec une réplication de N tolère la perte
de N-1 serveurs

Client java natif Clients .NET, clojure, go, python, ruby, php

Ecosystème Hadoop friendly

Framework stream processing : Storm & Samza friendly

Retour d'expérience

Stable

API de production super simple

API de consommation moins simple

Contention sur le producer en multithread => Un producer par
thread

Ou utiliser la production asynchrone mais gestion des retry nécessaire

Commit des offsets dans Zookeeper à batcher

Ecrit en Scala

Dépendance sur Scala peut entrer en conflit avec d'autres briques
en Scala dans des versions différentes non compatibles

Cluster Zookeeper nécessaire Une bonne chose ...

Manque d'unité entre Kafka et Zookeeper, projet de stocker les
offsets dans Kafka

Facile de simuler un cluster localement en démarrant plusieurs brokers

Robustesse approuvée

Doublons possibles sur perte d'un nœud

Tolérant aux partitions réseaux dans certaines limites (voir Jepsen)

Dépendances Maven à assembler

Pas évident sous Windows

Empreinte mémoire et CPU légère

Script de démarrage de base /etc/init.d à écrire

Installation automatisable facile Paramétrage simple

Logs de qualité

Pas d'IHM (Est ce nécessaire ?)

Monitoring JMX complet et complexe Pas d’agrégation niveau cluster

Quelques scripts à écrire/assembler pour avoir une vision consolidée des
topics et offsets

Bonne documentation Communauté assez active

Utilisé depuis longtemps chez Linkedin

Reste très jeune API changeante Compatibilité entre 0.7 et 0.8
KO

Montée en compétences assez rapide

Quelques chiffres

Sur un PC portable, 1 producer, 1 consumer 20 000
messages/s en production synchrone 330 000 messages/s en production asynchrone 200 000 messages/s en consommation < 2 ms en latence

Questions ?

http://kafka.apache.org http://fr.slideshare.net/dave_revell/nearrealtime-analytics-with-kafka-and-hbase http://fr.slideshare.net/edwardcapriolo/apache-kafka-demo http://aphyr.com/tags/jepsen http://www.michael-noll.com/blog/2013/03/13/running-a-multi-broker-apache-kafka-cluster- on-a-single-node/ http://fr.slideshare.net/Hadoop_Summit/building-a-realtime-data-pipeline-apache-kafka-at- linkedin Sources des
schémas

Human Talks Lyon Kafka 12/11/2013

Human Talks Lyon Kafka 12/11/2013

More Decks by Vladislav Pernin

Other Decks in Technology

Featured

Transcript