Upgrade to Pro — share decks privately, control downloads, hide ads and more …

TSFR Edition #18 - LispTick: Traitement efficie...

TimeSeriesFr
September 13, 2023

TSFR Edition #18 - LispTick: Traitement efficient des timeseries en pur streaming.

Bonjour à tou(te)s,

Pour cette 18ème édition, nous allons mettre nos activités entre parenthèses et donner un petit coup de glamour avec la présentation de LispTick par Cédric Joulain.

Pendat cette édition, Cédric va nous présenter LispTick, un format de stockage et un moteur de calcul sur les timeseries en pur streaming. Vous pourrez découvrir ou redécouvrir les nombreux avantages insoupçonnés d’une approche pur streaming:

une utilisation mémoire minimale,
aucune contrainte sur la taille des timeseries,
le début des résultats pouvant arriver quasi immédiatement,
traitement identique de l’historique et du temps réel (temps continu),
etc.

LispTick a été conçu à l’origine pour les flux de bourses, les flux les plus complexes car asynchrones, avec des fréquences très variables (quelques points par an à plusieurs à la même nanoseconde) et tout type de valeur (entiers, décimaux, réels, booléen, chaîne de caractères…). Nous avons depuis étendu les usages à l’IoT, la météo, les tenseurs multidimentionnels… Ainsi, nous avons pu appliquer des algortihmes de finance au suivi de la santé des abeilles!

A propos de Cédric Joulain : après avoir suivi un cursus Ingénieur en informatique et en parallèle un DEA en traitement du signal j’ai été doctorant en NeuroCybernetic avec plusieurs publications à la clef. J’ai ensuite travaillé pendant 20 ans, de près ou de loin, pour BNP Paribas à Paris et Londres dans les équipes recherches des salles de marché. L’expertise acquise m’a permis de développer une approche très efficace du traitement des timeseries, aussi bien pour le stockage que pour le calcul en pur streaming. Depuis 2021, je suis responsable R&D chez Kereon Intelligence, travaillant sur tout type de projet innovant relatif à la data, que ce soit de la computer vision, de l’IoT,… ou bien sûr des timeseries!

TimeSeriesFr

September 13, 2023
Tweet

More Decks by TimeSeriesFr

Other Decks in Technology

Transcript

  1. TSFR #18 - LispTick Traitement efficient des timeseries en pur

    streaming Les avantages du streaming Un nouveau format compact et efficace Les principes de LispTick Des exemples/calculs en Live TSFR#18 2 / 21
  2. Présentation Ingénieur CY Tech DEA Traitement du signal, PhD Neurocybernetic

    20 ans R&D salle des marchés BNP Paribas Et depuis 2021... TSFR#18 3 / 21
  3. Les avantages du streaming Empreinte mémoire faible Aucune contrainte sur

    la taille des séries Fonctionne sur de petites configurations (RPi, Onion Oméga) Libère les ressources mémoire pour le reste du système Edge computing, minimise les transferts Faible consommation électrique Combiner des milliers de séries Premiers résultats quasi immédiats Temps Réel TSFR#18 4 / 21
  4. Stockage des Time Series La volumétrie: Refinitiv, marchés financiers 1

    journée, 28 février 2020 817 instruments financiers 21 632 séries 2 639 253 275 valeurs différentes. TSFR#18 5 / 21
  5. Stockage des Time Series La volumétrie: Refinitiv Format Taille en

    MB Réduction csv 91 995 1 csv.gz 2 823 33 csv.xz 2 289 40 Cassandra 20 000 5 TSFR#18 6 / 21
  6. Stockage des Time Series Apache Parquet: Refinitiv Format Taille en

    MB Réduction csv 91 995 1 csv.xz 2 289 33 Parquet Snappy 4 340 21 Parquet LZ4 4 320 21 Parquet gzip 2 530 36 Parquet Zstd 2 490 37 Parquet Brotli 2 260 41 TSFR#18 7 / 21
  7. Stockage des Time Series LispTick: Refinitiv Format Taille en MB

    Réduction csv 91 995 1 csv.xz 2 289 33 Parquet Snappy 4 340 21 Parquet Brotli 2 260 41 LispTick 1 254 73 TSFR#18 8 / 21
  8. Stockage des Time Series La volumétrie: Météonet 3 ans toutes

    les 6 minutes 862 stations 7242 séries 1 611 977 608 valeurs différentes. https://meteonet.umr-cnrm.fr/ ground stations TSFR#18 9 / 21
  9. Stockage des Time Series La volumétrie: Météonet Format Taille en

    MB Réduction csv 13 180 1 csv.gz 1 810 7 csv.xz 837 16 Cassandra 12 300 1 TSFR#18 10 / 21
  10. Stockage des Time Series Apache Parquet: Météonet Format Taille en

    MB Réduction csv 13 180 1 csv.xz 837 16 Parquet Snappy 1 730 8 Parquet LZ4 1 540 9 Parquet gzip 954 14 Parquet Zstd 876 15 Parquet Brotli 866 15 TSFR#18 11 / 21
  11. Stockage des Time Series LispTick: Météonet Format Taille en MB

    Réduction csv 13 180 1 csv.xz 837 16 Parquet Snappy 1 730 8 Parquet Brotli 866 15 LispTick 304 43 TSFR#18 12 / 21
  12. Stockage des Time Series La volumétrie: IoT, fabricant de piscines

    connectées messages gRPC toutes les 10 secondes 2600 piscines 250 séries par bassin 7.2 milliards de valeurs par jour TSFR#18 13 / 21
  13. Stockage des Time Series LispTick: IoT, données quotidiennes Format Taille

    en MB Réduction raw 250 000 1 raw.gz 75 000 3 raw.xz 911 274 LispTick 107 2300 TSFR#18 14 / 21
  14. Qu'est ce que LispTick ? LispTick Serveur de calcul dédié

    Time Series Approche pure streaming Part toujours de la donnée source Enchaine les traitements à la volée Ecosystème Time Series: → format compact et rapide → clients possibles dans différents langages → interface web et bac à sable pour le dev et + TSFR#18 15 / 21
  15. LispTick Pourquoi Lisp ? Lisp est la plus ancienne famille

    de langages de programmation à la fois impératifs et fonctionnels: Facile à parser Se prête bien à l'encapsulation Code compact Lisible dans les cas simples TSFR#18 16 / 21
  16. LispTick Pourquoi Tick ? Qu'est-ce qu'un Tick ? Un tick

    est une mesure du mouvement minimum à la hausse ou à la baisse du prix d'un titre. TSFR#18 17 / 21
  17. LispTick prise en main Wiki, Exemples et Bac à sable

    https://lisptick.org https://lisptick.kereon-intelligence.com TSFR#18 20 / 21
  18. La corrélation Hayashi-Yoshida On covariance estimation of non-synchronously observed diffusion

    processes Finance Santé des abeilles (ruche connectée) Météo (... marée barométrique !? ...) TSFR#18 21 / 21