TSFR Edition #14 - Analyse de séries temporelles multivariées dans le cadre d’évènements récurrents de satellites
Support de la présentation de Bruno Pinos de Kratos Solutions sur l'analyse des séries temporelles multivariées dans le cadre des manoeuvres de satellites.
Contexte Création d’un outil rapide, simple d’utilisation, compréhensible et flexible pour pouvoir permettre à nos utilisateurs non Data Scientist de réaliser des analyses poussées sur des événements récurrents comme les manœuvres de satellite. L’objectif principal de cet outil est la détection et la compréhension d’événements anormaux. 4
Série temporelle 5 Une série temporelle, ou série chronologique, est une suite de valeurs numériques représentant l'évolution d'une quantité spécifique au cours du temps.
Evénements récurrents 8 Un événement récurrent dans une série temporelle est un ensemble de périodes définies où il se passe quelque chose de précis. Ces périodes ne reviennent pas forcément de manière saisonnière et ne sont pas forcément de même durée. Les manœuvres de satellite sont un exemple d’événements récurrents. Evénements récurrents
La méthode utilisée Extraction et mise en forme des événements Calcul des distances entre les événements Regroupement des événements proches et analyse des événements isolés 9
Mise en forme 12 Evénements récurrents après extraction et mise en forme (rééchantillonnage et interpolation) - Pas de valeurs manquantes - Également espacées Evénements récurrents après extraction
Dynamic time warping 20 - Règle le problème des décalages temporelles - Permet de prendre en compte la dilatation temporelle - Permet de comparer des séries temporelles de différentes longueurs Valeur Temps
DTW multivariée 29 LA DTW peut être utilisé pour calculer des distances entre des séries temporelles multivariées pour cela il suffit de compléter la matrice de coût en utilisant la distance euclidienne entre des points de dimension n, n étant le nombre de paramètres.
Matrice de distance 30 Une matrice de distance est une matrice carrée ( tableau à deux dimensions) contenant les distances , prises par paires, entre les éléments d'un ensemble. 16 72 47
Définition Le partitionnement de données (ou clustering en anglais) est une méthode en analyse des données. Elle vise à diviser un ensemble de données en différents « paquets » homogènes. 34
Choix de la méthode • K-MEANS - Méthode la plus utilisée en data science - Très efficace sur les séries temporelles (k-means dba) - Pas efficace pour la détection d’ouliers • DBSCAN - Méthode très utilisée pour la recherche d’outliers - S’adapte facilement aux séries temporelles grâce aux matrices de distance - Très sensible aux paramètres • Classification ascendante hiérarchique (CAH) - L’une des premières méthode et l’une des plus efficace - Grande explicabilité (Dendrogramme) - S’adapte facilement aux séries temporelles grâce aux matrices de distance 35
50 CAH sur des séries temporelles Anomalie ? 2 manœuvres d’un type particulier ou 2 anomalies ? Que représente ces deux groupes de manœuvres bien distincts ? Est-ce normal ?
Conclusion 55 Le CAH basé sur des matrices de distance utilisant la Dynamic time warping avec en option la normalisation des séries temporelle remplit tous les critères que nous souhaitions au départ.