TSFR Edition #14 - Analyse de séries temporelles multivariées dans le cadre d’évènements récurrents de satellites

Analyse de séries temporelles multivariées dans le cadre d’évènements récurrents
Auteur : Pinos Bruno Date : 3 Février, 2022

Introduction I. Introduction II. Extraction et mise en forme III.
Distances IV.Clustering V. Conclusion 2

I. Introduction 3

Contexte Création d’un outil rapide, simple d’utilisation, compréhensible et flexible
pour pouvoir permettre à nos utilisateurs non Data Scientist de réaliser des analyses poussées sur des événements récurrents comme les manœuvres de satellite. L’objectif principal de cet outil est la détection et la compréhension d’événements anormaux. 4

Série temporelle 5 Une série temporelle, ou série chronologique, est
une suite de valeurs numériques représentant l'évolution d'une quantité spécifique au cours du temps.

Série temporelle 6 Temps en seconde Valeur Valeur 1s 1s
1s 24s 11s 4s Également espacée Inégalement espacée

Série temporelle multivariée 7 Une série temporelle multivariée est une
série temporelle avec plusieurs variables dépendantes du temps.

Evénements récurrents 8 Un événement récurrent dans une série temporelle
est un ensemble de périodes définies où il se passe quelque chose de précis. Ces périodes ne reviennent pas forcément de manière saisonnière et ne sont pas forcément de même durée. Les manœuvres de satellite sont un exemple d’événements récurrents. Evénements récurrents

La méthode utilisée Extraction et mise en forme des événements
Calcul des distances entre les événements Regroupement des événements proches et analyse des événements isolés 9

II. Extraction et mise en forme 10

Extraction 11 Evénements récurrents Evénements récurrents après extraction

Mise en forme 12 Evénements récurrents après extraction et mise
en forme (rééchantillonnage et interpolation) - Pas de valeurs manquantes - Également espacées Evénements récurrents après extraction

II. Distances 13

14 Par exemple p𝒐𝒖𝒓 𝑨 𝟏, 𝟏 𝒆𝒕 𝑩 𝟔,
𝟒 : Distance euclidienne dans le plan 6 − 1 2 + 4 − 1 2 = 25 + 9 = 34 ≈ 5.83

15 Par exemple p𝒐𝒖𝒓 𝑨 𝟏, 𝟏, 𝟏, 𝟏 𝒆𝒕
𝑩 𝟔, 𝟒, 𝟎, 𝟎 : Distance euclidienne en n dimension 𝑑 𝑎, 𝑏 = 6 − 1 2 + 4 − 1 2 + 1 − 0 2 + 1 − 0 2 = 25 + 9 + 1 + 1 = 36 = 6 Soit deux points de ℝn, A(x1 , x2 , …,xn ) et B(y1 , y2 , …,yn ):

Distance euclidienne entre deux séries temporelles 16

17 Valeur Valeur Valeur Temps Les limites de la distance
euclidienne TS1 TS2 TS3

Les limites de la distance euclidienne 18 0 0 4
4 4 4 4 4 4 4 0 0 0 TS1 TS2 𝑑 𝑇𝑆1, 𝑇𝑆2 = 4² + 4² + 4² + 4² + 4² + 4² + 4² + 4² ≈ 11.31

19 Les limites de la distance euclidienne TS1 TS3 𝑑
𝑇𝑆1, 𝑇𝑆3 = 4² + 4² + 4² + 4² = 8 0 0 4 0 4 0 4 0 4 0 0 0 0 𝑑 𝑇𝑆1, 𝑇𝑆3 > 𝑑(𝑇𝑆1, 𝑇𝑆2)

Dynamic time warping 20 - Règle le problème des décalages
temporelles - Permet de prendre en compte la dilatation temporelle - Permet de comparer des séries temporelles de différentes longueurs Valeur Temps

21 Dynamic time warping Matrice de coût

Exemple Dynamic time warping 22 t0 t1 t2 t3 TS1
1 5 4 2 TS2 1 2 4 1 Soit TS1 et TS2 deux série temporelles:

Exemple Dynamic time warping 23 0 1 0 3

Exemple Dynamic time warping 24 𝐷𝑇𝑊𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒 (𝑇𝑆1, 𝑇𝑆2) = 0
+ 1 + 1 + 0 + 1 = 3 TS2 TS1

Exemple Dynamic time warping 25 0 1 1 0 1
𝐷𝑇𝑊𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒 (𝑇𝑆1, 𝑇𝑆2) = 0 + 1 + 1 + 0 + 1 = 3 TS1 TS2

Contrainte 26 Valeur Temps

Sakoe-Chiba band 27 Matrice de coût

Sakoe-Chiba band 28

DTW multivariée 29 LA DTW peut être utilisé pour calculer
des distances entre des séries temporelles multivariées pour cela il suffit de compléter la matrice de coût en utilisant la distance euclidienne entre des points de dimension n, n étant le nombre de paramètres.

Matrice de distance 30 Une matrice de distance est une
matrice carrée ( tableau à deux dimensions) contenant les distances , prises par paires, entre les éléments d'un ensemble. 16 72 47

La forme ou la valeur ? 31

Z-normalisation 32 TS2 TS1 TS3 TS2 TS1 TS3

IV. Clustering 33

Définition Le partitionnement de données (ou clustering en anglais) est
une méthode en analyse des données. Elle vise à diviser un ensemble de données en différents « paquets » homogènes. 34

Choix de la méthode • K-MEANS - Méthode la plus
utilisée en data science - Très efficace sur les séries temporelles (k-means dba) - Pas efficace pour la détection d’ouliers • DBSCAN - Méthode très utilisée pour la recherche d’outliers - S’adapte facilement aux séries temporelles grâce aux matrices de distance - Très sensible aux paramètres • Classification ascendante hiérarchique (CAH) - L’une des premières méthode et l’une des plus efficace - Grande explicabilité (Dendrogramme) - S’adapte facilement aux séries temporelles grâce aux matrices de distance 35

Classification ascendante hiérarchique (CAH) 36 τ1 = 1.13 τ0 =
0.19 τ2 = 4.58 Seuil Dendrogramme

Exemple dendrogramme 37

Mesure de dissimilarité inter-classe 40

Exemple dendrogramme 47 Seuil 36

Exemple dendrogramme 48 Seuil 29

49 CAH sur des séries temporelles Value Time M21 et
M22 M20

50 CAH sur des séries temporelles Anomalie ? 2 manœuvres
d’un type particulier ou 2 anomalies ? Que représente ces deux groupes de manœuvres bien distincts ? Est-ce normal ?

Clusters 51 M15 M20 M21 et M22

52 CAH sur des séries temporelles multivariées Paramètre 1 Paramètre
2

Dendrogramme 53

54 Paramètre 1 Paramètre 2

Conclusion 55 Le CAH basé sur des matrices de distance
utilisant la Dynamic time warping avec en option la normalisation des séries temporelle remplit tous les critères que nous souhaitions au départ.

TSFR Edition #14 - Analyse de séries temporelle...

TSFR Edition #14 - Analyse de séries temporelles multivariées dans le cadre d’évènements récurrents de satellites

More Decks by TimeSeriesFr

Other Decks in Technology

Featured

Transcript