Analyse de séries temporelles
multivariées dans le cadre
d’évènements récurrents
Auteur : Pinos Bruno
Date : 3 Février, 2022
Slide 2
Slide 2 text
Introduction
I. Introduction
II. Extraction et mise en forme
III. Distances
IV.Clustering
V. Conclusion
2
Slide 3
Slide 3 text
I. Introduction
3
Slide 4
Slide 4 text
Contexte
Création d’un outil rapide, simple d’utilisation, compréhensible et flexible pour
pouvoir permettre à nos utilisateurs non Data Scientist de réaliser des analyses
poussées sur des événements récurrents comme les manœuvres de satellite.
L’objectif principal de cet outil est la détection et la compréhension d’événements
anormaux.
4
Slide 5
Slide 5 text
Série temporelle
5
Une série temporelle, ou série chronologique, est une suite de valeurs
numériques représentant l'évolution d'une quantité spécifique au cours du temps.
Slide 6
Slide 6 text
Série temporelle
6
Temps en seconde
Valeur Valeur
1s
1s
1s
24s
11s
4s
Également
espacée
Inégalement
espacée
Slide 7
Slide 7 text
Série temporelle multivariée
7
Une série temporelle multivariée est une série temporelle avec plusieurs variables
dépendantes du temps.
Slide 8
Slide 8 text
Evénements récurrents
8
Un événement récurrent dans une série temporelle est un ensemble de périodes définies où il se
passe quelque chose de précis. Ces périodes ne reviennent pas forcément de manière saisonnière
et ne sont pas forcément de même durée.
Les manœuvres de satellite sont un exemple d’événements récurrents.
Evénements récurrents
Slide 9
Slide 9 text
La méthode utilisée
Extraction et mise en forme des événements
Calcul des distances entre les événements
Regroupement des événements proches et analyse des événements
isolés
9
Slide 10
Slide 10 text
II. Extraction et mise en forme
10
Slide 11
Slide 11 text
Extraction
11
Evénements récurrents
Evénements récurrents après extraction
Slide 12
Slide 12 text
Mise en forme
12
Evénements récurrents après extraction et mise en
forme (rééchantillonnage et interpolation)
- Pas de valeurs manquantes
- Également espacées
Evénements récurrents après extraction
Slide 13
Slide 13 text
II. Distances
13
Slide 14
Slide 14 text
14
Par exemple p𝒐𝒖𝒓 𝑨 𝟏, 𝟏 𝒆𝒕 𝑩 𝟔, 𝟒 :
Distance euclidienne dans le plan
6 − 1 2 + 4 − 1 2 = 25 + 9 = 34 ≈ 5.83
Slide 15
Slide 15 text
15
Par exemple p𝒐𝒖𝒓 𝑨 𝟏, 𝟏, 𝟏, 𝟏 𝒆𝒕 𝑩 𝟔, 𝟒, 𝟎, 𝟎 :
Distance euclidienne en n dimension
𝑑 𝑎, 𝑏 = 6 − 1 2 + 4 − 1 2 + 1 − 0 2 + 1 − 0 2
= 25 + 9 + 1 + 1
= 36
= 6
Soit deux points de ℝn, A(x1
, x2
, …,xn
) et B(y1
, y2
, …,yn
):
Slide 16
Slide 16 text
Distance euclidienne entre deux séries temporelles
16
Slide 17
Slide 17 text
17
Valeur Valeur
Valeur
Temps
Les limites de la
distance euclidienne
TS1
TS2
TS3
Dynamic time warping
20
- Règle le problème des décalages temporelles
- Permet de prendre en compte la dilatation temporelle
- Permet de comparer des séries temporelles de différentes
longueurs
Valeur
Temps
Slide 21
Slide 21 text
21
Dynamic time warping
Matrice de coût
Slide 22
Slide 22 text
Exemple Dynamic time warping
22
t0 t1 t2 t3
TS1 1 5 4 2
TS2 1 2 4 1
Soit TS1 et TS2 deux série temporelles:
DTW multivariée
29
LA DTW peut être utilisé pour calculer des distances entre des séries temporelles
multivariées pour cela il suffit de compléter la matrice de coût en utilisant la
distance euclidienne entre des points de dimension n, n étant le nombre de
paramètres.
Slide 30
Slide 30 text
Matrice de distance
30
Une matrice de distance est une matrice carrée ( tableau à deux
dimensions) contenant les distances , prises par paires, entre les
éléments d'un ensemble.
16 72
47
Slide 31
Slide 31 text
La forme ou la valeur ?
31
Slide 32
Slide 32 text
Z-normalisation
32
TS2
TS1
TS3
TS2
TS1
TS3
Slide 33
Slide 33 text
IV. Clustering
33
Slide 34
Slide 34 text
Définition
Le partitionnement de données (ou clustering en anglais) est une
méthode en analyse des données. Elle vise à diviser un ensemble de
données en différents « paquets » homogènes.
34
Slide 35
Slide 35 text
Choix de la méthode
• K-MEANS
- Méthode la plus utilisée en data science
- Très efficace sur les séries temporelles (k-means dba)
- Pas efficace pour la détection d’ouliers
• DBSCAN
- Méthode très utilisée pour la recherche d’outliers
- S’adapte facilement aux séries temporelles grâce aux matrices de distance
- Très sensible aux paramètres
• Classification ascendante hiérarchique (CAH)
- L’une des premières méthode et l’une des plus efficace
- Grande explicabilité (Dendrogramme)
- S’adapte facilement aux séries temporelles grâce aux matrices de distance
35
49
CAH sur des séries temporelles
Value
Time M21 et M22 M20
Slide 50
Slide 50 text
50
CAH sur des séries temporelles
Anomalie ?
2 manœuvres d’un type particulier
ou 2 anomalies ?
Que représente ces deux
groupes de manœuvres bien
distincts ? Est-ce normal ?
Slide 51
Slide 51 text
Clusters
51
M15
M20
M21 et M22
Slide 52
Slide 52 text
52
CAH sur des séries
temporelles
multivariées
Paramètre 1
Paramètre 2
Slide 53
Slide 53 text
Dendrogramme
53
Slide 54
Slide 54 text
54
Paramètre 1 Paramètre 2
Slide 55
Slide 55 text
Conclusion
55
Le CAH basé sur des matrices de distance utilisant la
Dynamic time warping avec en option la normalisation des
séries temporelle remplit tous les critères que nous
souhaitions au départ.