Slide 1

Slide 1 text

Analyse de séries temporelles multivariées dans le cadre d’évènements récurrents Auteur : Pinos Bruno Date : 3 Février, 2022

Slide 2

Slide 2 text

Introduction I. Introduction II. Extraction et mise en forme III. Distances IV.Clustering V. Conclusion 2

Slide 3

Slide 3 text

I. Introduction 3

Slide 4

Slide 4 text

Contexte Création d’un outil rapide, simple d’utilisation, compréhensible et flexible pour pouvoir permettre à nos utilisateurs non Data Scientist de réaliser des analyses poussées sur des événements récurrents comme les manœuvres de satellite. L’objectif principal de cet outil est la détection et la compréhension d’événements anormaux. 4

Slide 5

Slide 5 text

Série temporelle 5 Une série temporelle, ou série chronologique, est une suite de valeurs numériques représentant l'évolution d'une quantité spécifique au cours du temps.

Slide 6

Slide 6 text

Série temporelle 6 Temps en seconde Valeur Valeur 1s 1s 1s 24s 11s 4s Également espacée Inégalement espacée

Slide 7

Slide 7 text

Série temporelle multivariée 7 Une série temporelle multivariée est une série temporelle avec plusieurs variables dépendantes du temps.

Slide 8

Slide 8 text

Evénements récurrents 8 Un événement récurrent dans une série temporelle est un ensemble de périodes définies où il se passe quelque chose de précis. Ces périodes ne reviennent pas forcément de manière saisonnière et ne sont pas forcément de même durée. Les manœuvres de satellite sont un exemple d’événements récurrents. Evénements récurrents

Slide 9

Slide 9 text

La méthode utilisée Extraction et mise en forme des événements Calcul des distances entre les événements Regroupement des événements proches et analyse des événements isolés 9

Slide 10

Slide 10 text

II. Extraction et mise en forme 10

Slide 11

Slide 11 text

Extraction 11 Evénements récurrents Evénements récurrents après extraction

Slide 12

Slide 12 text

Mise en forme 12 Evénements récurrents après extraction et mise en forme (rééchantillonnage et interpolation) - Pas de valeurs manquantes - Également espacées Evénements récurrents après extraction

Slide 13

Slide 13 text

II. Distances 13

Slide 14

Slide 14 text

14 Par exemple p𝒐𝒖𝒓 𝑨 𝟏, 𝟏 𝒆𝒕 𝑩 𝟔, 𝟒 : Distance euclidienne dans le plan 6 − 1 2 + 4 − 1 2 = 25 + 9 = 34 ≈ 5.83

Slide 15

Slide 15 text

15 Par exemple p𝒐𝒖𝒓 𝑨 𝟏, 𝟏, 𝟏, 𝟏 𝒆𝒕 𝑩 𝟔, 𝟒, 𝟎, 𝟎 : Distance euclidienne en n dimension 𝑑 𝑎, 𝑏 = 6 − 1 2 + 4 − 1 2 + 1 − 0 2 + 1 − 0 2 = 25 + 9 + 1 + 1 = 36 = 6 Soit deux points de ℝn, A(x1 , x2 , …,xn ) et B(y1 , y2 , …,yn ):

Slide 16

Slide 16 text

Distance euclidienne entre deux séries temporelles 16

Slide 17

Slide 17 text

17 Valeur Valeur Valeur Temps Les limites de la distance euclidienne TS1 TS2 TS3

Slide 18

Slide 18 text

Les limites de la distance euclidienne 18 0 0 4 4 4 4 4 4 4 4 0 0 0 TS1 TS2 𝑑 𝑇𝑆1, 𝑇𝑆2 = 4² + 4² + 4² + 4² + 4² + 4² + 4² + 4² ≈ 11.31

Slide 19

Slide 19 text

19 Les limites de la distance euclidienne TS1 TS3 𝑑 𝑇𝑆1, 𝑇𝑆3 = 4² + 4² + 4² + 4² = 8 0 0 4 0 4 0 4 0 4 0 0 0 0 𝑑 𝑇𝑆1, 𝑇𝑆3 > 𝑑(𝑇𝑆1, 𝑇𝑆2)

Slide 20

Slide 20 text

Dynamic time warping 20 - Règle le problème des décalages temporelles - Permet de prendre en compte la dilatation temporelle - Permet de comparer des séries temporelles de différentes longueurs Valeur Temps

Slide 21

Slide 21 text

21 Dynamic time warping Matrice de coût

Slide 22

Slide 22 text

Exemple Dynamic time warping 22 t0 t1 t2 t3 TS1 1 5 4 2 TS2 1 2 4 1 Soit TS1 et TS2 deux série temporelles:

Slide 23

Slide 23 text

Exemple Dynamic time warping 23 0 1 0 3

Slide 24

Slide 24 text

Exemple Dynamic time warping 24 𝐷𝑇𝑊𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒 (𝑇𝑆1, 𝑇𝑆2) = 0 + 1 + 1 + 0 + 1 = 3 TS2 TS1

Slide 25

Slide 25 text

Exemple Dynamic time warping 25 0 1 1 0 1 𝐷𝑇𝑊𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒 (𝑇𝑆1, 𝑇𝑆2) = 0 + 1 + 1 + 0 + 1 = 3 TS1 TS2

Slide 26

Slide 26 text

Contrainte 26 Valeur Temps

Slide 27

Slide 27 text

Sakoe-Chiba band 27 Matrice de coût

Slide 28

Slide 28 text

Sakoe-Chiba band 28

Slide 29

Slide 29 text

DTW multivariée 29 LA DTW peut être utilisé pour calculer des distances entre des séries temporelles multivariées pour cela il suffit de compléter la matrice de coût en utilisant la distance euclidienne entre des points de dimension n, n étant le nombre de paramètres.

Slide 30

Slide 30 text

Matrice de distance 30 Une matrice de distance est une matrice carrée ( tableau à deux dimensions) contenant les distances , prises par paires, entre les éléments d'un ensemble. 16 72 47

Slide 31

Slide 31 text

La forme ou la valeur ? 31

Slide 32

Slide 32 text

Z-normalisation 32 TS2 TS1 TS3 TS2 TS1 TS3

Slide 33

Slide 33 text

IV. Clustering 33

Slide 34

Slide 34 text

Définition Le partitionnement de données (ou clustering en anglais) est une méthode en analyse des données. Elle vise à diviser un ensemble de données en différents « paquets » homogènes. 34

Slide 35

Slide 35 text

Choix de la méthode • K-MEANS - Méthode la plus utilisée en data science - Très efficace sur les séries temporelles (k-means dba) - Pas efficace pour la détection d’ouliers • DBSCAN - Méthode très utilisée pour la recherche d’outliers - S’adapte facilement aux séries temporelles grâce aux matrices de distance - Très sensible aux paramètres • Classification ascendante hiérarchique (CAH) - L’une des premières méthode et l’une des plus efficace - Grande explicabilité (Dendrogramme) - S’adapte facilement aux séries temporelles grâce aux matrices de distance 35

Slide 36

Slide 36 text

Classification ascendante hiérarchique (CAH) 36 τ1 = 1.13 τ0 = 0.19 τ2 = 4.58 Seuil Dendrogramme

Slide 37

Slide 37 text

Exemple dendrogramme 37

Slide 38

Slide 38 text

Exemple dendrogramme 38

Slide 39

Slide 39 text

Exemple dendrogramme 39

Slide 40

Slide 40 text

Mesure de dissimilarité inter-classe 40

Slide 41

Slide 41 text

Exemple dendrogramme 41

Slide 42

Slide 42 text

Exemple dendrogramme 42

Slide 43

Slide 43 text

Exemple dendrogramme 43

Slide 44

Slide 44 text

Exemple dendrogramme 44

Slide 45

Slide 45 text

Exemple dendrogramme 45

Slide 46

Slide 46 text

Exemple dendrogramme 46

Slide 47

Slide 47 text

Exemple dendrogramme 47 Seuil 36

Slide 48

Slide 48 text

Exemple dendrogramme 48 Seuil 29

Slide 49

Slide 49 text

49 CAH sur des séries temporelles Value Time M21 et M22 M20

Slide 50

Slide 50 text

50 CAH sur des séries temporelles Anomalie ? 2 manœuvres d’un type particulier ou 2 anomalies ? Que représente ces deux groupes de manœuvres bien distincts ? Est-ce normal ?

Slide 51

Slide 51 text

Clusters 51 M15 M20 M21 et M22

Slide 52

Slide 52 text

52 CAH sur des séries temporelles multivariées Paramètre 1 Paramètre 2

Slide 53

Slide 53 text

Dendrogramme 53

Slide 54

Slide 54 text

54 Paramètre 1 Paramètre 2

Slide 55

Slide 55 text

Conclusion 55 Le CAH basé sur des matrices de distance utilisant la Dynamic time warping avec en option la normalisation des séries temporelle remplit tous les critères que nous souhaitions au départ.