Upgrade to Pro — share decks privately, control downloads, hide ads and more …

TSFR Edition #14 - Analyse de séries temporelle...

TimeSeriesFr
February 02, 2022

TSFR Edition #14 - Analyse de séries temporelles multivariées dans le cadre d’évènements récurrents de satellites

Support de la présentation de Bruno Pinos de Kratos Solutions sur l'analyse des séries temporelles multivariées dans le cadre des manoeuvres de satellites.

TimeSeriesFr

February 02, 2022
Tweet

More Decks by TimeSeriesFr

Other Decks in Technology

Transcript

  1. Contexte Création d’un outil rapide, simple d’utilisation, compréhensible et flexible

    pour pouvoir permettre à nos utilisateurs non Data Scientist de réaliser des analyses poussées sur des événements récurrents comme les manœuvres de satellite. L’objectif principal de cet outil est la détection et la compréhension d’événements anormaux. 4
  2. Série temporelle 5 Une série temporelle, ou série chronologique, est

    une suite de valeurs numériques représentant l'évolution d'une quantité spécifique au cours du temps.
  3. Série temporelle 6 Temps en seconde Valeur Valeur 1s 1s

    1s 24s 11s 4s Également espacée Inégalement espacée
  4. Série temporelle multivariée 7 Une série temporelle multivariée est une

    série temporelle avec plusieurs variables dépendantes du temps.
  5. Evénements récurrents 8 Un événement récurrent dans une série temporelle

    est un ensemble de périodes définies où il se passe quelque chose de précis. Ces périodes ne reviennent pas forcément de manière saisonnière et ne sont pas forcément de même durée. Les manœuvres de satellite sont un exemple d’événements récurrents. Evénements récurrents
  6. La méthode utilisée Extraction et mise en forme des événements

    Calcul des distances entre les événements Regroupement des événements proches et analyse des événements isolés 9
  7. Mise en forme 12 Evénements récurrents après extraction et mise

    en forme (rééchantillonnage et interpolation) - Pas de valeurs manquantes - Également espacées Evénements récurrents après extraction
  8. 14 Par exemple p𝒐𝒖𝒓 𝑨 𝟏, 𝟏 𝒆𝒕 𝑩 𝟔,

    𝟒 : Distance euclidienne dans le plan 6 − 1 2 + 4 − 1 2 = 25 + 9 = 34 ≈ 5.83
  9. 15 Par exemple p𝒐𝒖𝒓 𝑨 𝟏, 𝟏, 𝟏, 𝟏 𝒆𝒕

    𝑩 𝟔, 𝟒, 𝟎, 𝟎 : Distance euclidienne en n dimension 𝑑 𝑎, 𝑏 = 6 − 1 2 + 4 − 1 2 + 1 − 0 2 + 1 − 0 2 = 25 + 9 + 1 + 1 = 36 = 6 Soit deux points de ℝn, A(x1 , x2 , …,xn ) et B(y1 , y2 , …,yn ):
  10. Les limites de la distance euclidienne 18 0 0 4

    4 4 4 4 4 4 4 0 0 0 TS1 TS2 𝑑 𝑇𝑆1, 𝑇𝑆2 = 4² + 4² + 4² + 4² + 4² + 4² + 4² + 4² ≈ 11.31
  11. 19 Les limites de la distance euclidienne TS1 TS3 𝑑

    𝑇𝑆1, 𝑇𝑆3 = 4² + 4² + 4² + 4² = 8 0 0 4 0 4 0 4 0 4 0 0 0 0 𝑑 𝑇𝑆1, 𝑇𝑆3 > 𝑑(𝑇𝑆1, 𝑇𝑆2)
  12. Dynamic time warping 20 - Règle le problème des décalages

    temporelles - Permet de prendre en compte la dilatation temporelle - Permet de comparer des séries temporelles de différentes longueurs Valeur Temps
  13. Exemple Dynamic time warping 22 t0 t1 t2 t3 TS1

    1 5 4 2 TS2 1 2 4 1 Soit TS1 et TS2 deux série temporelles:
  14. Exemple Dynamic time warping 25 0 1 1 0 1

    𝐷𝑇𝑊𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒 (𝑇𝑆1, 𝑇𝑆2) = 0 + 1 + 1 + 0 + 1 = 3 TS1 TS2
  15. DTW multivariée 29 LA DTW peut être utilisé pour calculer

    des distances entre des séries temporelles multivariées pour cela il suffit de compléter la matrice de coût en utilisant la distance euclidienne entre des points de dimension n, n étant le nombre de paramètres.
  16. Matrice de distance 30 Une matrice de distance est une

    matrice carrée ( tableau à deux dimensions) contenant les distances , prises par paires, entre les éléments d'un ensemble. 16 72 47
  17. Définition Le partitionnement de données (ou clustering en anglais) est

    une méthode en analyse des données. Elle vise à diviser un ensemble de données en différents « paquets » homogènes. 34
  18. Choix de la méthode • K-MEANS - Méthode la plus

    utilisée en data science - Très efficace sur les séries temporelles (k-means dba) - Pas efficace pour la détection d’ouliers • DBSCAN - Méthode très utilisée pour la recherche d’outliers - S’adapte facilement aux séries temporelles grâce aux matrices de distance - Très sensible aux paramètres • Classification ascendante hiérarchique (CAH) - L’une des premières méthode et l’une des plus efficace - Grande explicabilité (Dendrogramme) - S’adapte facilement aux séries temporelles grâce aux matrices de distance 35
  19. 50 CAH sur des séries temporelles Anomalie ? 2 manœuvres

    d’un type particulier ou 2 anomalies ? Que représente ces deux groupes de manœuvres bien distincts ? Est-ce normal ?
  20. Conclusion 55 Le CAH basé sur des matrices de distance

    utilisant la Dynamic time warping avec en option la normalisation des séries temporelle remplit tous les critères que nous souhaitions au départ.