Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Analyse non asymptotique d’un test séquentiel d...

Analyse non asymptotique d’un test séquentiel de détection de ruptures et application aux bandits non stationnaires (GRETSI 2019)

Résumé : Nous étudions un test pour la détection séquentielle de rupture, basé sur le rapport de vraisemblance généralisé (GLR) et qui s’exprime en fonction de l’entropie relative binaire. Il s’applique à la détection de rupture sur la moyenne d’une distribution bornée, et nous obtenons un contrôle non-asymptotique de sa probabilité de fausse alarme et de son délai de détection. Nous expliquons son utilisation pour la prise de décision séquentielle en proposant la stratégie de bandit GLR-klUCB, efficace dans des modèles de bandit stationnaires par morceaux.

PDF : https://hal.inria.fr/hal-02152243/document

Abstract: We study a strategy for online change-point detection based on generalized likelihood ratios (GLR) and that can be expressed with the binary relative entropy. This test is used to detect a change in the mean of a bounded distribution, and we propose a non-asymptotic control of its false alarm probability and detection delay. We then explain how it can be useful for sequential decision making by proposing the GLR-klUCB bandit strategy, which is efficient in piece-wise stationary multi-armed bandit models.

Lilian Besson

August 29, 2019
Tweet

More Decks by Lilian Besson

Other Decks in Research

Transcript

  1. Analyse non asymptotique d’un test séquentiel de détection de ruptures

    et application aux bandits non stationnaires Conférence GRETSI @ Lille, Août 2019 Lilian Besson Doctorant Équipe SCEE, labo IETR, CentraleSupélec à Rennes & Équipe SequeL, labo CRIStAL, Inria à Lille Jeudi 29 Août 2019
  2. Problèmes de bandits multi-bras (stationnaires) Qu’est-ce qu’un problème de bandits

    ? Bandits manchots ? Un vieux nom pour une machine à sous ! Collaboration avec mon encadrante de thèse Émilie Kaufmann, cf. sa conférence plénière de mardi 27 août ! → Source Lucky Luke tome 18, © Dargaud. Lilian Besson Test BGLR et bandits non-stationnaires Jeudi 29 Août 2019 2 / 30
  3. Problèmes de bandits multi-bras (stationnaires) Qu’est-ce qu’un problème de bandits

    ? Bandits multi-bras = Prise de décisions séquentielles face à des environnements incertains : → Démo interactive perso.crans.org/besson/phd/MAB_interactive_demo/ Lilian Besson Test BGLR et bandits non-stationnaires Jeudi 29 Août 2019 3 / 30
  4. Problèmes de bandits multi-bras (stationnaires) Qu’est-ce qu’un problème de bandits

    ? Bandits multi-bras : stationnaires vs non-stationnaires Stationnaires Ok ! Lilian Besson Test BGLR et bandits non-stationnaires Jeudi 29 Août 2019 4 / 30
  5. Problèmes de bandits multi-bras (stationnaires) Qu’est-ce qu’un problème de bandits

    ? Bandits multi-bras : stationnaires vs non-stationnaires Stationnaires Ok ! Non stationnaires Difficile ! Lilian Besson Test BGLR et bandits non-stationnaires Jeudi 29 Août 2019 4 / 30
  6. Problèmes de bandits multi-bras (stationnaires) Qu’est-ce qu’un problème de bandits

    ? Bandits multi-bras : stationnaires vs non-stationnaires Stationnaires Ok ! Non stationnaires Difficile ! Notre direction de résolution On combine : un algorithme classique (kl-UCB) pour sélectionner les bras, et on détecte les ruptures activement grâce à un test statistique effectué sur chaque bras. Lilian Besson Test BGLR et bandits non-stationnaires Jeudi 29 Août 2019 4 / 30
  7. Problèmes de bandits multi-bras (stationnaires) Détection de rupture Le problème

    de détection de rupture Imaginez le jeu suivant.. . On observe des données X1, X2, · · · , Xt, · · · ∈ [0, 1]. . . On sait que Xt est générée par une distribution inconnue. . . 2 4 6 8 10 Temps discret des échantillons n=1, ,1 0.0 0.2 0.4 0.6 0.8 1.0 Échantillons X1 , ,Xn [0,1] Échantillons aléatoires, avec une rupture à un certain temps Lilian Besson Test BGLR et bandits non-stationnaires Jeudi 29 Août 2019 5 / 30
  8. Problèmes de bandits multi-bras (stationnaires) Détection de rupture Le problème

    de détection de rupture Imaginez le jeu suivant.. . On observe des données X1, X2, · · · , Xt, · · · ∈ [0, 1]. . . On sait que Xt est générée par une distribution inconnue. . . 2 4 6 8 10 Temps discret des échantillons n=1, ,2 0.0 0.2 0.4 0.6 0.8 1.0 Échantillons X1 , ,Xn [0,1] Échantillons aléatoires, avec une rupture à un certain temps Lilian Besson Test BGLR et bandits non-stationnaires Jeudi 29 Août 2019 5 / 30
  9. Problèmes de bandits multi-bras (stationnaires) Détection de rupture Le problème

    de détection de rupture Imaginez le jeu suivant.. . On observe des données X1, X2, · · · , Xt, · · · ∈ [0, 1]. . . On sait que Xt est générée par une distribution inconnue. . . 2 4 6 8 10 Temps discret des échantillons n=1, ,3 0.0 0.2 0.4 0.6 0.8 1.0 Échantillons X1 , ,Xn [0,1] Échantillons aléatoires, avec une rupture à un certain temps Lilian Besson Test BGLR et bandits non-stationnaires Jeudi 29 Août 2019 5 / 30
  10. Problèmes de bandits multi-bras (stationnaires) Détection de rupture Le problème

    de détection de rupture Imaginez le jeu suivant.. . On observe des données X1, X2, · · · , Xt, · · · ∈ [0, 1]. . . On sait que Xt est générée par une distribution inconnue. . . 2 4 6 8 10 Temps discret des échantillons n=1, ,4 0.0 0.2 0.4 0.6 0.8 1.0 Échantillons X1 , ,Xn [0,1] Échantillons aléatoires, avec une rupture à un certain temps Lilian Besson Test BGLR et bandits non-stationnaires Jeudi 29 Août 2019 5 / 30
  11. Problèmes de bandits multi-bras (stationnaires) Détection de rupture Le problème

    de détection de rupture Imaginez le jeu suivant.. . On observe des données X1, X2, · · · , Xt, · · · ∈ [0, 1]. . . On sait que Xt est générée par une distribution inconnue. . . 2 4 6 8 10 Temps discret des échantillons n=1, ,5 0.0 0.2 0.4 0.6 0.8 1.0 Échantillons X1 , ,Xn [0,1] Échantillons aléatoires, avec une rupture à un certain temps Lilian Besson Test BGLR et bandits non-stationnaires Jeudi 29 Août 2019 5 / 30
  12. Problèmes de bandits multi-bras (stationnaires) Détection de rupture Le problème

    de détection de rupture Imaginez le jeu suivant.. . On observe des données X1, X2, · · · , Xt, · · · ∈ [0, 1]. . . On sait que Xt est générée par une distribution inconnue. . . 2 4 6 8 10 Temps discret des échantillons n=1, ,6 0.0 0.2 0.4 0.6 0.8 1.0 Échantillons X1 , ,Xn [0,1] Échantillons aléatoires, avec une rupture à un certain temps Lilian Besson Test BGLR et bandits non-stationnaires Jeudi 29 Août 2019 5 / 30
  13. Problèmes de bandits multi-bras (stationnaires) Détection de rupture Le problème

    de détection de rupture Imaginez le jeu suivant.. . On observe des données X1, X2, · · · , Xt, · · · ∈ [0, 1]. . . On sait que Xt est générée par une distribution inconnue. . . 2 4 6 8 10 Temps discret des échantillons n=1, ,7 0.0 0.2 0.4 0.6 0.8 1.0 Échantillons X1 , ,Xn [0,1] Échantillons aléatoires, avec une rupture à un certain temps Lilian Besson Test BGLR et bandits non-stationnaires Jeudi 29 Août 2019 5 / 30
  14. Problèmes de bandits multi-bras (stationnaires) Détection de rupture Le problème

    de détection de rupture Imaginez le jeu suivant.. . On observe des données X1, X2, · · · , Xt, · · · ∈ [0, 1]. . . On sait que Xt est générée par une distribution inconnue. . . 2 4 6 8 10 Temps discret des échantillons n=1, ,8 0.0 0.2 0.4 0.6 0.8 1.0 Échantillons X1 , ,Xn [0,1] Échantillons aléatoires, avec une rupture à un certain temps Lilian Besson Test BGLR et bandits non-stationnaires Jeudi 29 Août 2019 5 / 30
  15. Problèmes de bandits multi-bras (stationnaires) Détection de rupture Le problème

    de détection de rupture Imaginez le jeu suivant.. . On observe des données X1, X2, · · · , Xt, · · · ∈ [0, 1]. . . On sait que Xt est générée par une distribution inconnue. . . 2 4 6 8 10 Temps discret des échantillons n=1, ,9 0.0 0.2 0.4 0.6 0.8 1.0 Échantillons X1 , ,Xn [0,1] Échantillons aléatoires, avec une rupture à un certain temps Lilian Besson Test BGLR et bandits non-stationnaires Jeudi 29 Août 2019 5 / 30
  16. Problèmes de bandits multi-bras (stationnaires) Détection de rupture Le problème

    de détection de rupture Imaginez le jeu suivant.. . On observe des données X1, X2, · · · , Xt, · · · ∈ [0, 1]. . . On sait que Xt est générée par une distribution inconnue. . . 2 4 6 8 10 Temps discret des échantillons n=1, ,10 0.0 0.2 0.4 0.6 0.8 1.0 Échantillons X1 , ,Xn [0,1] Échantillons aléatoires, avec une rupture à un certain temps Lilian Besson Test BGLR et bandits non-stationnaires Jeudi 29 Août 2019 5 / 30
  17. Problèmes de bandits multi-bras (stationnaires) Détection de rupture Le problème

    de détection de rupture Le but est de distinguer entre deux hypothèses : H0 Les distributions ont toutes la même moyenne (“pas de rupture”) ∃µ0, E[X1] = E[X2] = · · · = E[Xt] = µ0 H1 Les distributions ont changé de moyennes au temps τ ∃µ0, µ1, τ, E[X1] = · · · = E[Xτ ] = µ0, µ0 = µ1, E[Xτ+1] = E[Xτ+2] = · · · = µ1 On s’arrête au temps τ, dès qu’on détecte une rupture Lilian Besson Test BGLR et bandits non-stationnaires Jeudi 29 Août 2019 6 / 30
  18. Problèmes de bandits multi-bras (stationnaires) Détection de rupture Le problème

    de détection de rupture Le but est de distinguer entre deux hypothèses : H0 Les distributions ont toutes la même moyenne (“pas de rupture”) ∃µ0, E[X1] = E[X2] = · · · = E[Xt] = µ0 H1 Les distributions ont changé de moyennes au temps τ ∃µ0, µ1, τ, E[X1] = · · · = E[Xτ ] = µ0, µ0 = µ1, E[Xτ+1] = E[Xτ+2] = · · · = µ1 On s’arrête au temps τ, dès qu’on détecte une rupture Un détecteur de rupture séquentiel est un temps d’arrêt τ, mesurable selon Ft = σ(X1, · · · , Xt), qui rejette l’hypothèse H0 lorsque τ < ∞. Lilian Besson Test BGLR et bandits non-stationnaires Jeudi 29 Août 2019 6 / 30
  19. Exemple facile de détection de rupture 0 10 20 30

    40 50 Temps discret des échantillons n=1, ,50 0.0 0.2 0.4 0.6 0.8 1.0 Échantillons X1 , ,Xn [0,1] Échantillons aléatoires, avec une rupture à un certain temps
  20. Exemple facile de détection de rupture 0 10 20 30

    40 50 Temps discret des échantillons n=1, ,50 0.0 0.2 0.4 0.6 0.8 1.0 X1 X25 B(0.9) et X25 , ,X50 B(0.1) Échantillons aléatoires, avec une rupture au temps 26
  21. Difficile avec peu d’échantillons ? 2 4 6 8 10

    Temps discret des échantillons n=1, ,10 0.0 0.2 0.4 0.6 0.8 1.0 Échantillons X1 , ,Xn [0,1] Échantillons aléatoires, avec une rupture à un certain temps
  22. Difficile avec peu d’échantillons ? 2 4 6 8 10

    Temps discret des échantillons n=1, ,10 0.0 0.2 0.4 0.6 0.8 1.0 X1 X5 B(0.9) et X5 , ,X10 B(0.1) Échantillons aléatoires, avec une rupture au temps 6
  23. Difficile avec des moyennes trop proches ? 0 10 20

    30 40 50 Temps discret des échantillons n=1, ,50 0.0 0.2 0.4 0.6 0.8 1.0 Échantillons X1 , ,Xn [0,1] Échantillons aléatoires, avec une rupture à un certain temps
  24. Difficile avec des moyennes trop proches ? 0 10 20

    30 40 50 Temps discret des échantillons n=1, ,50 0.0 0.2 0.4 0.6 0.8 1.0 X1 X25 B(0.5) et X25 , ,X50 B(0.49) Échantillons aléatoires, avec une rupture au temps 26
  25. Problèmes de bandits multi-bras (stationnaires) Détection de rupture Qu’est-ce qu’un

    bon test de détection de rupture ? Deux propriétés essentielles : 1. Pas de fausse alarme 1. Un bon test ne doit rien détecter s’il n’y a pas de rupture à détecter... 2. Un délai de détection court 2. Un bon test devrait détecter une rupture “assez vite” s’il y a une rupture à détecter, avec assez d’échantillons avant la rupture. . . Lilian Besson Test BGLR et bandits non-stationnaires Jeudi 29 Août 2019 13 / 30
  26. Problèmes de bandits multi-bras (stationnaires) Détection de rupture Qu’est-ce qu’un

    bon test de détection de rupture ? Deux propriétés essentielles : 1. Pas de fausse alarme 1. Un bon test ne doit rien détecter s’il n’y a pas de rupture à détecter... Premier extrême : aucune fausse alarme si on détecte jamais 2. Un délai de détection court 2. Un bon test devrait détecter une rupture “assez vite” s’il y a une rupture à détecter, avec assez d’échantillons avant la rupture. . . Autre extrême : délai nul si on détecte tout le temps =⇒ résoudre le compromis entre les deux extrêmes ! Lilian Besson Test BGLR et bandits non-stationnaires Jeudi 29 Août 2019 13 / 30
  27. Problèmes de bandits multi-bras (stationnaires) Test de rapport de vraisemblances

    pour des données de Bernoulli Test de rapport de vraisemblances de Bernoulli Hypothèses : toutes les distributions sont Bernoulli (νk = B(µk)) Le problème se résume à distinguer H0: (∃µ0 : ∀i ∈ N∗, Xi i.i.d. ∼ B(µ0)), contre l’alternative H1: (∃µ0 = µ1, τ > 1 : X1, · · · , Xτ i.i.d. ∼ B(µ0) et Xτ+1, · · · i.i.d. ∼ B(µ1)). Lilian Besson Test BGLR et bandits non-stationnaires Jeudi 29 Août 2019 14 / 30
  28. Problèmes de bandits multi-bras (stationnaires) Test de rapport de vraisemblances

    pour des données de Bernoulli Test de rapport de vraisemblances de Bernoulli Hypothèses : toutes les distributions sont Bernoulli (νk = B(µk)) Le problème se résume à distinguer H0: (∃µ0 : ∀i ∈ N∗, Xi i.i.d. ∼ B(µ0)), contre l’alternative H1: (∃µ0 = µ1, τ > 1 : X1, · · · , Xτ i.i.d. ∼ B(µ0) et Xτ+1, · · · i.i.d. ∼ B(µ1)). Après avoir observé X1, · · · , Xn, la statistique du test de rapport de vraisemblances pour cette hypothèse est L(n) = sup µ0,µ1,τ<n (X1 , · · · , Xn ; µ0 , µ1 , τ) sup µ0 (X1 , · · · , Xn ; µ0 ) , où (X1, · · · , Xn; µ0) et (X1, · · · , Xn; µ0, µ1, τ) sont les vraisemblances des observations selon les modèles H0 et H1. Lilian Besson Test BGLR et bandits non-stationnaires Jeudi 29 Août 2019 14 / 30
  29. Problèmes de bandits multi-bras (stationnaires) Test de rapport de vraisemblances

    pour des données de Bernoulli Test de rapport de vraisemblances de Bernoulli Hypothèses : toutes les distributions sont Bernoulli (νk = B(µk)) Le problème se résume à distinguer H0: (∃µ0 : ∀i ∈ N∗, Xi i.i.d. ∼ B(µ0)), contre l’alternative H1: (∃µ0 = µ1, τ > 1 : X1, · · · , Xτ i.i.d. ∼ B(µ0) et Xτ+1, · · · i.i.d. ∼ B(µ1)). Après avoir observé X1, · · · , Xn, la statistique du test de rapport de vraisemblances pour cette hypothèse est L(n) = sup µ0,µ1,τ<n (X1 , · · · , Xn ; µ0 , µ1 , τ) sup µ0 (X1 , · · · , Xn ; µ0 ) , où (X1, · · · , Xn; µ0) et (X1, · · · , Xn; µ0, µ1, τ) sont les vraisemblances des observations selon les modèles H0 et H1. → De grandes valeurs de L(n) tendent à rejeter H0 en faveur de H1. Lilian Besson Test BGLR et bandits non-stationnaires Jeudi 29 Août 2019 14 / 30
  30. Problèmes de bandits multi-bras (stationnaires) Test de rapport de vraisemblances

    pour des données de Bernoulli (log) Rapport de vraisemblances de Bernoulli On peut réécrire cette statistique L(n) = sup µ0,µ1,τ<n (X1,··· ,Xn;µ0,µ1,τ) sup µ0 (X1,··· ,Xn;µ0) , avec les moyennes glissantes µk:k = 1 k −k+1 k s=k Xs : log L(n) = max s∈{1,··· ,n−1} s × kl( µ1:s avant s , µ1:n tout ) +(n − s) × kl(µs+1:n après s , µ1:n tout ) . Où kl(x, y) = x ln x y + (1 − x) ln 1−x 1−y est l’entropie relative binaire Lilian Besson Test BGLR et bandits non-stationnaires Jeudi 29 Août 2019 15 / 30
  31. Problèmes de bandits multi-bras (stationnaires) Le T-BGLR Le test généralisé

    de rapport de vraisemblances de Bernoulli (T-BGLR) Le T-BGLR est le temps d’arrêt τδ définit par τδ = inf n ∈ N∗ : max s∈{1,··· ,n−1} s kl (µ1:s , µ1:n )+(n−s) kl (µs+1:n , µ1:n ) ≥ β(n, δ) avec une function seuil β(n, δ) spécifiée plus tard, n ∈ N∗ est le nombre d’observations (X1, . . . , Xn), 0 < δ < 1 est le niveau de confiance. Lilian Besson Test BGLR et bandits non-stationnaires Jeudi 29 Août 2019 16 / 30
  32. Problèmes de bandits multi-bras (stationnaires) Fausse alarme Probabilité de fausse

    alarme Définition : fausse alarme Une rupture est détectée si τδ < ∞. Soit Pµ0 un modèle de probabilité selon lequel les observations sont ∀t, Xt ∈ [0, 1] et ∀t, E[Xt] = µ0. La probabilité de fausse alarme est Pµ0 (τδ < ∞). =⇒ But : contrôler l’événement de fausse alarme ! (en forte proba) Lilian Besson Test BGLR et bandits non-stationnaires Jeudi 29 Août 2019 17 / 30
  33. Problèmes de bandits multi-bras (stationnaires) Fausse alarme Premier résultat pour

    le test BGLR Contrôler la probabilité de fausse alarme Pour n’importe quel niveau de confiance 0 < δ < 1, le test BGLR satisfait Pµ0 (τδ < ∞) ≤ δ avec la fonction seuil β(n, δ) = 2 T ln(3n √ n/δ) 2 + 6 ln(1 + ln(n)) ln 3n √ n δ = O log n δ . Où T (x) vérifie T (x) x + ln(x) pour x assez grand Lilian Besson Test BGLR et bandits non-stationnaires Jeudi 29 Août 2019 18 / 30
  34. Problèmes de bandits multi-bras (stationnaires) Fausse alarme Premier résultat pour

    le test BGLR Contrôler la probabilité de fausse alarme Pour n’importe quel niveau de confiance 0 < δ < 1, le test BGLR satisfait Pµ0 (τδ < ∞) ≤ δ avec la fonction seuil β(n, δ) = 2 T ln(3n √ n/δ) 2 + 6 ln(1 + ln(n)) ln 3n √ n δ = O log n δ . Où T (x) vérifie T (x) x + ln(x) pour x assez grand Preuve ? → la version longue de notre article HAL-02006471 et arXiv:1902.01575 Lilian Besson Test BGLR et bandits non-stationnaires Jeudi 29 Août 2019 18 / 30
  35. Problèmes de bandits multi-bras (stationnaires) Délai de détection Délai de

    détection Definition : délai de détection Soit Pµ0,µ1,τ un modèle de probabilité selon lequel ∀t, Xt ∈ [0, 1] et ∀t ≤ τ, E[Xt] = µ0 et ∀t ≥ τ + 1, E[Xt] = µ1, avec µ0 = µ1. Le délai de détection est définit par la variable aléatoire u = τδ − τ ∈ N. =⇒ But : contrôler le délai de détection ! (en forte probabilité) Lilian Besson Test BGLR et bandits non-stationnaires Jeudi 29 Août 2019 19 / 30
  36. Problèmes de bandits multi-bras (stationnaires) Délai de détection Second résultat

    pour le test BGLR Contrôler le délai de détection Pour une rupture d’amplitude ∆ = |µ1 − µ0|, le test BGLR satisfait Pµ0,µ1,τ (τδ ≥ τ + u) ≤ exp  − 2τu τ + u max 0, ∆ − τ + u 2τu β(τ + u, δ) 2  = O(décroissance exponentielle en u) = O(exp (u)). avec la même fonction de seuil β(n, δ) ln(3n √ n/δ). Conséquence En forte probabilité, le délai τδ du BGLR est borné par O(∆−2 ln(1/δ)) si assez d’échantillons sont observés avant la rupture au temps τ. Lilian Besson Test BGLR et bandits non-stationnaires Jeudi 29 Août 2019 20 / 30
  37. Problèmes de bandits multi-bras (stationnaires) Résumé des résultats du T-BGLR

    BGLR est un test de détection de rupture efficace ! On a vu qu’en choisissant un niveau de confiance δ, et une bonne fonction de seuil β(n, δ) ln(3n √ n/δ) = O(log(n/δ)), Lilian Besson Test BGLR et bandits non-stationnaires Jeudi 29 Août 2019 21 / 30
  38. Problèmes de bandits multi-bras (stationnaires) Résumé des résultats du T-BGLR

    BGLR est un test de détection de rupture efficace ! On a vu qu’en choisissant un niveau de confiance δ, et une bonne fonction de seuil β(n, δ) ln(3n √ n/δ) = O(log(n/δ)), on peut contrôler les deux propriétés du test BGLR : sa probabilité de fausse alarme : Pµ0 (τδ < ∞) ≤ δ, son délai de détection : Pµ0,µ1,τ (τδ ≥ τ + u) décroît exponentiellement rapidement en u (s’il y a assez d’observations avant et après la rupture) =⇒ Le test BGLR détecte les ruptures efficacement Lilian Besson Test BGLR et bandits non-stationnaires Jeudi 29 Août 2019 21 / 30
  39. Simulations numériques Détails des expériences Simulations numériques On considère trois

    problèmes avec K = 3 bras de Bernoulli T = 5000 étapes de temps (horizon fini) ΥT = 4 ruptures (= 5 séquences stationnaires) Les algorithmes peuvent utiliser cette connaissance de T et ΥT 1000 simulations indépendantes, on affiche le regret moyen Lilian Besson Test BGLR et bandits non-stationnaires Jeudi 29 Août 2019 22 / 30
  40. Simulations numériques Détails des expériences Simulations numériques On considère trois

    problèmes avec K = 3 bras de Bernoulli T = 5000 étapes de temps (horizon fini) ΥT = 4 ruptures (= 5 séquences stationnaires) Les algorithmes peuvent utiliser cette connaissance de T et ΥT 1000 simulations indépendantes, on affiche le regret moyen Référence On utilise ma bibliothèque open-source en Python pour la simulation de problèmes de bandits, SMPyBandits → Publiée en ligne à SMPyBandits.GitHub.io Lilian Besson Test BGLR et bandits non-stationnaires Jeudi 29 Août 2019 22 / 30
  41. Problème 1 : seulement des changements locaux 0 1000 2000

    3000 4000 5000 Time steps t=1...T, horizon T=5000 0.2 0.4 0.6 0.8 Successive means of the K=3 arms History of means for Non-Stationary MAB, Bernoulli with 4 break-points Arm #0 Arm #1 Arm #2 On affiche les moyennes : µ1(t), µ2(t), µ3(t).
  42. Exemple de détections de ruptures pour le problème 1 0.00

    0.25 0.50 0.75 1.00 M-klUCB (regret = 280) CUSUM-klUCB (regret = 150) 0 2000 4000 0.00 0.25 0.50 0.75 1.00 GLR-klUCB Local (regret = 63) 0 2000 4000 GLR-klUCB Global (regret = 71) Locations of change-points detected by different algorithms (problem 1) =⇒ Notre test est efficace ! (sur un exemple)
  43. Conclusion Résumé Résumé Le test généralisé de rapport de vraisemblances

    de Bernoulli (T-BGLR) est très efficace pour détecter les ruptures sans fausse alarme et faible délai pour des données de Bernoulli, et aussi des données sous-Bernoulli (n’importe quelle distribution bornée !), et n’a pas besoin de connaître l’amplitude des ruptures ∆ On peut le combiner avec une stratégie de bandit efficace : BGLR + kl-UCB Sa borne de regret est RT = O(K TΥT log(T)) (état de l’art) Notre algorithme est compétitif avec le reste de l’état de l’art sur nos simulations numériques Lilian Besson Test BGLR et bandits non-stationnaires Jeudi 29 Août 2019 27 / 30
  44. Conclusion Merci Conclusion Merci de votre attention Questions & Discussion

    ? Si besoin : [email protected] Lilian Besson Test BGLR et bandits non-stationnaires Jeudi 29 Août 2019 28 / 30
  45. Parlons d’action contre la crise climatique ! Nous sommes scientifiques.

    . . Buts : s’informer, réfléchir, résoudre, transmettre ! Informons nous des causes et conséquences de la crise climatique, Réfléchissons aux problèmes, à l’échelle politique, locale et individuelle, Trouvons des solutions simples ! =⇒ Viser la sobriété : transports, tourisme, vêtements, alimentation, calculs informatique, lutte contre le tabagisme, etc. Transmettons notre prise de conscience, et nos actions.