Wassim Jouini - Apprentissage dans un environnement incertain appliqué à l'Accès Opportuniste au Spectre

APPRENTISSAGE DANS UN ENVIRONNEMENT INCERTAIN APPLIQUÉ À L’ACCÈS OPPORTUNISTE AU
SPECTRE WASSIM JOUINI SCEE/IETR, SUPÉLEC 31-03-2011

PLAN Introduction L’Accès Opportuniste au Spectre Les Bandits-Manchots Modèle des
Femto-réseaux Secondaires Modèle des Femto-réseaux Secondaires Modèle des Réseaux hétérogènes (à suivre) Conclusion 31/03/2011 Apprentissage pour L'Accès Opportuniste au Spectre 2

INTRODUCTION Les principes: Radio Intelligente, Cycle Cognitif et Agent Intelligent
Moteur de décision : tout est une question d’information… d’information… 31/03/2011 Apprentissage pour L'Accès Opportuniste au Spectre 3

LES PRINCIPES: RADIO INTELLIGENTE, CYCLE COGNITIF ET AGENT INTELLIGENT Cognitive
Radio : Analyse Analyse Analyse Analyse Action Action Action Action Cycle Cognitif Cycle Cognitif Cycle Cognitif Cycle Cognitif 31/03/2011 Apprentissage pour L'Accès Opportuniste au Spectre ENVIRONNEMENT… Observation Observation Observation Observation Analyse Analyse Analyse Analyse Décision Décision Décision Décision Action Action Action Action Cycle Cognitif Cycle Cognitif Cycle Cognitif Cycle Cognitif Agent Agent Agent Agent 4

MOTEUR DE DÉCISION : TOUT EST UNE QUESTION D’INFORMATION… (1)
31/03/2011 Apprentissage pour L'Accès Opportuniste au Spectre 5

MOTEUR DE DÉCISION : TOUT EST UNE QUESTION D’INFORMATION… (2)
Information Complète Information Complète Information Complète Information Complète Information Incomplète Information Incomplète Information Incomplète Information Incomplète 31/03/2011 Apprentissage pour L'Accès Opportuniste au Spectre Information Complète Information Complète Information Complète Information Complète Information Incomplète Information Incomplète Information Incomplète Information Incomplète 6

L’ACCÈS OPPORTUNISTE AU SPECTRE L’allocation du spectre depuis un siècle…
…Mène à une pénurie spectrale… … pénurie virtuelle et un spectre sous-utilisé! Vers l’Accès Opportuniste au Spectre Vers l’Accès Opportuniste au Spectre Formulation du problème 31/03/2011 Apprentissage pour L'Accès Opportuniste au Spectre 7

L’ALLOCATION DU SPECTRE DEPUIS UN SIÈCLE… Bande 2 Bande 2
Bande 2 Bande 2 Régulateur Régulateur Régulateur Régulateur 31/03/2011 Apprentissage pour L'Accès Opportuniste au Spectre 8

Bande 2 Bande 2 Bande 2 Bande 2 Régulateur Régulateur
Régulateur Régulateur …MÈNE À UNE PÉNURIE SPECTRALE… 31/03/2011 Apprentissage pour L'Accès Opportuniste au Spectre 9

… PÉNURIE VIRTUELLE ET UN SPECTRE SOUS-UTILISÉ! 31/03/2011 Apprentissage pour
L'Accès Opportuniste au Spectre 10

… PÉNURIE VIRTUELLE ET UN SPECTRE SOUS-UTILISÉ! 31/03/2011 Apprentissage pour
L'Accès Opportuniste au Spectre 11

VERS L’ACCÈS OPPORTUNISTE AU SPECTRE Réseau Primaire Réseau Primaire Réseau
Primaire Réseau Primaire Réseau Secondaire Réseau Secondaire Réseau Secondaire Réseau Secondaire Analyse Analyse Analyse Analyse Décision Décision Décision Décision Action Action Action Action 31/03/2011 Apprentissage pour L'Accès Opportuniste au Spectre Agent Agent Agent Agent Agent Agent Agent Agent Réseau Primaire Réseau Primaire Réseau Primaire Réseau Primaire Réseau Secondaire Réseau Secondaire Réseau Secondaire Réseau Secondaire Observation Observation Observation Observation 12

FORMULATION DU PROBLÈME (1) 1- QUE POUVONS-NOUS « ESPÉRER »
EXPLOITER? 2- COMMENT Y ARRIVER? 3- L’IMPACT DES ERREURS D’OBSERVATION? 31/03/2011 Apprentissage pour L'Accès Opportuniste au Spectre 13

FORMULATION DU PROBLÈME (2) Réseau Primaire Réseau Primaire Réseau Primaire
Réseau Primaire 1. 1. 1. 1. Contient Contient Contient Contient K canaux K canaux K canaux K canaux visés par le réseau secondaire visés par le réseau secondaire visés par le réseau secondaire visés par le réseau secondaire 2. 2. 2. 2. Prioritaire sur les bandes de fréquences qui lui sont allouées Prioritaire sur les bandes de fréquences qui lui sont allouées Prioritaire sur les bandes de fréquences qui lui sont allouées Prioritaire sur les bandes de fréquences qui lui sont allouées 3. 3. 3. 3. On suppose le temps discret On suppose le temps discret On suppose le temps discret On suppose le temps discret t = 0, 1, …, t = 0, 1, …, t = 0, 1, …, t = 0, 1, …, 4. 4. 4. 4. A chaque itération le canal peut être soit occupé soit libre. A chaque itération le canal peut être soit occupé soit libre. A chaque itération le canal peut être soit occupé soit libre. A chaque itération le canal peut être soit occupé soit libre. 31/03/2011 Apprentissage pour L'Accès Opportuniste au Spectre Réseau Secondaire Réseau Secondaire Réseau Secondaire Réseau Secondaire 1. 1. 1. 1. Ne dois pas interférer avec le Réseau Primaire Ne dois pas interférer avec le Réseau Primaire Ne dois pas interférer avec le Réseau Primaire Ne dois pas interférer avec le Réseau Primaire (Observation) (Observation) (Observation) (Observation) 2. 2. 2. 2. N’a pas d’information N’a pas d’information N’a pas d’information N’a pas d’information a priori a priori a priori a priori sur le réseau primaire sur le réseau primaire sur le réseau primaire sur le réseau primaire (Apprentissage) (Apprentissage) (Apprentissage) (Apprentissage) 3. 3. 3. 3. Suit le cycle cognitif à Suit le cycle cognitif à Suit le cycle cognitif à Suit le cycle cognitif à chaque chaque chaque chaque itération itération itération itération t t t t 14

Transmission? Transmission? Transmission? Transmission? FORMULATION DU PROBLÈME (3) π π
π πcs cs cs cs π π π πs s s s Gain Gain Gain Gain Un Utilisateur Secondaire… Un Utilisateur Secondaire… Un Utilisateur Secondaire… Un Utilisateur Secondaire… À chaque itération À chaque itération À chaque itération À chaque itération t… t… t… t… 31/03/2011 Apprentissage pour L'Accès Opportuniste au Spectre Cherche à maximiser son gain cumulé au cours Cherche à maximiser son gain cumulé au cours Cherche à maximiser son gain cumulé au cours Cherche à maximiser son gain cumulé au cours d’une communication d’une communication d’une communication d’une communication 15

Transmission? Transmission? Transmission? Transmission? FORMULATION DU PROBLÈME (4) π π
π πcs cs cs cs π π π πs s s s Gain Gain Gain Gain Un Utilisateur Secondaire… Un Utilisateur Secondaire… Un Utilisateur Secondaire… Un Utilisateur Secondaire… À chaque itération À chaque itération À chaque itération À chaque itération t… t… t… t… 31/03/2011 Apprentissage pour L'Accès Opportuniste au Spectre Quel stratégie employer pour converger vers le Quel stratégie employer pour converger vers le Quel stratégie employer pour converger vers le Quel stratégie employer pour converger vers le choix qui offre le plus grand gain moyen? choix qui offre le plus grand gain moyen? choix qui offre le plus grand gain moyen? choix qui offre le plus grand gain moyen? 16

Information Complète Information Complète Information Complète Information Complète Information Incomplète
Information Incomplète Information Incomplète Information Incomplète Formulation du Problème (5) 31/03/2011 Apprentissage pour L'Accès Opportuniste au Spectre Information Complète Information Complète Information Complète Information Complète Information Incomplète Information Incomplète Information Incomplète Information Incomplète 17

LES BANDITS MANCHOTS (1) 31/03/2011 Apprentissage pour L'Accès Opportuniste au
Spectre 1. 1. 1. 1. On choisit une machine à sous à jouer On choisit une machine à sous à jouer On choisit une machine à sous à jouer On choisit une machine à sous à jouer 2. 2. 2. 2. On observe les gains collectés de la machine joué On observe les gains collectés de la machine joué On observe les gains collectés de la machine joué On observe les gains collectés de la machine joué 3. 3. 3. 3. Chaque machine à une espérance de gain moyen fixée mais inconnue Chaque machine à une espérance de gain moyen fixée mais inconnue Chaque machine à une espérance de gain moyen fixée mais inconnue Chaque machine à une espérance de gain moyen fixée mais inconnue 4. 4. 4. 4. Cas idéal Cas idéal Cas idéal Cas idéal : toujours : toujours : toujours : toujours exploiter exploiter exploiter exploiter la machine avec le plus grand gain moyen. la machine avec le plus grand gain moyen. la machine avec le plus grand gain moyen. la machine avec le plus grand gain moyen. 5. 5. 5. 5. Cas réel: Cas réel: Cas réel: Cas réel: Des pertes sont dues à l’ Des pertes sont dues à l’ Des pertes sont dues à l’ Des pertes sont dues à l’exploration exploration exploration exploration , i.e. à l’apprentissage , i.e. à l’apprentissage , i.e. à l’apprentissage , i.e. à l’apprentissage Dilemme Exploitation Dilemme Exploitation Dilemme Exploitation Dilemme Exploitation- - - -Exploration Exploration Exploration Exploration 18

LES BANDITS MANCHOTS (2) • K K K K machines
machines machines machines à à à à sous sous sous sous • Chaque Chaque Chaque Chaque machine machine machine machine a a a a une une une une probabilité probabilité probabilité probabilité de de de de gain gain gain gain stationnaire stationnaire stationnaire stationnaire • On On On On ne ne ne ne peut peut peut peut jouer jouer jouer jouer qu’une qu’une qu’une qu’une machine machine machine machine à à à à la la la la Equivalence : Equivalence : Equivalence : Equivalence : Bandit manchot VS Accès Opportuniste au Spectre Bandit manchot VS Accès Opportuniste au Spectre Bandit manchot VS Accès Opportuniste au Spectre Bandit manchot VS Accès Opportuniste au Spectre • K K K K canaux canaux canaux canaux • Chaque Chaque Chaque Chaque canal canal canal canal a a a a une une une une probabilité probabilité probabilité probabilité de de de de d’occupation d’occupation d’occupation d’occupation stationnaire stationnaire stationnaire stationnaire • On On On On ne ne ne ne peut peut peut peut accéder accéder accéder accéder qu’à qu’à qu’à qu’à un un un un canal canal canal canal à à à à la la la la 31/03/2011 Apprentissage pour L'Accès Opportuniste au Spectre • On On On On ne ne ne ne peut peut peut peut jouer jouer jouer jouer qu’une qu’une qu’une qu’une machine machine machine machine à à à à la la la la fois fois fois fois • On On On On observe observe observe observe le le le le gain gain gain gain de de de de la la la la machine machine machine machine joué joué joué joué à à à à l’instant l’instant l’instant l’instant t t t t • On On On On ne ne ne ne peut peut peut peut accéder accéder accéder accéder qu’à qu’à qu’à qu’à un un un un canal canal canal canal à à à à la la la la fois fois fois fois • On On On On évalue évalue évalue évalue la la la la qualité qualité qualité qualité du du du du canal canal canal canal choisi choisi choisi choisi à à à à l’instant l’instant l’instant l’instant t t t t Trouver une stratégie de sélection des machines/canaux en Trouver une stratégie de sélection des machines/canaux en Trouver une stratégie de sélection des machines/canaux en Trouver une stratégie de sélection des machines/canaux en fonction des observations et des gains passés. fonction des observations et des gains passés. fonction des observations et des gains passés. fonction des observations et des gains passés. 19

LES BANDITS MANCHOTS (3) On cherche un « On cherche
un « On cherche un « On cherche un « bon bon bon bon » algorithme qui » algorithme qui » algorithme qui » algorithme qui minimise minimise minimise minimise les « les « les « les « pertes pertes pertes pertes » dues à l’exploration » dues à l’exploration » dues à l’exploration » dues à l’exploration Pertes ou regret Pertes ou regret Pertes ou regret Pertes ou regret : Gain cumulé optimal –Gain de la stratégie choisie Bon algorithme Bon algorithme Bon algorithme Bon algorithme : qq soit z>0, tend vers 0 pour t grand. 31/03/2011 Apprentissage pour L'Accès Opportuniste au Spectre Bon algorithme Bon algorithme Bon algorithme Bon algorithme : qq soit z>0, tend vers 0 pour t grand. Alors, l’espérance du regret Alors, l’espérance du regret Alors, l’espérance du regret Alors, l’espérance du regret est toujours (quelque soit l’algorithme est toujours (quelque soit l’algorithme est toujours (quelque soit l’algorithme est toujours (quelque soit l’algorithme utilisé!) utilisé!) utilisé!) utilisé!) plus grande plus grande plus grande plus grande ou égale que la fonction : ou égale que la fonction : ou égale que la fonction : ou égale que la fonction : C C C Copt opt opt opt.log(t) .log(t) .log(t) .log(t) pour une certaine pour une certaine pour une certaine pour une certaine constante constante constante constante C C C Copt opt opt opt qui dépend des distributions des qui dépend des distributions des qui dépend des distributions des qui dépend des distributions des gains des machines à sous. gains des machines à sous. gains des machines à sous. gains des machines à sous. 20

LES BANDITS MANCHOTS (4) Existence des Algorithmes Optimaux?? Oui! Existence
des Algorithmes Optimaux?? Oui! Existence des Algorithmes Optimaux?? Oui! Existence des Algorithmes Optimaux?? Oui! • Certains algorithmes sont capables d’atteindre cette borne! Certains algorithmes sont capables d’atteindre cette borne! Certains algorithmes sont capables d’atteindre cette borne! Certains algorithmes sont capables d’atteindre cette borne! • Malheureusement : Algorithmes (Robbins 85, Agrawal 95) très complexes. Malheureusement : Algorithmes (Robbins 85, Agrawal 95) très complexes. Malheureusement : Algorithmes (Robbins 85, Agrawal 95) très complexes. Malheureusement : Algorithmes (Robbins 85, Agrawal 95) très complexes. 31/03/2011 Apprentissage pour L'Accès Opportuniste au Spectre Choix fait dans nos travaux Choix fait dans nos travaux Choix fait dans nos travaux Choix fait dans nos travaux • Algorithmes Additive Algorithmes Additive Algorithmes Additive Algorithmes Additive Upper Upper Upper Upper Confidence Confidence Confidence Confidence Bound Bound Bound Bound • Algorithmes d’ordre optimal et de complexité très faible Algorithmes d’ordre optimal et de complexité très faible Algorithmes d’ordre optimal et de complexité très faible Algorithmes d’ordre optimal et de complexité très faible 21

LES BANDITS MANCHOTS (5) 31/03/2011 Apprentissage pour L'Accès Opportuniste au
Spectre 22

LES BANDITS MANCHOTS (6) Le modèle des bandits manchots :
1. Offre un cadre mathématique général pour l’étude des problèmes 0SA 2. Offre des solutions efficaces si l’agent observe sans erreur l’état du réseau primaire sans erreur l’état du réseau primaire 31/03/2011 Apprentissage pour L'Accès Opportuniste au Spectre π π π πcs cs cs cs Gain Gain Gain Gain - - - - Choisit un canal : UCB Choisit un canal : UCB Choisit un canal : UCB Choisit un canal : UCB - - - - Transmission Transmission Transmission Transmission D D D D bit bit bit bit - - - - Evalue ses performances Evalue ses performances Evalue ses performances Evalue ses performances - - - - Gain borné Gain borné Gain borné Gain borné S’il S’il S’il S’il n’y n’y n’y n’y a a a a pas pas pas pas de de de de conflit conflit conflit conflit entre entre entre entre les les les les utilisateurs utilisateurs utilisateurs utilisateurs secondaires, secondaires, secondaires, secondaires, alors alors alors alors : : : : convergence convergence convergence convergence assurée assurée assurée assurée vers vers vers vers le le le le canal canal canal canal le le le le plus plus plus plus libre! libre! libre! libre! 23

LES BANDITS MANCHOTS (7) (ICC’10) 31/03/2011 Apprentissage pour L'Accès Opportuniste
au Spectre 24

LES BANDITS MANCHOTS (8) (ICC’10) 31/03/2011 Apprentissage pour L'Accès Opportuniste
au Spectre Qu’en est Qu’en est Qu’en est Qu’en est- - - -il dans le cadre général décrit précédemment? il dans le cadre général décrit précédemment? il dans le cadre général décrit précédemment? il dans le cadre général décrit précédemment? 25

MODÈLE DES FEMTO-RÉSEAUX SECONDAIRES (1) Intérêt Intérêt Intérêt Intérêt :
: : : Structure des Structure des Structure des Structure des Cellules de faibles dimensions Cellules de faibles dimensions Cellules de faibles dimensions Cellules de faibles dimensions, donc grande probabilité , donc grande probabilité , donc grande probabilité , donc grande probabilité d’être dans un d’être dans un d’être dans un d’être dans un contexte sans conflit contexte sans conflit contexte sans conflit contexte sans conflit entre utilisateurs secondaires . entre utilisateurs secondaires . entre utilisateurs secondaires . entre utilisateurs secondaires . Difficulté à résoudre Difficulté à résoudre Difficulté à résoudre Difficulté à résoudre : : : : Evaluation de l’impact des erreurs d’observation sur le Evaluation de l’impact des erreurs d’observation sur le Evaluation de l’impact des erreurs d’observation sur le Evaluation de l’impact des erreurs d’observation sur le processus d’apprentissage, suivant le modèle général : processus d’apprentissage, suivant le modèle général : processus d’apprentissage, suivant le modèle général : processus d’apprentissage, suivant le modèle général : 31/03/2011 Apprentissage pour L'Accès Opportuniste au Spectre Transmission? Transmission? Transmission? Transmission? π π π πcs cs cs cs π π π πs s s s Gain Gain Gain Gain Un Utilisateur Secondaire… Un Utilisateur Secondaire… Un Utilisateur Secondaire… Un Utilisateur Secondaire… À chaque itération À chaque itération À chaque itération À chaque itération t… t… t… t… Choisit Choisit Choisit Choisit un canal un canal un canal un canal Observe Observe Observe Observe le canal le canal le canal le canal Communique Communique Communique Communique si possible si possible si possible si possible Evalue Evalue Evalue Evalue ses performances ses performances ses performances ses performances 26

MODÈLE DES FEMTO-RÉSEAUX SECONDAIRES (2) Agent 1 émetteur Agent 1
émetteur Agent 1 émetteur Agent 1 émetteur ENVIRONNEMENT… ENVIRONNEMENT… ENVIRONNEMENT… ENVIRONNEMENT… 31/03/2011 Apprentissage pour L'Accès Opportuniste au Spectre Agent 1 émetteur Agent 1 émetteur Agent 1 émetteur Agent 1 émetteur Agent 2 récepteur Agent 2 récepteur Agent 2 récepteur Agent 2 récepteur 27

MODÈLE DES FEMTO-RÉSEAUX SECONDAIRES (3) Convergence? Convergence? Convergence? Convergence? •
Oui! Convergence d’ordre optimal! Mais à une vitesse moyenne qui se Oui! Convergence d’ordre optimal! Mais à une vitesse moyenne qui se Oui! Convergence d’ordre optimal! Mais à une vitesse moyenne qui se Oui! Convergence d’ordre optimal! Mais à une vitesse moyenne qui se dégrade d’un facteur (1 dégrade d’un facteur (1 dégrade d’un facteur (1 dégrade d’un facteur (1- - - -Pfa Pfa Pfa Pfa)² )² )² )² 31/03/2011 Apprentissage pour L'Accès Opportuniste au Spectre Performance asymptotique Performance asymptotique Performance asymptotique Performance asymptotique • Le gain moyen asymptotique de l’utilisateur secondaire tend vers (1 Le gain moyen asymptotique de l’utilisateur secondaire tend vers (1 Le gain moyen asymptotique de l’utilisateur secondaire tend vers (1 Le gain moyen asymptotique de l’utilisateur secondaire tend vers (1- - - -Pfa Pfa Pfa Pfa) fois ) fois ) fois ) fois le gain optimal dans le cas sans erreur d’observation. le gain optimal dans le cas sans erreur d’observation. le gain optimal dans le cas sans erreur d’observation. le gain optimal dans le cas sans erreur d’observation. 28

ET A PLUSIEURS? ON COOPÈRE OU PAS?? 31/03/2011 Apprentissage pour
L'Accès Opportuniste au Spectre ENVIRONNEMENT… ENVIRONNEMENT… ENVIRONNEMENT… ENVIRONNEMENT… 32

CONCLUSION On a présenté le modèle de l’AOS en général.
On a suggéré un lien fort entre le domaine des bandits manchots et l’AOS. Nous avons analysé l’impact des erreurs d’observation sur les utilisateurs secondaires au sein d’un scénario réaliste. L’initialisation de la communication n’a pas été abordée (apprendre à détecter l’utilisateur primaire si nécessaire). Mais quelques travaux effectués en collaboration avec l’UPC (Barcelone). Le cas des réseaux où plusieurs utilisateurs secondaires se disputent les mêmes ressources est en cours d’étude… 31/03/2011 Apprentissage pour L'Accès Opportuniste au Spectre 33

QUELQUES RÉFÉRENCES (1) (1) « Cognitive Radio Technology, a Study
for Ofcom-Summury report » (2) W Jouini, D Ernst, C Moy, and J Palicot. Upper conﬁdence bound based decision making strategies and dynamic spectrum access. In IEEE International Conference on Communications (ICC), Cape Town, South Africa, May 2010. (3) J. Mitola and G.Q. Maguire. Cognitive radio: making software radios more personal. Personal Communications, IEEE, 6:13–18, August 1999. Nokia : http://research.nokia.com/cognitive_radio 31/03/2011 Apprentissage pour L'Accès Opportuniste au Spectre 34 (4) Nokia : http://research.nokia.com/cognitive_radio (5) W. Jouini, C. Moy, and J. Palicot. On decision making for dynamic conﬁguration adaptation problem in cognitive radio equipments: a multi-armed bandit based approach. 6th Karlsruhe Workshop on Software Radios,WSR’10, Karlsruhe, Germany, March 2010. (6) H. Robbins. Some aspects of the sequential design of experiments. Bulletin of American Mathematical Society, 58:527–535, 1952.

QUELQUES RÉFÉRENCES (2) (8) P. Auer, N. Cesa-Bianchi, and P.
Fischer. Finite time analysis of multi-armed bandit problems. Machine learning, 47(2/3):235–256, 2002. (9) J.-Y. Audibert, R. Munos, and C. Szepesvári. Tuning bandit algorithms in stochastic environments. In Proceedings of the 18th international conference on Algorithmic Learning Theory, 2007. (10) W Jouini, C Moy, and J Palicot. Upper confidence bound algorithm for opportunistic spectrum access with sensing errors. In CrownCom’11, Osaka, Japan, June 2011. 31/03/2011 Apprentissage pour L'Accès Opportuniste au Spectre 35 spectrum access with sensing errors. In CrownCom’11, Osaka, Japan, June 2011. (11)W Jouini, D Ernst, C Moy, and J Palicot. Upper confidence bound based decision making strategies and dynamic spectrum access. In IEEE International Conference on Communications (ICC), Cape Town, South Africa, May 2010.

Wassim Jouini - Apprentissage dans un environne...

Wassim Jouini - Apprentissage dans un environnement incertain appliqué à l'Accès Opportuniste au Spectre

More Decks by SCEE Team

Other Decks in Research

Featured

Transcript