IMMersion 3D basée sur l'interaction EMOtionnelle Supélec, Artefacto, InstitutTelecom, ISIR. Serious Game : créer un environnement virtuel immersif 3D dans lequel est plongé un apprenant. IMMERSIVITE, 2011 – 2012, Projet régional PME IMmersion dans un environnement de forMation convERsationnel, expresSIf et VIrTuEl Dialonics, CERV, Dynamixyz, Supélec, Virtualis Serious Game : interaction entre des personnes et des agents virtuels. REPLICA, 2012 – 2015, Projet collaboratif national "ANR –TECHSAN" Rééducation des Praxies faciales chez des paralysés Cérébraux via un Avatar interactif University of Rennes II (M2S, CRP2C), Hôpitaux Saint Maurice, Dynamixyz, Supélec. Fournir un outil ludique d’entrainement à la parole. Maintient à domicile des personnes âgées, 2013 – 2015, Projet PME Bretagne soumis Neotec-Vision (porteur du projet), Supelec, Dynamixyz, ESC Rennes et INSA Rennes Outil permettant de lever une alarme lorsque des comportements inattendus se produisent Projets Collaboratifs Contextes applicatifs Serious Game Domaine médical Ambient Assisted Living (AAL) 2
Robustesse Flexibilité Signification Acte II : Challenge AVEC 2012 Données du challenge Valence (Positif vs. Actif) 4 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU
les déformations faciales proches Robuste : gérer les différentes morphologies (identités) Exhaustif : détecter les déformations non connues du système Flexible : prendre en compte un sujet inconnu du système Significatif : donner un sens à la description proposée Système non intrusif (caméra RGB) Représentation des expressions faciales 73 points caractéristiques Niveau de gris Travaux réalisés par Hanan Salam (Merci Hanan !) Visage Expression Emotion 5
les déformations faciales proches Robuste : gérer les différentes morphologies (identités) Exhaustif : détecter les déformations non connues du système Flexible : prendre en compte un sujet inconnu du système Significatif : donner un sens à la description proposée Système non intrusif Représentation Représentation des expressions faciales 73 points caractéristiques Niveau de gris Travaux réalisés par Hanan Salam (Merci Hanan !) Visage Expression Emotion 6
les déformations faciales proches Robuste : gérer les différentes morphologies (identités) Exhaustif : détecter les déformations non connues du système Flexible : prendre en compte un sujet inconnu du système Significatif : donner un sens à la description proposée Système non intrusif Représentation Représentation des expressions faciales 73 points caractéristiques Niveau de gris Travaux réalisés par Hanan Salam (Merci Hanan !) Visage Expression Emotion 7
les déformations faciales proches Robuste : gérer les différentes morphologies (identités) Exhaustif : détecter les déformations non connues du système Flexible : prendre en compte un sujet inconnu du système Significatif : donner un sens à la description proposée Système non intrusif Représentation Visage Expression Emotion Représentation des expressions faciales 73 points caractéristiques Niveau de gris Travaux réalisés par Hanan Salam (Merci Hanan !) 8
les déformations faciales proches Robuste : gérer les différentes morphologies (identités) Exhaustif : détecter les déformations non connues du système Flexible : prendre en compte un sujet inconnu du système Significatif : donner un sens à la description proposée Système non intrusif Représentation Visage Expression Emotion Représentation des expressions faciales 73 points caractéristiques Niveau de gris Travaux réalisés par Hanan Salam (Merci Hanan !) ? ? ? 9
les déformations faciales proches Robuste : gérer les différentes morphologies (identités) Exhaustif : détecter les déformations non connues du système Flexible : prendre en compte un sujet inconnu du système Significatif : donner un sens à la description proposée Système non intrusif Représentation Visage Expression Emotion Représentation des expressions faciales 73 points caractéristiques Niveau de gris Travaux réalisés par Hanan Salam (Merci Hanan !) ? 10
les déformations faciales proches Robuste : gérer les différentes morphologies (identités) Exhaustif : détecter les déformations non connues du système Flexible : prendre en compte un sujet inconnu du système Significatif : donner un sens à la description proposée Système non intrusif Représentation Visage Expression Emotion Représentation des expressions faciales 73 points caractéristiques Niveau de gris Travaux réalisés par Hanan Salam (Merci Hanan !) 11
Sujet B Sujet A Vecteurs d’apparence Modèle générique Vecteurs d’apparence différentiels Modèle générique 13 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU
Modèle générique Vecteurs d’apparence Modèle spécifique (A) Vecteurs d’apparence Modèle spécifique (B) Sujet B Sujet A 14 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU
les différentes morphologies (identités) Exhaustif : détecter les déformations non connues du système Flexible : prendre en compte un sujet inconnu du système Significatif : donner un sens à la description proposée Acte I 1 système – 5 contraintes Visage Expression Emotion Représentation des expressions faciales Vecteurs d’apparence Modèle spécifique (A) Vecteurs d’apparence Modèle spécifique (B) 15
similarité de Sorenzen : Nombre de connexions communes aux deux structures Nombre de connexions de chaque structure Facteur de normalisation 20 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU
de comparaison, une transposition de deux sommets voisins ayant chacun 5 voisins : aurait donné un indice de 0.78. Deux organisations dont l’indice est compris entre 0.8 et 1 peuvent être considérées comme similaires. 22 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU
l’organisation des expressions : 1. l’indice de similarité d’une organisation avec les P −1 autres organisations (valeur moyenne) 2. l’organisation universelle des expressions (indice de similarité le plus élevé) 23 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU
indices de similarité entre l’organisation de nos 17 sujets et l’organisation « universelle » Indice entre 0.82 et 1 (donc toujours supérieur à 0.8) Structures réelles sont des les 1.5% des indices les plus grands des structures aléatoires 24 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU
les différentes morphologies (identités) Exhaustif : détecter les déformations non connues du système Flexible : prendre en compte un sujet inconnu du système Significatif : donner un sens à la description proposée Acte I 1 système – 5 contraintes Visage Expression Emotion Représentation des expressions faciales 25
sa position relative par rapport aux autres étoiles (expressions) de forte intensité Dans cette direction là, il y a trois étoiles de forte intensité qui forment un triangle quasi équilatéral, légèrement incliné vers la gauche. L’étoile est située dans le triangle formé par ces trois étoiles. Elle est d’intensité moyenne et est proche de l’étoile de droite qui forme le triangle. 26 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU
les différentes morphologies (identités) Exhaustif : détecter les déformations non connues du système Flexible : prendre en compte un sujet inconnu du système Significatif : donner un sens à la description proposée Acte I 1 système – 5 contraintes Visage Expression Emotion Représentation des expressions faciales 29
17 sujets connus Robustesse par rapport au type de données 9 textures => d’un sujet i 1 expression inconnue du sujet i 9 formes => d’un sujet j != i 1 expression inconnue du sujet j similaire à celle du sujet i 32 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU
les différentes morphologies (identités) Exhaustif : détecter les déformations non connues du système Flexible : prendre en compte un sujet inconnu du système Significatif : donner un sens à la description proposée Acte I 1 système – 5 contraintes Visage Expression Emotion Représentation des expressions faciales 36
les différentes morphologies (identités) Exhaustif : détecter les déformations non connues du système Flexible : prendre en compte un sujet inconnu du système Significatif : donner un sens à la description proposée Acte I 1 système – 5 contraintes Visage Expression Emotion Représentation des expressions faciales Une expression inconnue = un mélange d’expressions connues + une intensité 37
Robuste : gérer les différentes morphologies (identités) Exhaustif : détecter les déformations non connues du système Flexible : prendre en compte un sujet inconnu du système Significatif : donner un sens à la description proposée 40
séquences vidéo 2. dans un contexte de reconnaissance d’émotions (variations d’émotion) 3. en environnement multimodal 95 séquences audio-vidéo d’une durée de 2 à 10 minutes affichant une conversation entre un sujet et un agent émotionnel 4 agents émotionnels : • Poppy est joyeux • Spike est agressif • Odadiah est sombre, triste • Prudence est pragmatique Les labels de vérité terrain sont fournis pour les dimensions : • Arousal actif vs. passif • Expectation surpris vs. non surpris • Valence positif vs. passif • Power en contrôle vs. pas en contrôle Les performances sont calculées par la corrélation entre prédiction et vérité terrain Challenge AVEC 2012 Audio-Video Emotion Challenge Pourquoi ? Triple opportunité Données réelles issues de séquences audio-vidéo 4 dimensions permettant de qualifier l’émotion Variations d’émotion 41
séquences vidéo 2. dans un contexte de reconnaissance d’émotions (variations d’émotion) 3. en environnement multimodal 95 séquences audio-vidéo d’une durée de 2 à 10 minutes affichant une conversation entre un sujet et un agent émotionnel 4 agents émotionnels : • Poppy est joyeux • Spike est agressif • Odadiah est sombre, triste • Prudence est pragmatique Les labels de vérité terrain sont fournis pour les dimensions : • Arousal actif vs. passif • Expectation surpris vs. non surpris • Valence positif vs. passif • Power en contrôle vs. pas en contrôle Les performances sont calculées par la corrélation entre prédiction et vérité terrain Challenge AVEC 2012 Audio-Vidéo Emotion Challenge Pourquoi ? Triple opportunité Données réelles issues de séquences audio-vidéo 4 dimensions permettant de qualifier l’émotion Variations d’émotion Acte I Acte II Images Séquences Posées Naturelles Émotions Signaux physiologiques Visèmes Interaction sociales Émotions Visuel Audio, visuel, contexte EXPRESSION EMOTION 42
début des séquences audio-vidéo IDENTIQUE POUR TOUTES LES SEQUENCES Moyenne et écart type de power (vérité terrain) sur les séquences 45 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU
0.33 Moyenne 0.45 Valence pas (ou peu) d’impact en début de séquence + des annotateurs plutôt d’accord 46 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU
pendant une durée assez longue 51 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU Signature de l’expression à l’instant t Filtrage zone-intensité Intégration (rire) Expression de sourire T = 40 secondes
OffSetDeb (0) Si Prudence : MoyFort (0.12) Si Spike : MoyFaible (-0.0679) Si Poppy : Fort (0.2827) Si Obadiah : Faible (-0.1259) Si inconnu : Moyen (0.0703) Si rire : Très fort (0.5) Règles issues des analyses statistiques et observations humaines 55 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU
par k-moyenne 56 INTRO ACTE I P R E F S PAUSE ACTE II D V CONCLU xj yj Si début : OffSetDeb (0) Si Obadiah : Faible (-0.1259) Si Prudence : MoyFort (0.12) Si Poppy : Fort (0.2827) Si Spike : MoyFaible (-0.0679) Si inconnu : Moyen (0.0703) Si rire : Très fort (0.5)
R E F S PAUSE ACTE II D V CONCLU Les + Les – et les ? système de représentation des expressions test sur des données réelles et spontanées analyse uniquement qualitative entièrement automatisé prise en compte la parole expression de haut niveau (zone-intensité) système complexe pour une détection du rire système global intégration de données de contexte (notion d’empathie) peu de comparaison possible entre les résultats différentes équipes interprétation (variations d’émotions) « vérité » terrain mode de représentation ?
new invariant representation of facial expressions: definition and application to blended expression recognition, IEEE International Conference on Image Processing (ICIP), Orlando, Florida, U.S.A., Sept.-Oct. 2012, pp.2617-2620 EXPRESSIONS FACIALES Invariant : Organisation des expressions Représentation par signature direction- intensité : Une expression est définie par sa position relative par rapport aux autres expressions Robustesse de la représentation : par rapport aux types de données par rapport à la dimensionnalité de l’espace Système flexible : Sur des personnes inconnues, création d’un espace plausible EMOTIONS Détection du rire par méthode de zone- intensité Mise en œuvre d’un système multimodal incluant des informations de contexte (empathie) Comparaison de méthodes de fusion des données multimodales (système d’inférence floue vs. fonctions de bases radiales) TRAVAUX EN COURS Modèles bilinéaires Catherine Soladié, Nicolas Stoiber, Renaud Séguier Invariant Representation for Facial Expressions for Blended Expression Recognition on Unknown Subjects, International Journal Computer Vision and Image Understanding (CVIU), Elsevier, Vol 117, Issue 11, Nov 2013, pp. 1598–1609 Catherine Soladié, Hanan Salam, Catherine Pelachaud, Nicolas Stoiber, Renaud Séguier A Multimodal Fuzzy Inference System Using a Continuous Facial Expression Representation for Emotion Detection ACM International Conference on Multimodal Interaction (ICMI), 2nd International Audio/Visual Emotion Challenge and Workshop -AVEC 2012 , Santa Monica, California, U.S.A., Oct. 2012, pp. 493-500 Catherine Soladié, Hanan Salam, Nicolas Stoiber, Renaud Séguier Continuous Facial Expression Representation for Multimodal Emotion Detection, International Journal of Advanced Computer Science (IJACSci), Vol 3, No5, mai 2013, pp. 202-216 Catherine Soladié, Nicolas Stoiber, Renaud Séguier Création de l’espace des expressions faciales à partir de modèles bilinéaires asymétriques XXIVème Colloque GRETSI, 3-6 Septembre 2013, Brest, France Catherine Soladié, Nicolas Stoiber, Renaud Séguier Bilinear Decomposition for Blended Expression Representation, IEEE Visual Communication and Image Processing (VCIP), Malaysia, Nov 2013 Publications 59