ADAPTABLES Fernando Alonso Martín Miguel Ángel Salichs Francisco Javier de Gorostiza Luengo Universidad Carlos III de Madrid Doctorado en Ingeniería Eléctrica, Electrónica y Automá>ca
9. Publicaciones 5. Componentes de entrada desarrollados 4. El gestor de diálogo 1. Introducción 3. Sistema Robótico de Diálogo (RDS) 2. Estado del arte de los sistemas de diálogo
9. Publicaciones 1.1. Problema 1.3. Entorno de trabajo 1.4. Precedentes 5. Componentes de entrada desarrollados 4. El gestor de diálogo 1. Introducción 3. Sistema Robótico de Diálogo (RDS) 2. Estado del arte de los sistemas de diálogo 1.2. Objetivos 1.5. El diálogo
robots. n Imitar la interacción entre humanos. n No debe ser necesario entrenamiento previo con el sistema. n El sistema se usa robot reales. 1.2 Objetivos 5
control de robots AD. n “Desarrollo de una arquitectura para robots móviles autónomos. Aplicación a un sistema de navegación topológica”. Ramón Barber. n Introducción a la interacción por diálogos en robots sociales, aplicada a la programación de secuencias de acciones. n “Programación natural de un robot social mediante diálogos”. Francisco Javier de Gorostiza.
información, durante turnos, por cualquier medio. n El diálogo no está solo limitado a la comunicación oral. n La acción de dialogar es el modo más natural para resolver muchas acciones cotidianas. 8
los sistemas de diálogo 2. Estado del arte de los sistemas de diálogo 2.3. Sistemas diálogo aplicados robótica social 6. Componentes de salida desarrollados 7. Diálogos implementados 8. Conclusiones 9. Publicaciones 5. Componentes de entrada desarrollados 4. El gestor de diálogo 3. Sistema Robótico de Diálogo (RDS)
Estado del arte de los sistemas de diálogo 3.3. Esquema de RDS 3.4. Características 6. Componentes de salida desarrollados 7. Diálogos implementados 8. Conclusiones 9. Publicaciones 5. Componentes de entrada desarrollados 4. El gestor de diálogo 3. Sistema Robótico de Diálogo (RDS)
de diálogo multimodal llamado Robotics Dialog System (RDS). n Añade nuevos modos al estado del arte, e incorpora mejoras en los existentes. n Descripción en modo top-down de los componentes desarrollados. 14
(ASR, Information Extraction, Semantic Enhacement, Abstracting) User Localization Gender and Emotion Detection Multimodal Fusion DIALOG MANAGER User Prole DIALOGS: VXML FILES Natural Language Generation (NLG) Emotional Text To Speech (eTTS) Sing Generaton (Vocaloid) Non-Verbal Sound Generation features features pragmatic information localization emotion name, language, age, voiceprint, experience, dialogHistory User Communicative Act xml vxml song features semantic, language, emotion, character words,language, emotion, character User Identication name features AUDIO VOICE REAL-TIME SOUNDS MUSIC Engagement Gestures MOTOR/VISUAL GESTURES gesture Body Sensibility TOUCH capacitive signal body part VISION images Robot Emotional State emotion RFID VISION OCR text written text RFID Reader LASER distance information Gesture Recognition rd card text grid points gesture image Google/ Microsoft Translate FreeBase acustic signal VAD features Screens Tablet/TV/ Videoproyector resources 16
del sonido. n Modular. n Distribuido. 3.4 Características del Robotics Dialog System 17 [F. Alonso-Martín, J.F. Gorostiza, Miguel A. Salichs. Descripción general del sistema de interacción humano-robot Robotics Dialog System (RDS). Robocity2030 12th Workshop: Robótica Cognitiva. 2013.]
diálogo 4.1. Funcionamiento del gestor del diálogo 4.2. Relleno de huecos de información 2. Estado del arte de los sistemas de diálogo 4.3. Iniciativa del sistema 4.4. Iniciativa del usuario 4.6. Intercambio de turnos 4.7. Fusión multimodal 6. Componentes de salida desarrollados 7. Diálogos implementados 8. Conclusiones 9. Publicaciones 5. Componentes de entrada desarrollados 4.5. Actos comunicativos
viaje n RDS: ¿Desde dónde desea usted salir? n USUARIO: Desde Madrid. n RDS: Y… ¿Cuál es la ciudad de destino? n USUARIO: Lisboa. n RDS: ¿A qué hora desea partir? n USUARIO: Sobre las 8 de la mañana. Origen Des>no Hora de salida BookingDialog.vxml VIAJAR MainDialog.vxml Acción MADRID LISBOA 8. A.M 4.3 Ejemplo de interacción por voz (iniciativa del sistema) 21 NLP NLP NLP
viajar. n RDS: ¿Cuál es la … n USUARIO: Desde Madrid a Lisboa saliendo a las 8 de la mañana. Origen Des>no Hora de salida BookingDialog.vxml VIAJAR MainDialog.vxml Acción MADRID LISBOA 8. A.M INTERRUPCIÓN 4.4 Ejemplo de interacción por voz (iniciativa del usuario) 22
comunicación verbal entre humanos. En ellos se define que los AC constituyen las unidades básicas del diálogo. 4.5 Actos comunicativos 23 Newcomb, T. M. (1953). An approach to the study of communicative acts. Psychological review, 60(6), 393. Kreckel, M. (1981). Communicative acts and shared knowledge in natural discourse. New York: Academic Press.
acto comunicativo. n Los actos comunicativos se formalizan en paquetes de información multimodal. Constituyen las unidades básicas del diálogo. 4.6 Intercambios de turnos 24
gestor de diálogo 5.1. Canales de entrada 5.2. Reconocimiento automático de voz 2. Estado del arte de los sistemas de diálogo 5.3. Reconocimiento automático de textos 5.4. Identificación de etiquetas RFID 5.5. Localización de usuarios 5.6. Reconocimiento automático de emociones 5. Componentes de entrada desarrollados 5.7. Identificación de usuarios por la voz 6. Componentes de salida desarrollados 7. Diálogos implementados 8. Conclusiones 9. Publicaciones
✔ • De corto alcance • Robusto frente a ruidos y eco ✔ • Altamente direccional Vocales • Alta precisión ✔ • De corto alcance • Rango de frecuencias voz • Fácil de intercambiar ✔ 29 [F. Alonso-Martin; M.A.Salichs. Integration of a voice recognition system in a social robot. Cybernetics and Systems: An International Journal. Vol. 42. No. 4. pp.215-245. 2011]
frente a ruido ✖ • Largo alcance • Altamente direccional • Baja precisión ✖ • Medio alcance • No direccional 5.1.2 Tipos de micrófonos internos Array de micrófonos • Alta-media precisión • Localización sonora ✔ • Aparatoso ✖ 30 [F. Alonso-Martin; M.A.Salichs. Integration of a voice recognition system in a social robot. Cybernetics and Systems: An International Journal. Vol. 42. No. 4. pp.215-245. 2011]
gestor de diálogo 5.1. Canales de entrada 5.2. Reconocimiento automático de voz 2. Estado del arte de los sistemas de diálogo 5.3. Reconocimiento automático de textos 5.4. Identificación de etiquetas RFID 5.5. Localización de usuarios 5.6. Reconocimiento automático de emociones 5. Componentes de entrada desarrollados 5.7. Identificación de usuarios por la voz 6. Componentes de salida desarrollados 7. Diálogos implementados 8. Conclusiones 9. Publicaciones
M.A.Salichs. Integration of a voice recognition system in a social robot. Cybernetics and Systems: An International Journal. Vol. 42. No. 4. pp.215-245. 2011] 0 10 20 30 40 50 60 70 80 SILENCIOSO (< 50 dB) RUIDOSO (>50 dB) % acierto ASR Nivel de ruido en el entorno Estudio de precisión reconociendo voz con diferentes micrófonos AURICULARES OMNIDIRECCIONALES ARRAY
Gorostiza, Miguel A. Salichs. Multidomain Voice Activity Detection during Human-Robot Interaction. International Conference on Social Robotics (ICSR 2013)]
gestor de diálogo 5.1. Canales de entrada 5.2. Reconocimiento automático de voz 2. Estado del arte de los sistemas de diálogo 5.3. Reconocimiento automático de textos 5.4. Identificación de etiquetas RFID 5.5. Localización de usuarios 5.6. Reconocimiento automático de emociones 5. Componentes de entrada desarrollados 5.7. Identificación de usuarios por la voz 6. Componentes de salida desarrollados 7. Diálogos implementados 8. Conclusiones 9. Publicaciones
gestor de diálogo 5.1. Canales de entrada 5.2. Reconocimiento automático de voz 2. Estado del arte de los sistemas de diálogo 5.3. Reconocimiento automático de textos 5.4. Identificación de etiquetas RFID 5.5. Localización de usuarios 5.6. Reconocimiento automático de emociones 5. Componentes de entrada desarrollados 5.7. Identificación de usuarios por la voz 6. Componentes de salida desarrollados 7. Diálogos implementados 8. Conclusiones 9. Publicaciones
J.F. Gorostiza, María Malfaz, Miguel A. Salichs. Multimodal Fusion as Communicative Acts During Human-Robot Interaction. Cybernetics and Systems. Vol. 44. No. 8. pp. 681-703]
gestor de diálogo 5.1. Canales de entrada 5.2. Reconocimiento automático de voz 2. Estado del arte de los sistemas de diálogo 5.3. Reconocimiento automático de textos 5.4. Identificación de etiquetas RFID 5.5. Localización de usuarios 5.6. Reconocimiento automático de emociones 5. Componentes de entrada desarrollados 5.7. Identificación de usuarios por la voz 6. Componentes de salida desarrollados 7. Diálogos implementados 8. Conclusiones 9. Publicaciones
gestor de diálogo 5.1. Canales de entrada 5.2. Reconocimiento automático de voz 2. Estado del arte de los sistemas de diálogo 5.3. Reconocimiento automático de textos 5.4. Identificación de etiquetas RFID 5.5. Localización de usuarios 5.6. Reconocimiento automático de emociones 5. Componentes de entrada desarrollados 5.7. Identificación de usuarios por la voz 6. Componentes de salida desarrollados 7. Diálogos implementados 8. Conclusiones 9. Publicaciones
Computación afectiva: reconocimiento, gestión y expresión de emociones. n Objetivo: Reconocimiento de la emoción expresada por el usuario. Cuatro posibles: felicidad, tranquilidad, tristeza, y sorpresa. n Multimodal: Análisis del rostro y el timbre. 46 [F. Alonso-Martin, Siqueira, J.F. Gorostiza, María Malfaz, Miguel A. Salichs. A Multimodal Emotion Detection System during Human-Robot Interaction. Sensors. Vol. 13. No. 11. pp. 15549-15581. 2013]
60 70 80 90 J48 GEVA JRIP GEVA CERT GEFA SHORE GEFA SISTEMA COMPLETO TASA DE ACIERTO DE CADA CLASIFICADOR TASA DE ACIERTO [F. Alonso-Martin, Siqueira, J.F. Gorostiza, María Malfaz, Miguel A. Salichs. A Multimodal Emotion Detection System during Human-Robot Interaction. Sensors. Vol. 13. No. 11. pp. 15549-15581] 49
gestor de diálogo 5.1. Canales de entrada 5.2. Reconocimiento automático de voz 2. Estado del arte de los sistemas de diálogo 5.3. Reconocimiento automático de textos 5.4. Identificación de etiquetas RFID 5.5. Localización de usuarios 5.6. Reconocimiento automático de emociones 5. Componentes de entrada desarrollados 5.7. Identificación de usuarios por la voz 6. Componentes de salida desarrollados 7. Diálogos implementados 8. Conclusiones 9. Publicaciones
de huellas de voz. 5.7 Identificación de usuarios por la voz 51 [F.Alonso-Martín; A. Ramey; M.A. Salichs. Speaker identification using three signal voice domains during human-robot interaction. Proceedings of the 2014 ACM/IEEE international conference on Human-robot interaction - HRI '14. 2014.] Voz del usuario Extracción de características Huellas de voz Mejor coincidencia Comparación de patrones
Canales de salida 6.2. Sistema de síntesis de voz con emociones 6.3 Sonidos no verbales robóticos 6.4 Melodías de voz 6.5 Gestos comunicativos 6.6 Información contextualizada en pantalla 5. Componentes de entrada desarrollados 7. Diálogos implementados 1. Introducción 3. Sistema Robótico de Diálogo (RDS) 4. El gestor de diálogo 2. Estado del arte de los sistemas de diálogo
gestor de diálogo 6. Componentes de salida desarrollados 8. Conclusiones 9. Publicaciones 6.1. Canales de salida 6.2. Sistema de síntesis de voz con emociones 2. Estado del arte de los sistemas de diálogo 6.3 Sonidos no verbales robóticos 6.4 Melodías de voz 6.5 Gestos comunicativos 6.6 Información contextualizada en pantalla 5. Componentes de entrada desarrollados 7. Diálogos implementados
de síntesis de voz con emociones 6.3 Sonidos no verbales robóticos 6.4 Melodías de voz 6.5 Gestos comunicativos 6.6 Información contextualizada en pantalla 7. Diálogos implementados 5. Componentes de entrada desarrollados 1. Introducción 3. Sistema Robótico de Diálogo (RDS) 4. El gestor de diálogo 2. Estado del arte de los sistemas de diálogo 6. Componentes de salida desarrollados
de síntesis de voz con emociones 6.3 Sonidos no verbales robóticos 6.4 Melodías de voz 6.5 Gestos comunicativos 6.6 Información contextualizada en pantalla 7. Diálogos implementados 5. Componentes de entrada desarrollados 1. Introducción 3. Sistema Robótico de Diálogo (RDS) 4. El gestor de diálogo 2. Estado del arte de los sistemas de diálogo 6. Componentes de salida desarrollados
A. Salichs. Musical Expression in a Social Robot. Proceedings of the 2012 International IEEE Intelligent Vehicles Symposium. Workshops V Perception in Robotics.. Alcalá de Henares. Spain. Jun, 2012.]
de síntesis de voz con emociones 6.3 Sonidos no verbales robóticos 6.4 Melodías de voz 6.5 Gestos comunicativos 6.6 Información contextualizada en pantalla 7. Diálogos implementados 5. Componentes de entrada desarrollados 1. Introducción 3. Sistema Robótico de Diálogo (RDS) 4. El gestor de diálogo 2. Estado del arte de los sistemas de diálogo 6. Componentes de salida desarrollados
de síntesis de voz con emociones 6.3 Sonidos no verbales robóticos 6.4 Melodías de voz 6.5 Gestos comunicativos 6.6 Información contextualizada en pantalla 7. Diálogos implementados 5. Componentes de entrada desarrollados 1. Introducción 3. Sistema Robótico de Diálogo (RDS) 4. El gestor de diálogo 2. Estado del arte de los sistemas de diálogo 6. Componentes de salida desarrollados
de voz. 2. Reconocimiento de voz (Google ASR). 3. Extracción de entidades (Textalytics). 4. Contextualización de las entidades (Freebase). 5. Componer tarjetas relativas a cada entidad en la tableta. 68 [F. Alonso-Martin, Álvaro Castro, J.F. Gorostiza, Miguel A. Salichs. Augmented Robotics Dialog System for Social Robots. Pendiente de remitir a Sensors.]
Componentes de entrada desarrollados 1. Introducción 3. Sistema Robótico de Diálogo (RDS) 4. El gestor de diálogo 2. Estado del arte de los sistemas de diálogo 6. Componentes de salida desarrollados 7. Diálogos implementados
habilidades para el robot Maggie. n Mediante diálogo se activan/desactivan habilidades y subdiálogos. n El robot actúa como esclavo del usuario. n El diálogo como integrador se activa automáticamente al encender el robot. 70 [F. Alonso-Martín, J.F. Gorostiza, Miguel A. Salichs. Preliminary Experiments on HRI for improvement the Robotic Dialog System (RDS). 11º Workshop Robots Sociales. Spain. March, 2013].
Publicaciones 5. Componentes de entrada desarrollados 1. Introducción 3. Sistema Robótico de Diálogo (RDS) 4. El gestor de diálogo 2. Estado del arte de los sistemas de diálogo 6. Componentes de salida desarrollados 7. Diálogos implementados 8. Conclusiones
RDS que “humaniza” la interacción (interacción natural). n Sistema genérico que se puede integrar y extender en cualquier robot social. n Los ACs constituyen las unidades básicas para construir diálogos en nuestro sistema. La fusión multimodal se inspira en la teoría de actos comunicativos. n El sistema se adapta al usuario: idioma, proxémica, experiencia, y emoción. n Uso del diálogo como integrador de habilidades. 73
su uso como gestor de diálogo en robots sociales. n Estudio de la configuración hardware/software para ASR en robots sociales. Tipos de micrófonos e integración dos reconocedores concurrentes (basados en gramáticas y modelos estadísticos del idioma). n Sistema de detección de actividad de voz multidominio. n Sistema de identificación de usuarios por su timbre de voz basado en técnicas de comparación de patrones y acoustic-fingerprinting. n Sistema multimodal de localización de usuarios que permite adaptar la distancia de interacción en base a reglas previamente aprendidas mediante un estudio. n Sistema de detección de emociones multimodal (rostro y timbre). 74
emociones y personalidades. n Sistema expresivo de generación de sonidos no verbales robóticos. n Composición de melodías de voz en robots sociales. n Contextualización del diálogo mediante detección y enriquecimiento de entidades. Se presenta esa información adicional en la tableta. 75
nacional) y niños con cáncer (proyecto europeo Monarch). n Conversación multiparte. n Profundizar en el uso de los componentes de visión en el diálogo. n Fisión multimodal. n Diálogos en un lenguaje de más alto nivel. n Integración con el sistema de toma de decisión. 76
9.3. Apariciones en prensa 5. Componentes de entrada desarrollados 1. Introducción 3. Sistema Robótico de Diálogo (RDS) 4. El gestor de diálogo 2. Estado del arte de los sistemas de diálogo 6. Componentes de salida desarrollados 7. Diálogos implementados 8. Conclusiones
Malfaz, Miguel A. Salichs. A Multimodal Emotion Detection System during Human-Robot Interaction. Sensors. Vol. 13. No. 11. pp. 15549-15581. 2013. n F.Alonso-Martin, J.F. Gorostiza, María Malfaz, Miguel A. Salichs. Multimodal Fusion as Communicative Acts During Human-Robot Interaction. Cybernetics and Systems. Vol. 44. No. 8. pp. 681-703. 2013. n F.Alonso-Martin; J.F.Gorostiza; M.Malfaz; M.A.Salichs. User Localization During Human-Robot Interaction. Sensors. (doi:10.3390/s120709913). Vol. 12. No. 7. pp.9913-9935. 2012. n V.G.Pacheco; A. Ramey; F.Alonso-Martin; A.Castro; M.A.Salichs. Maggie: A Social Robot as a Gamming Platform. International Journal of Social Robotics. Vol. 3. No. 4. pp.371-381. 2011. n F. Alonso-Martin; M.A.Salichs. Integration of a voice recognition system in a social robot. Cybernetics and Systems: An International Journal. Vol. 42. No. 4. pp.215-245. 2011. 78
Speaker identification using three signal voice domains during human-robot interaction. Proceedings of the 2014 ACM/IEEE international conference on Human-robot interaction - HRI '14. 2014. n F. Alonso-Martín, J.F. Gorostiza, Miguel A. Salichs. Multidomain Voice Activity Detection during Human-Robot Interaction. International Conference on Social Robotics (ICSR 2013). n F. Alonso-Martín, J.F. Gorostiza, Miguel A. Salichs. Descripción general del sistema de interacción humano-robot Robotics Dialog System (RDS). Robocity2030 12th Workshop: Robótica Cognitiva. 2013. n F. Alonso-Martín, J.F. Gorostiza, Miguel A. Salichs. Preliminary Experiments on HRI for improvement the Robotic Dialog System (RDS). 11º Workshop Robots Sociales. Spain. March, 2013. n F. Alonso-Martín, J.F. Gorostiza, Miguel A. Salichs. Musical Expression in a Social Robot. Proceedings of the 2012 International IEEE Intelligent Vehicles Symposium. Workshops V Perception in Robotics.. Alcalá de Henares. Spain. Jun, 2012. n F.Alonso-Martín; A. Ramey; M.A. Salichs. Maggie: el robot traductor. 9º WorkShop Robocity2030. Madrid. Spain. May, 2011. n F. Alonso-Martín, V. Gonzalez-Pacheco, A. Castro-González, Arnaud. A. Ramey, Marta Yébenes, Miguel A. Salichs. Using a social robot as a gaming platform. Human Robotic Interaction 2010 Singapour. Noviembre 2010. 79
La Trinchera. Robots sociales, compañeros de futuro. (artículo y audiovisual). http://www.elmundo.es/blogs/elmundo/latrinchera/2012/03/12/robots-sociales-companeros-de- futuro.html n 2012 -03- 29 Portal de noticias Madri+d. Robots para aliviar la carga familiar del cuidador (artículo). http://www.madrimasd.org/informacionidi/noticias/noticia.asp?id=52087 n 2012 -08-22 Jubilación Y Pensión.com. Asibot y Maggie, dos robots para personas mayores “Made In Spain” (artículo). http://www.jubilacionypension.com/asibot-y-maggie-dos-robots-para-personas-mayores-made-in- spain/ n 2011 -12-15 TVE1 Programa de divulgación científica Tres14: Cuerpos Inteligentes (programa televisivo). http://www.rtve.es/television/20111215/tres14-cuerpos-inteligentes/ 482248.shtml n 2011-11-29 Fundación Alzheimer. Robot Asistencial “Maggie” (audiovisual y nota informativa). http://www.youtube.com/watch?v=wEjFgqNpig0 y http://www.alzfae.org/index.php/fundacion/actividades-fae/encuentros/520-xii-encuentro-tematico- fae n 2011-11-05 Fundación Alzheimer. Robots Asistenciales para el Alzheimer (artículo). http://cuidadoalzheimer.com/atencion-alzheimer/robots-asistenciales-para-el-alzheimer/ n 2011-01-30 TVE1 Programa de divulgación científica Tres14: Aprendizaje (programa televisivo: 22’.50’’ – 24’.40’’). http://www.rtve.es/television/20110124/aprendizaje-tres14/397694.shtml 80
Cómplice Electrónico (programa de televisión). http:// roboticslab.uc3m.es/mediawiki/images/a/a4/2009-06-07-laSexta-Noticias-C%C3%B3mplice_electr %C3%B3nico.flv n 2009-05-28 El Almería. El CSIC acoge una muestra con 20 robots (1’05’’-1’45’’). http://roboticslab.uc3m.es/mediawiki/images/ 4/46/2009-05-28_el_almeria_El_CSIC_acoge_una_muestra_con_20_robots.m4v n 2009-05-28 El Mundo. Los Robots Invaden Madrid. (artículo y audiovisual) http://www.elmundo.es/elmundo/2009/05/28/ciencia/1243529306.html n 2009-3-7 ASIBOT y MAGGIE: 2 robots asistenciales en la mayor reunión de expertos en robótica de España. (artículo). http://medicablogs.diariomedico.com/samfrado/2009/03/07/asibot-y-maggie-2- robots-asistenciales-en-la-mayor-reunion-de-expertos-en-robotica-de-espana/ n 2008-11-23 Agencia EFE. “Maggie”, robot para ciegos capaz de sentir cosquillas o distinguir medicinas (audiovisual). http://video.mx.msn.com/watch/video/maggie-robot-para-ciegos-capaz-de-sentir-cosquillas-o- distinguir-medicinas/gf48z493 n 2008-11-18 RTVE. Maggie, un robot que hace de todo (audiovisual). http://www.rtve.es/alacarta/videos/programa/maggie-robot-hace-todo/344367 n 2008-6-5 Portal Universidad Carlos III Madrid. Maggie: futuro, autonomía y diversión (texto y audiovisual). http://www.uc3m.es/portal/page/portal/actualidad_cientifica/actualidad/ reportajes/archivo_reportajes/Maggie_futuro_autonomia_diversion 81
ADAPTABLES Fernando Alonso Martín Miguel Ángel Salichs Francisco Javier de Gorostiza Luengo 82 Universidad Carlos III de Madrid Doctorado en Ingeniería Eléctrica, Electrónica y Automá>ca
un pequeño avance en los sistemas de diálogo aplicados a la robótica social. n Se pretende dotar de un nivel de madurez mayor a los sistemas de diálogo aplicados a robots sociales con un alto grado de multimodalidad. n Gran parte del trabajo realizado ha consistido en tareas de integración y robustez. n No obstante, se han realizado aportaciones en varios campos de investigación. 85