Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Sistema de Interacción Humano-Robot basado en Diálogos Multimodales y Adaptables

Sistema de Interacción Humano-Robot basado en Diálogos Multimodales y Adaptables

Presentación de diapositivas de la tesis doctoral de Fernando Alonso Martín.

Fernando Alonso Martín

October 13, 2014
Tweet

More Decks by Fernando Alonso Martín

Other Decks in Technology

Transcript

  1. SISTEMA DE INTERACCIÓN HUMANO ROBOT BASADO EN DIÁLOGOS MULTIMODALES Y

    ADAPTABLES Fernando Alonso Martín Miguel Ángel Salichs Francisco Javier de Gorostiza Luengo Universidad  Carlos  III  de  Madrid   Doctorado  en  Ingeniería  Eléctrica,  Electrónica  y   Automá>ca    
  2. 6. Componentes de salida desarrollados 7. Diálogos implementados 8. Conclusiones

    9. Publicaciones 5. Componentes de entrada desarrollados 4. El gestor de diálogo 1. Introducción 3. Sistema Robótico de Diálogo (RDS) 2. Estado del arte de los sistemas de diálogo
  3. 6. Componentes de salida desarrollados 7. Diálogos implementados 8. Conclusiones

    9. Publicaciones 1.1. Problema 1.3. Entorno de trabajo 1.4. Precedentes 5. Componentes de entrada desarrollados 4. El gestor de diálogo 1. Introducción 3. Sistema Robótico de Diálogo (RDS) 2. Estado del arte de los sistemas de diálogo 1.2. Objetivos 1.5. El diálogo
  4. 1.1 Problema n  ¿Existe un sistema de Interacción Humano- Robot

    lo suficientemente sofisticado que permita una interacción natural?. 4
  5. n  Desarrollar un sistema de diálogo multimodal entre humanos y

    robots. n  Imitar la interacción entre humanos. n  No debe ser necesario entrenamiento previo con el sistema. n  El sistema se usa robot reales. 1.2 Objetivos 5
  6. 1.4 Precedentes 7 n  Definición teórica de la arquitectura de

    control de robots AD. n  “Desarrollo de una arquitectura para robots móviles autónomos. Aplicación a un sistema de navegación topológica”. Ramón Barber. n  Introducción a la interacción por diálogos en robots sociales, aplicada a la programación de secuencias de acciones. n  “Programación natural de un robot social mediante diálogos”. Francisco Javier de Gorostiza.
  7. 1.5 El diálogo n  Dos o más agentes comunicativos intercambian

    información, durante turnos, por cualquier medio. n  El diálogo no está solo limitado a la comunicación oral. n  La acción de dialogar es el modo más natural para resolver muchas acciones cotidianas. 8
  8. 1. Introducción 2.1. Sistema de diálogo clásico 2.2. Evolución de

    los sistemas de diálogo 2. Estado del arte de los sistemas de diálogo 2.3. Sistemas diálogo aplicados robótica social 6. Componentes de salida desarrollados 7. Diálogos implementados 8. Conclusiones 9. Publicaciones 5. Componentes de entrada desarrollados 4. El gestor de diálogo 3. Sistema Robótico de Diálogo (RDS)
  9. 2.3 Sistemas de diálogo aplicados a la robótica social Jigo-2:

    voz Biron: voz, tacto Aibo: sonidos no verbales, gestos, LEDs Paro: sonidos no verbales, tacto, gestos HRP-2: voz, tacto, gestos, visión iCub: voz, tacto, gestos, emociones Aisoy: voz, tacto, visión, LEDs, emociones Maggie: + multimodo, + adaptable, + gestión diálogo 12 1998 2014
  10. 1. Introducción 3.1. Propuesta: Robotics Dialog System 3.2. Entorno 2.

    Estado del arte de los sistemas de diálogo 3.3. Esquema de RDS 3.4. Características 6. Componentes de salida desarrollados 7. Diálogos implementados 8. Conclusiones 9. Publicaciones 5. Componentes de entrada desarrollados 4. El gestor de diálogo 3. Sistema Robótico de Diálogo (RDS)
  11. 3.1 Propuesta: Robotics Dialog System n  Se presenta un sistema

    de diálogo multimodal llamado Robotics Dialog System (RDS). n  Añade nuevos modos al estado del arte, e incorpora mejoras en los existentes. n  Descripción en modo top-down de los componentes desarrollados. 14
  12. Robotics Dialog System (RDS) Audio Extraction Features Natural Language Understanding

    (ASR, Information Extraction, Semantic Enhacement, Abstracting) User Localization Gender and Emotion Detection Multimodal Fusion DIALOG MANAGER User Prole DIALOGS: VXML FILES Natural Language Generation (NLG) Emotional Text To Speech (eTTS) Sing Generaton (Vocaloid) Non-Verbal Sound Generation features features pragmatic information localization emotion name, language, age, voiceprint, experience, dialogHistory User Communicative Act xml vxml song features semantic, language, emotion, character words,language, emotion, character User Identication name features AUDIO VOICE REAL-TIME SOUNDS MUSIC Engagement Gestures MOTOR/VISUAL GESTURES gesture Body Sensibility TOUCH capacitive signal body part VISION images Robot Emotional State emotion RFID VISION OCR text written text RFID Reader LASER distance information Gesture Recognition rd card text grid points gesture image Google/ Microsoft Translate FreeBase acustic signal VAD features Screens Tablet/TV/ Videoproyector resources 16
  13. n  Interpretado. n  Adaptable. n  Simetría multimodal. n  Múltiples usos

    del sonido. n  Modular. n  Distribuido. 3.4 Características del Robotics Dialog System 17 [F. Alonso-Martín, J.F. Gorostiza, Miguel A. Salichs. Descripción general del sistema de interacción humano-robot Robotics Dialog System (RDS). Robocity2030 12th Workshop: Robótica Cognitiva. 2013.]
  14. 3. Sistema Robótico de Diálogo (RDS) 4. El gestor de

    diálogo 4.1. Funcionamiento del gestor del diálogo 4.2. Relleno de huecos de información 2. Estado del arte de los sistemas de diálogo 4.3. Iniciativa del sistema 4.4. Iniciativa del usuario 4.6. Intercambio de turnos 4.7. Fusión multimodal 6. Componentes de salida desarrollados 7. Diálogos implementados 8. Conclusiones 9. Publicaciones 5. Componentes de entrada desarrollados 4.5. Actos comunicativos
  15. n  RDS: ¿Qué desea hacer? n  USUARIO: Deseo realizar un

    viaje n  RDS: ¿Desde dónde desea usted salir? n  USUARIO: Desde Madrid. n  RDS: Y… ¿Cuál es la ciudad de destino? n  USUARIO: Lisboa. n  RDS: ¿A qué hora desea partir? n  USUARIO: Sobre las 8 de la mañana. Origen   Des>no   Hora  de  salida   BookingDialog.vxml   VIAJAR MainDialog.vxml   Acción   MADRID LISBOA 8. A.M 4.3 Ejemplo de interacción por voz (iniciativa del sistema) 21 NLP   NLP   NLP  
  16. n  RDS: ¿Qué es lo que desea? n  USUARIO: Deseo

    viajar. n  RDS: ¿Cuál es la … n  USUARIO: Desde Madrid a Lisboa saliendo a las 8 de la mañana. Origen     Des>no   Hora  de  salida   BookingDialog.vxml   VIAJAR MainDialog.vxml   Acción   MADRID   LISBOA   8.  A.M   INTERRUPCIÓN   4.4 Ejemplo de interacción por voz (iniciativa del usuario) 22
  17. n  La teoría de Acs proviene del estudio de la

    comunicación verbal entre humanos. En ellos se define que los AC constituyen las unidades básicas del diálogo. 4.5 Actos comunicativos 23 Newcomb, T. M. (1953). An approach to the study of communicative acts. Psychological review, 60(6), 393. Kreckel, M. (1981). Communicative acts and shared knowledge in natural discourse. New York: Academic Press.
  18. n  Cada turno en la interacción se corresponde a un

    acto comunicativo. n  Los actos comunicativos se formalizan en paquetes de información multimodal. Constituyen las unidades básicas del diálogo. 4.6 Intercambios de turnos 24
  19. 4.6 Fusión multimodal 25 [F.Alonso-Martin, J.F. Gorostiza, María Malfaz, Miguel

    A. Salichs. Multimodal Fusion as Communicative Acts During Human-Robot Interaction. Cybernetics and Systems. Vol. 44. No. 8. pp. 681-703. 2012]
  20. 26

  21. 1. Introducción 3. Sistema Robótico de Diálogo (RDS) 4. El

    gestor de diálogo 5.1. Canales de entrada 5.2. Reconocimiento automático de voz 2. Estado del arte de los sistemas de diálogo 5.3. Reconocimiento automático de textos 5.4. Identificación de etiquetas RFID 5.5. Localización de usuarios 5.6. Reconocimiento automático de emociones 5. Componentes de entrada desarrollados 5.7. Identificación de usuarios por la voz 6. Componentes de salida desarrollados 7. Diálogos implementados 8. Conclusiones 9. Publicaciones
  22. 5.1 Canales de entrada n  Micrófonos n  Cámaras n  Etiquetas

    RFID. n  Sensores táctiles. n  Telémetro láser. n  Pantallas táctiles (tabletas y teléfonos). Entradas: 28
  23. 5.1.1 Tipos de micrófonos externos Auriculares •  Muy alta precisión

    ✔ •  De corto alcance •  Robusto frente a ruidos y eco ✔ •  Altamente direccional Vocales •  Alta precisión ✔ •  De corto alcance •  Rango de frecuencias voz •  Fácil de intercambiar ✔ 29 [F. Alonso-Martin; M.A.Salichs. Integration of a voice recognition system in a social robot. Cybernetics and Systems: An International Journal. Vol. 42. No. 4. pp.215-245. 2011]
  24. Escritorio direccional Escritorio omnidireccional •  Precisión media •  No robusto

    frente a ruido ✖ •  Largo alcance •  Altamente direccional •  Baja precisión ✖ •  Medio alcance •  No direccional 5.1.2 Tipos de micrófonos internos Array de micrófonos •  Alta-media precisión •  Localización sonora ✔ •  Aparatoso ✖ 30 [F. Alonso-Martin; M.A.Salichs. Integration of a voice recognition system in a social robot. Cybernetics and Systems: An International Journal. Vol. 42. No. 4. pp.215-245. 2011]
  25. 1. Introducción 3. Sistema Robótico de Diálogo (RDS) 4. El

    gestor de diálogo 5.1. Canales de entrada 5.2. Reconocimiento automático de voz 2. Estado del arte de los sistemas de diálogo 5.3. Reconocimiento automático de textos 5.4. Identificación de etiquetas RFID 5.5. Localización de usuarios 5.6. Reconocimiento automático de emociones 5. Componentes de entrada desarrollados 5.7. Identificación de usuarios por la voz 6. Componentes de salida desarrollados 7. Diálogos implementados 8. Conclusiones 9. Publicaciones
  26. 5.2 Reconocimiento automático de voz (ASR) 32 [F. Alonso-Martin; M.A.Salichs.

    Integration of a voice recognition system in a social robot. Cybernetics and Systems: An International Journal. Vol. 42. No. 4. pp.215-245. 2011]
  27. n  Basado en gramáticas n  Loquendo ASR à relleno de

    huecos de información. n  Modelos estadísticos del idioma (o contexto) n  Google ASR à texto libre (modo dictado) 5.2.1 ASR: Paradigmas 33
  28. 5.2.2 Pruebas de precisión con Loquendo ASR 34 [F. Alonso-Martin;

    M.A.Salichs. Integration of a voice recognition system in a social robot. Cybernetics and Systems: An International Journal. Vol. 42. No. 4. pp.215-245. 2011] 0 10 20 30 40 50 60 70 80 SILENCIOSO (< 50 dB) RUIDOSO (>50 dB) % acierto ASR Nivel de ruido en el entorno Estudio de precisión reconociendo voz con diferentes micrófonos AURICULARES OMNIDIRECCIONALES ARRAY
  29. 5.2.3 Detección de actividad de voz 35 [F. Alonso-Martín, J.F.

    Gorostiza, Miguel A. Salichs. Multidomain Voice Activity Detection during Human-Robot Interaction. International Conference on Social Robotics (ICSR 2013)]
  30. 1. Introducción 3. Sistema Robótico de Diálogo (RDS) 4. El

    gestor de diálogo 5.1. Canales de entrada 5.2. Reconocimiento automático de voz 2. Estado del arte de los sistemas de diálogo 5.3. Reconocimiento automático de textos 5.4. Identificación de etiquetas RFID 5.5. Localización de usuarios 5.6. Reconocimiento automático de emociones 5. Componentes de entrada desarrollados 5.7. Identificación de usuarios por la voz 6. Componentes de salida desarrollados 7. Diálogos implementados 8. Conclusiones 9. Publicaciones
  31. 5.3 Reconocimiento automático de textos 37 [F. Alonso-Martín; A. Ramey;

    M.A. Salichs. Maggie: el robot traductor. 9º WorkShop Robocity2030. Madrid. Spain. May, 2011.]
  32. 1. Introducción 3. Sistema Robótico de Diálogo (RDS) 4. El

    gestor de diálogo 5.1. Canales de entrada 5.2. Reconocimiento automático de voz 2. Estado del arte de los sistemas de diálogo 5.3. Reconocimiento automático de textos 5.4. Identificación de etiquetas RFID 5.5. Localización de usuarios 5.6. Reconocimiento automático de emociones 5. Componentes de entrada desarrollados 5.7. Identificación de usuarios por la voz 6. Componentes de salida desarrollados 7. Diálogos implementados 8. Conclusiones 9. Publicaciones
  33. 5.4 Identificación de etiquetas de radio frecuencia 39 [F. Alonso-Martin,

    J.F. Gorostiza, María Malfaz, Miguel A. Salichs. Multimodal Fusion as Communicative Acts During Human-Robot Interaction. Cybernetics and Systems. Vol. 44. No. 8. pp. 681-703]
  34. 40

  35. 1. Introducción 3. Sistema Robótico de Diálogo (RDS) 4. El

    gestor de diálogo 5.1. Canales de entrada 5.2. Reconocimiento automático de voz 2. Estado del arte de los sistemas de diálogo 5.3. Reconocimiento automático de textos 5.4. Identificación de etiquetas RFID 5.5. Localización de usuarios 5.6. Reconocimiento automático de emociones 5. Componentes de entrada desarrollados 5.7. Identificación de usuarios por la voz 6. Componentes de salida desarrollados 7. Diálogos implementados 8. Conclusiones 9. Publicaciones
  36. 5.5 Localización de usuarios 42 [F. Alonso-Martin; J.F.Gorostiza; M.Malfaz; M.A.Salichs;

    User Localization During Human-Robot Interaction. Sensors. Vol. 12. No. 7. pp.9913-9935. 2012.]
  37. 43

  38. 44

  39. 1. Introducción 3. Sistema Robótico de Diálogo (RDS) 4. El

    gestor de diálogo 5.1. Canales de entrada 5.2. Reconocimiento automático de voz 2. Estado del arte de los sistemas de diálogo 5.3. Reconocimiento automático de textos 5.4. Identificación de etiquetas RFID 5.5. Localización de usuarios 5.6. Reconocimiento automático de emociones 5. Componentes de entrada desarrollados 5.7. Identificación de usuarios por la voz 6. Componentes de salida desarrollados 7. Diálogos implementados 8. Conclusiones 9. Publicaciones
  40. 5.6 Reconocimiento automático de la emoción del usuario (ERS) n 

    Computación afectiva: reconocimiento, gestión y expresión de emociones. n  Objetivo: Reconocimiento de la emoción expresada por el usuario. Cuatro posibles: felicidad, tranquilidad, tristeza, y sorpresa. n  Multimodal: Análisis del rostro y el timbre. 46 [F. Alonso-Martin, Siqueira, J.F. Gorostiza, María Malfaz, Miguel A. Salichs. A Multimodal Emotion Detection System during Human-Robot Interaction. Sensors. Vol. 13. No. 11. pp. 15549-15581. 2013]
  41. 5.6.1 ERS mediante análisis del rostro - GEFA So<ware  de

     terceros:  CERT   So<ware  de  terceros:  SHORE   47
  42. 5.6.2 ERS mediante análisis de la voz - GEVA n 

    Pitch n  Flux n  Roll-of 95 n  Centroide n  Zero Crossing Rate n  Relación Señal-Ruido n  Ritmo comunicativo Extracción de características n  Árbol de clasificación C 4.5 (J48) n  Routing Information Protocol (RIP) Clasificación: n  Tres dominios: tiempo, frecuencia, tiempo-frecuencia. 48
  43. 5.6.3 ERS resultados experimentales 0 10 20 30 40 50

    60 70 80 90 J48 GEVA JRIP GEVA CERT GEFA SHORE GEFA SISTEMA COMPLETO TASA DE ACIERTO DE CADA CLASIFICADOR TASA DE ACIERTO [F. Alonso-Martin, Siqueira, J.F. Gorostiza, María Malfaz, Miguel A. Salichs. A Multimodal Emotion Detection System during Human-Robot Interaction. Sensors. Vol. 13. No. 11. pp. 15549-15581] 49
  44. 1. Introducción 3. Sistema Robótico de Diálogo (RDS) 4. El

    gestor de diálogo 5.1. Canales de entrada 5.2. Reconocimiento automático de voz 2. Estado del arte de los sistemas de diálogo 5.3. Reconocimiento automático de textos 5.4. Identificación de etiquetas RFID 5.5. Localización de usuarios 5.6. Reconocimiento automático de emociones 5. Componentes de entrada desarrollados 5.7. Identificación de usuarios por la voz 6. Componentes de salida desarrollados 7. Diálogos implementados 8. Conclusiones 9. Publicaciones
  45. n  Análisis de audio: comparación de patrones y acoustic–fingerprinting. Comparación

    de huellas de voz. 5.7 Identificación de usuarios por la voz 51 [F.Alonso-Martín; A. Ramey; M.A. Salichs. Speaker identification using three signal voice domains during human-robot interaction. Proceedings of the 2014 ACM/IEEE international conference on Human-robot interaction - HRI '14. 2014.] Voz del usuario Extracción de características Huellas de voz Mejor coincidencia Comparación de patrones
  46. 52

  47. 6. Componentes de salida desarrollados 8. Conclusiones 9. Publicaciones 6.1.

    Canales de salida 6.2. Sistema de síntesis de voz con emociones 6.3 Sonidos no verbales robóticos 6.4 Melodías de voz 6.5 Gestos comunicativos 6.6 Información contextualizada en pantalla 5. Componentes de entrada desarrollados 7. Diálogos implementados 1. Introducción 3. Sistema Robótico de Diálogo (RDS) 4. El gestor de diálogo 2. Estado del arte de los sistemas de diálogo
  48. 6.1 Canales de salida n  Altavoces n  Partes móviles (brazos,

    cuello, base móvil, párpados) n  Emisor de infrarrojos. n  LEDs. n  Pantallas. Salidas: 54
  49. 1. Introducción 3. Sistema Robótico de Diálogo (RDS) 4. El

    gestor de diálogo 6. Componentes de salida desarrollados 8. Conclusiones 9. Publicaciones 6.1. Canales de salida 6.2. Sistema de síntesis de voz con emociones 2. Estado del arte de los sistemas de diálogo 6.3 Sonidos no verbales robóticos 6.4 Melodías de voz 6.5 Gestos comunicativos 6.6 Información contextualizada en pantalla 5. Componentes de entrada desarrollados 7. Diálogos implementados
  50. 6.2.1 ETTS Características n  Varios motores de síntesis. n  Varias

    emociones simuladas: felicidad, tranquilidad, tristeza, y nerviosismo. n  Varios idiomas. n  Varias personalidades: n  Voces robóticas: Maggie, Mopi, Flory, y Mini. n  Voces humanas: Google TTS, Microsoft TTS. n  Generación de lenguaje natural usando plantillas: Saludar à “Hola, ¿cómo estás?” “Estoy encantado de verte” 57
  51. 8. Conclusiones 9. Publicaciones 6.1. Canales de salida 6.2. Sistema

    de síntesis de voz con emociones 6.3 Sonidos no verbales robóticos 6.4 Melodías de voz 6.5 Gestos comunicativos 6.6 Información contextualizada en pantalla 7. Diálogos implementados 5. Componentes de entrada desarrollados 1. Introducción 3. Sistema Robótico de Diálogo (RDS) 4. El gestor de diálogo 2. Estado del arte de los sistemas de diálogo 6. Componentes de salida desarrollados
  52. n  SuperCollider, Praat, Csound, OpenSMILE, PureData, y Chuck. n  Pitch

    – Frecuencia fundamental (F0). n  Duración. n  Intensidad – Excitación. n  Valencia (positivo, neutral, negativo). 6.3 Generación de sonidos no verbales robóticos 60
  53. 8. Conclusiones 9. Publicaciones 6.1. Canales de salida 6.2. Sistema

    de síntesis de voz con emociones 6.3 Sonidos no verbales robóticos 6.4 Melodías de voz 6.5 Gestos comunicativos 6.6 Información contextualizada en pantalla 7. Diálogos implementados 5. Componentes de entrada desarrollados 1. Introducción 3. Sistema Robótico de Diálogo (RDS) 4. El gestor de diálogo 2. Estado del arte de los sistemas de diálogo 6. Componentes de salida desarrollados
  54. 6.4 Melodías de voz 62 [F. Alonso-Martín, J.F. Gorostiza, Miguel

    A. Salichs. Musical Expression in a Social Robot. Proceedings of the 2012 International IEEE Intelligent Vehicles Symposium. Workshops V Perception in Robotics.. Alcalá de Henares. Spain. Jun, 2012.]
  55. 63

  56. 8. Conclusiones 9. Publicaciones 6.1. Canales de salida 6.2. Sistema

    de síntesis de voz con emociones 6.3 Sonidos no verbales robóticos 6.4 Melodías de voz 6.5 Gestos comunicativos 6.6 Información contextualizada en pantalla 7. Diálogos implementados 5. Componentes de entrada desarrollados 1. Introducción 3. Sistema Robótico de Diálogo (RDS) 4. El gestor de diálogo 2. Estado del arte de los sistemas de diálogo 6. Componentes de salida desarrollados
  57. 8. Conclusiones 9. Publicaciones 6.1. Canales de salida 6.2. Sistema

    de síntesis de voz con emociones 6.3 Sonidos no verbales robóticos 6.4 Melodías de voz 6.5 Gestos comunicativos 6.6 Información contextualizada en pantalla 7. Diálogos implementados 5. Componentes de entrada desarrollados 1. Introducción 3. Sistema Robótico de Diálogo (RDS) 4. El gestor de diálogo 2. Estado del arte de los sistemas de diálogo 6. Componentes de salida desarrollados
  58. 6.6. Información contextualizada en pantalla n  “Estuve viendo el mundial

    de Brasil, en el que Messi fue designado el mejor jugador, por parte de Argentina”. 67 Transiciones deslizando el dedo por la pantalla de la tableta
  59. 6.6. Información contextualizada en pantalla (II) 1.  Detección de actividad

    de voz. 2.  Reconocimiento de voz (Google ASR). 3.  Extracción de entidades (Textalytics). 4.  Contextualización de las entidades (Freebase). 5.  Componer tarjetas relativas a cada entidad en la tableta. 68 [F. Alonso-Martin, Álvaro Castro, J.F. Gorostiza, Miguel A. Salichs. Augmented Robotics Dialog System for Social Robots. Pendiente de remitir a Sensors.]
  60. 9. Publicaciones 7.1. Ejemplos multimodales 7.2. Videos 8. Conclusiones 5.

    Componentes de entrada desarrollados 1. Introducción 3. Sistema Robótico de Diálogo (RDS) 4. El gestor de diálogo 2. Estado del arte de los sistemas de diálogo 6. Componentes de salida desarrollados 7. Diálogos implementados
  61. 7.1. Ejemplos multimodales n  Implementado un diálogo como integrador de

    habilidades para el robot Maggie. n  Mediante diálogo se activan/desactivan habilidades y subdiálogos. n  El robot actúa como esclavo del usuario. n  El diálogo como integrador se activa automáticamente al encender el robot. 70 [F. Alonso-Martín, J.F. Gorostiza, Miguel A. Salichs. Preliminary Experiments on HRI for improvement the Robotic Dialog System (RDS). 11º Workshop Robots Sociales. Spain. March, 2013].
  62. 71

  63. 8.1. Aportaciones generales 8.2. Aportaciones específicas 8.3. Trabajos futuros 9.

    Publicaciones 5. Componentes de entrada desarrollados 1. Introducción 3. Sistema Robótico de Diálogo (RDS) 4. El gestor de diálogo 2. Estado del arte de los sistemas de diálogo 6. Componentes de salida desarrollados 7. Diálogos implementados 8. Conclusiones
  64. 8.1 Aportaciones generales n  Presentación del sistema de diálogo multimodal

    RDS que “humaniza” la interacción (interacción natural). n  Sistema genérico que se puede integrar y extender en cualquier robot social. n  Los ACs constituyen las unidades básicas para construir diálogos en nuestro sistema. La fusión multimodal se inspira en la teoría de actos comunicativos. n  El sistema se adapta al usuario: idioma, proxémica, experiencia, y emoción. n  Uso del diálogo como integrador de habilidades. 73
  65. 8.2 Aportaciones específicas n  Extensión multimodal del estándar VoiceXML para

    su uso como gestor de diálogo en robots sociales. n  Estudio de la configuración hardware/software para ASR en robots sociales. Tipos de micrófonos e integración dos reconocedores concurrentes (basados en gramáticas y modelos estadísticos del idioma). n  Sistema de detección de actividad de voz multidominio. n  Sistema de identificación de usuarios por su timbre de voz basado en técnicas de comparación de patrones y acoustic-fingerprinting. n  Sistema multimodal de localización de usuarios que permite adaptar la distancia de interacción en base a reglas previamente aprendidas mediante un estudio. n  Sistema de detección de emociones multimodal (rostro y timbre). 74
  66. 8.2 Aportaciones específicas (II) n  Sistema de síntesis verbal con

    emociones y personalidades. n  Sistema expresivo de generación de sonidos no verbales robóticos. n  Composición de melodías de voz en robots sociales. n  Contextualización del diálogo mediante detección y enriquecimiento de entidades. Se presenta esa información adicional en la tableta. 75
  67. 8.3 Trabajos futuros n  Aplicación práctica: ancianos con Alzheimer (proyecto

    nacional) y niños con cáncer (proyecto europeo Monarch). n  Conversación multiparte. n  Profundizar en el uso de los componentes de visión en el diálogo. n  Fisión multimodal. n  Diálogos en un lenguaje de más alto nivel. n  Integración con el sistema de toma de decisión. 76
  68. 9.1. Publicaciones en revistas 9.2. Publicaciones en congresos 9. Publicaciones

    9.3. Apariciones en prensa 5. Componentes de entrada desarrollados 1. Introducción 3. Sistema Robótico de Diálogo (RDS) 4. El gestor de diálogo 2. Estado del arte de los sistemas de diálogo 6. Componentes de salida desarrollados 7. Diálogos implementados 8. Conclusiones
  69. 9.1 Publicaciones en revistas n  F.Alonso-Martin, Siqueira, J.F. Gorostiza, María

    Malfaz, Miguel A. Salichs. A Multimodal Emotion Detection System during Human-Robot Interaction. Sensors. Vol. 13. No. 11. pp. 15549-15581. 2013. n  F.Alonso-Martin, J.F. Gorostiza, María Malfaz, Miguel A. Salichs. Multimodal Fusion as Communicative Acts During Human-Robot Interaction. Cybernetics and Systems. Vol. 44. No. 8. pp. 681-703. 2013. n  F.Alonso-Martin; J.F.Gorostiza; M.Malfaz; M.A.Salichs. User Localization During Human-Robot Interaction. Sensors. (doi:10.3390/s120709913). Vol. 12. No. 7. pp.9913-9935. 2012. n  V.G.Pacheco; A. Ramey; F.Alonso-Martin; A.Castro; M.A.Salichs. Maggie: A Social Robot as a Gamming Platform. International Journal of Social Robotics. Vol. 3. No. 4. pp.371-381. 2011. n  F. Alonso-Martin; M.A.Salichs. Integration of a voice recognition system in a social robot. Cybernetics and Systems: An International Journal. Vol. 42. No. 4. pp.215-245. 2011. 78
  70. 9.2 Publicaciones en congresos n  F.Alonso-Martín; A. Ramey; M.A. Salichs.

    Speaker identification using three signal voice domains during human-robot interaction. Proceedings of the 2014 ACM/IEEE international conference on Human-robot interaction - HRI '14. 2014. n  F. Alonso-Martín, J.F. Gorostiza, Miguel A. Salichs. Multidomain Voice Activity Detection during Human-Robot Interaction. International Conference on Social Robotics (ICSR 2013). n  F. Alonso-Martín, J.F. Gorostiza, Miguel A. Salichs. Descripción general del sistema de interacción humano-robot Robotics Dialog System (RDS). Robocity2030 12th Workshop: Robótica Cognitiva. 2013. n  F. Alonso-Martín, J.F. Gorostiza, Miguel A. Salichs. Preliminary Experiments on HRI for improvement the Robotic Dialog System (RDS). 11º Workshop Robots Sociales. Spain. March, 2013. n  F. Alonso-Martín, J.F. Gorostiza, Miguel A. Salichs. Musical Expression in a Social Robot. Proceedings of the 2012 International IEEE Intelligent Vehicles Symposium. Workshops V Perception in Robotics.. Alcalá de Henares. Spain. Jun, 2012. n  F.Alonso-Martín; A. Ramey; M.A. Salichs. Maggie: el robot traductor. 9º WorkShop Robocity2030. Madrid. Spain. May, 2011. n  F. Alonso-Martín, V. Gonzalez-Pacheco, A. Castro-González, Arnaud. A. Ramey, Marta Yébenes, Miguel A. Salichs. Using a social robot as a gaming platform. Human Robotic Interaction 2010 Singapour. Noviembre 2010. 79
  71. 9.3 Apariciones en medios n  2012 -03 -12 El Mundo.

    La Trinchera. Robots sociales, compañeros de futuro. (artículo y audiovisual). http://www.elmundo.es/blogs/elmundo/latrinchera/2012/03/12/robots-sociales-companeros-de- futuro.html n  2012 -03- 29 Portal de noticias Madri+d. Robots para aliviar la carga familiar del cuidador (artículo). http://www.madrimasd.org/informacionidi/noticias/noticia.asp?id=52087 n  2012 -08-22 Jubilación Y Pensión.com. Asibot y Maggie, dos robots para personas mayores “Made In Spain” (artículo). http://www.jubilacionypension.com/asibot-y-maggie-dos-robots-para-personas-mayores-made-in- spain/ n  2011 -12-15 TVE1 Programa de divulgación científica Tres14: Cuerpos Inteligentes (programa televisivo). http://www.rtve.es/television/20111215/tres14-cuerpos-inteligentes/ 482248.shtml n  2011-11-29 Fundación Alzheimer. Robot Asistencial “Maggie” (audiovisual y nota informativa). http://www.youtube.com/watch?v=wEjFgqNpig0 y http://www.alzfae.org/index.php/fundacion/actividades-fae/encuentros/520-xii-encuentro-tematico- fae n  2011-11-05 Fundación Alzheimer. Robots Asistenciales para el Alzheimer (artículo). http://cuidadoalzheimer.com/atencion-alzheimer/robots-asistenciales-para-el-alzheimer/ n  2011-01-30 TVE1 Programa de divulgación científica Tres14: Aprendizaje (programa televisivo: 22’.50’’ – 24’.40’’). http://www.rtve.es/television/20110124/aprendizaje-tres14/397694.shtml 80
  72. 9.3 Apariciones en medios (II) n  2009-06-07 La Sexta Noticias:

    Cómplice Electrónico (programa de televisión). http:// roboticslab.uc3m.es/mediawiki/images/a/a4/2009-06-07-laSexta-Noticias-C%C3%B3mplice_electr %C3%B3nico.flv n  2009-05-28 El Almería. El CSIC acoge una muestra con 20 robots (1’05’’-1’45’’). http://roboticslab.uc3m.es/mediawiki/images/ 4/46/2009-05-28_el_almeria_El_CSIC_acoge_una_muestra_con_20_robots.m4v n  2009-05-28 El Mundo. Los Robots Invaden Madrid. (artículo y audiovisual) http://www.elmundo.es/elmundo/2009/05/28/ciencia/1243529306.html n  2009-3-7 ASIBOT y MAGGIE: 2 robots asistenciales en la mayor reunión de expertos en robótica de España. (artículo). http://medicablogs.diariomedico.com/samfrado/2009/03/07/asibot-y-maggie-2- robots-asistenciales-en-la-mayor-reunion-de-expertos-en-robotica-de-espana/ n  2008-11-23 Agencia EFE. “Maggie”, robot para ciegos capaz de sentir cosquillas o distinguir medicinas (audiovisual). http://video.mx.msn.com/watch/video/maggie-robot-para-ciegos-capaz-de-sentir-cosquillas-o- distinguir-medicinas/gf48z493 n  2008-11-18 RTVE. Maggie, un robot que hace de todo (audiovisual). http://www.rtve.es/alacarta/videos/programa/maggie-robot-hace-todo/344367 n  2008-6-5 Portal Universidad Carlos III Madrid. Maggie: futuro, autonomía y diversión (texto y audiovisual). http://www.uc3m.es/portal/page/portal/actualidad_cientifica/actualidad/ reportajes/archivo_reportajes/Maggie_futuro_autonomia_diversion 81
  73. SISTEMA DE INTERACCIÓN HUMANO ROBOT BASADO EN DIÁLOGOS MULTIMODALES Y

    ADAPTABLES Fernando Alonso Martín Miguel Ángel Salichs Francisco Javier de Gorostiza Luengo 82 Universidad  Carlos  III  de  Madrid   Doctorado  en  Ingeniería  Eléctrica,  Electrónica  y   Automá>ca    
  74. 83

  75. 2.3 Sistemas de diálogo aplicados a la robótica social n 

    1998 Jigo-2 (voz) n  2004 Biron (voz, tacto) n  2004 Aibo (gestos, sonidos no verbales) n  2006 Paro (tacto, sonidos no verbales, gestos) n  2007 HRP-2 (voz, tacto, visión, gestos) n  2004-2010 iCub (voz, tacto, gestos, emociones) n  Leonardo n  2012 Aisoy (voz, tacto, emociones, visión, LEDs) 84
  76. 8.1 Conclusiones n  Con esta tesis se ha querido aportar

    un pequeño avance en los sistemas de diálogo aplicados a la robótica social. n  Se pretende dotar de un nivel de madurez mayor a los sistemas de diálogo aplicados a robots sociales con un alto grado de multimodalidad. n  Gran parte del trabajo realizado ha consistido en tareas de integración y robustez. n  No obstante, se han realizado aportaciones en varios campos de investigación. 85
  77. 86

  78. 87