Upgrade to Pro — share decks privately, control downloads, hide ads and more …

IA: ASR, TTS, NLP, NLU... LOL (Spanish)

IA: ASR, TTS, NLP, NLU... LOL (Spanish)

Language Technologies that are often used by developers of conversational interfaces. What is hidden behind those acronyms? What are some of the resources available to us? And in what kind of applications are they used?
Spanish :
ASR, TTS, NLP, NLU, NLG… Tecnologías del Lenguaje frecuentemente empleadas por los desarrolladores de interfaces conversacionales. ¿Qué se esconde detrás de esas siglas? ¿Cuáles son algunos de los recursos a nuestro alcance? ¿Y en qué tipo de aplicaciones se utilizan?

Avatar for Veronica Alfaro

Veronica Alfaro

November 05, 2020
Tweet

Other Decks in Technology

Transcript

  1. Verónica Alfaro - @oraflav HUMANIDADES + INVESTIGACIÓN + TECNOLOGÍA Investigadora

    universitaria (2000) Ingeniera de Software Speech Scientist & Conversational Designer Speech Technologies Expert Chatbot Project Manager (2020)
  2. Crear máquinas CONVERSACIONALES... necesita tecnologías que enseñen a PROCESAR y

    GENERAR Lenguaje Natural, con calidad suficiente para que sea posible la interacción humano-máquina de la manera más natural posible ...TAREA COMPLEJA en la que suelen emplearse cinco TECNOLOGÍAS BÁSICAS ASR NLU DM NLG TTS
  3. ASR Preprocesamiento Extracción de rasgos característicos Decodificación Posprocesado TEXTO Modelo

    Acústico Diccionario Modelo de Lenguaje captura de la señal acústica, aplicación de filtros para reducir ruido de fondo, aumentar diferentes tipos de vocalización y segmentar la señal (identificando partes de silencio habla) AUDIO
  4. ASR Preprocesamiento Extracción de rasgos característicos Decodificación Posprocesado TEXTO Modelo

    Acústico Diccionario Modelo de Lenguaje Se divide la señal en ventanas de tiempo (frames) usualmente de 25 ms cada una, superponiéndolas 10 ms entre sí, dentro de cada frame se le aplican ciertas transformaciones matemáticas, como Fourier y coseno discreto, junto otros filtros y procesos de normalización. Objetivo: obtener un vector de coeficientes que represente la señal acústica AUDIO
  5. ASR Preprocesamiento Extracción de rasgos característicos Decodificación Posprocesado TEXTO Modelo

    Acústico Diccionario Modelo de Lenguaje Cálculo de la secuencia de palabras más probable que corresponde a la señal acústica representada en los vectores de rasgos característicos. Tres fuentes de información: • Modelo acústico (típicamente Modelo Oculto de Markov (HMM)) • Diccionario lista de palabras y los fonemas que las forman • Modelo de lenguaje probabilidades de palabras y secuencias de ellas AUDIO
  6. ASR Preprocesamiento Extracción de rasgos característicos Decodificación Posprocesado TEXTO Modelo

    Acústico Diccionario Modelo de Lenguaje Ajustes empleando fuentes adicionales de información específica para un determinado contexto, empleando algoritmos precisos que den como resultado una hipótesis final. AUDIO
  7. ASR Preprocesamiento Extracción de rasgos característicos Decodificación Posprocesado TEXTO Modelo

    Acústico Diccionario Modelo de Lenguaje Como resultado obtendremos un TEXTO o lista de textos candidatos con mayor probabilidad de representar el audio recibido. ¿Lo hace bien? Para saberlo empleamos métricas utilizadas comúnmente para medir el desempeño de un ASR como WER (Word Error Rate) o SER (Sentence Error Rate). AUDIO
  8. ASR ¿Quieres experimentar con tu propio sistema ASR? Échale un

    vistazo a CMU Sphinx y Kaldi Algunos proveedores...
  9. Intent (lo que quiere el usuario y requiere acción del

    bot) NLU Utterances (frases con las que el usuario expresa lo que quiere, expresiones con las que entrenar el “conocimiento” del bot) Entity (objeto o valor para el Intent, variables de nuestro bot) • Quiero volar a Londres • Necesito reservar tres billetes • Me gustaría comprar un ticket para el sábado a las 2 de la tarde Adquirir un billete Destino: Londres Cantidad: 3 Fecha: dd/mm/aaaa Hora: 14:00
  10. NLU Intent Entity NLG TTS Proceso de Negocio DM Gestor

    de diálogos hace que la conversación fluya con las respuestas y preguntas adecuadas. Determina el contexto real y el flujo del diálogo para que la conversación sea similar a la humana
  11. NLU Intent Entity DM Dialog Management: el gestor de diálogos

    hace que la conversación fluya con las respuestas y preguntas adecuadas. Determina el contexto real y el flujo del diálogo para que la conversación sea similar a la humana DISCURSO MEMORIA DE LA INTERACCIÓN CONOCIMIENTO DEL MUNDO PRAGMÁTICA
  12. NLG Natural Language Generation. Crear una respuesta correcta y natural,

    fácilmente comprensible por el ser humano, empleando el mismo canal de comunicación. CONVERTIR DATOS ESTRUCTURADOS EN LENGUAJE NATURAL PALABRAS ORACIONES FRASES CONTEXTUALIZADAS Y COMPRENSIBLES
  13. TTS Google ¿Quién no aprobado algo así con Google Assistant?

    https://cloud.google.com/text-to-speech?hl=es
  14. GRACIAS :) IA: ASR, TTS, NLP, NLU… LOL Verónica Alfaro

    - @oraflav Chatbot Project Manager en Multiasistencia