Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Sistema de traducción automática del chino al español basado en reglas

Gamar
March 24, 2015

Sistema de traducción automática del chino al español basado en reglas

Gamar

March 24, 2015
Tweet

More Decks by Gamar

Other Decks in Research

Transcript

  1. Introducción Chinese-to-Spanish rule-based machine translation system Jordi Centelles1 and Marta

    R. Costa-jussa Proceedings of the 3rd Workshop on Hybrid Approaches to Translation (HyTra). (EACL 2014) Sistema de traducción automática del chino al español basado en reglas 2
  2. Introducción El chino y el español son dos de los

    idiomas mas hablados en todo el mundo. No hay muchos sistemas de traducción automática del chino al español, además la calidad de ellos se encuentra debajo de los estándares. El chino y el español poseen mucha diferencia lingüística, el primero es un lenguaje aislado mientras que el segundo es un lenguaje fusionante. 3
  3. Arquitectura  Se basa en la plataforma Apertium, la cual

    es una herramienta libre para traducción automática, originalmente diseñada para traducir lenguajes relacionados. Se utiliza la arquitectura del sistema pero también se usan técnicas estadísticas para completarlo. El desarrollo hasta la fecha consiste en alimentar los diccionarios monolingües y bilingües, filtrarlo y generar reglas de transferencia gramaticales. El diccionario monolingüe posee información morfológica y el bilingüe posee la traducción. 4
  4. Diccionario Bilingüe Se realizo mediante dos metodologías diferentes. La primera

    se realizo manualmente usando Yellow Bridge, un sitio web que sirve como guía de la cultura y lenguaje chino para hablantes del ingles. Posee una lista de palabras clasificadas por su categoría gramatical, tales como verbos, sustantivos, numerales, conjunciones, etc. Para cada categoría cada palabra tiene su traducción al ingles, información que fue añadida al diccionario. Con este proceso se agrego cientos de numerales, pronombres, conjunciones, adjetivos, 3000 sustantivos y 2000 verbos. 6
  5. Diccionario Bilingüe La segunda consistió en un método estadístico. Se

    alineo el corpus paralelo de las Naciones Unidas a nivel de palabra usando GIZA++. El alineamiento se realizó de fuente a destino y viceversa, la simetrización se logró mediante la intersección. El diccionario fue filtrado manualmente para eliminar las entradas invalidas. Este procedimiento añadió unas 3.500 palabras al diccionario, con lo que totalizan 9.000 7
  6. Diccionario Monolingüe Se extrajo de la fuente del diccionario bilingüe,

    posteriormente se filtro con expresiones regulares para evitar entradas repetidas. El chino es un lenguaje aislado, por lo que no es necesario realizar un análisis morfológico. Las palabras del chino se encuentran concatenadas. Por lo que es necesario realizar una segmentación. Se uso la herramienta ZhSeg en comparación con LRLM de Apertium. El radio de error correspondiente fue de 16.56% y 16.89% respectivamente. Para asegurar que los diccionarios sean coherentes se decidió usar testvoc de Apertium. 8
  7. Reglas de Transferencia Las reglas fueron extraídas mediante un procedimiento

    manual. Se observó la traducción de un texto origen y se contrasto con la traducción generada, la fuente y la referencia. Patrones fueron extraídos para diseñar una regla que cubriera todas las modificaciones necesarias. Se extrajo 28 reglas de intrasintagmas y 34 de intersintagmas. 9
  8. Evaluación Se evaluó en términos de cobertura. Se uso textos

    de distintos dominios para realizar la evaluación. Dominios incluyen noticias, un subcorpus de las Naciones Unidas y un corpus casero en dominios de transporte y hospitalidad. Este enfoque de traducción automática puede ser la base para una arquitectura hibrida, usando un sistema de TA y corpora paralela y monolingüe. 10
  9. Evaluación Tabla 1: Resultados de Cobertura 11 Dataset Dominio Palabras

    Cobertura Dev Noticias 1,651 88.7 Test NU Casero 35,914 10,361 83.2 82.8
  10. Conclusión Se describió la construcción de un sistema RBMT de

    chino a español. El conocimiento humano ha sido usado para realizar diccionarios monolingües y bilingües, así como definir las reglas de transferencias gramaticales. Como trabajo futuro se deben incorporar nuevas entradas de diccionario y reglas de transferencias más complejas. 12