Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2012 machine translation basics

2012 machine translation basics

2-hour training on machine translation for Language Service Providers.
Language: Spanish

More Decks by tauyou <language technology>

Other Decks in Technology

Transcript

  1. © 2012 #4 ¡nunca! no funciona para lo que hacemos

    salen errores muy graves se equivoca en cosas muy sencillas pierdo más tiempo que empezando de cero la calidad final siempre será peor nos va a quitar el trabajo ...
  2. © 2012 #5 ... pero ... los precios van a

    la baja los deadlines son cada vez más ajustados la competencia es cada vez más dura hay diferentes niveles de calidad tolerados cada vez con más contenido para traducir y en más idiomas a veces, es necesario traducir en tiempo real
  3. © 2012 #8 le podemos dar una oportunidad incrementa la

    productividad nos elimina ciertas tareas repetitivas mejora con el tiempo reduce los costes permite acceder a nuevos clientes proporciona nuevos modelos de negocio no sirve para todo
  4. © 2012 #10 en los 80/90 3 sistemas principales: Systran,

    Logos, Metal interés renovado por 3 motivos principales aumento de la capacidad computacional reducción del coste de hardware y software aparición de los modelos estadísticos (IBM) métodos basados en ejemplos principalmente en Japón proyecto de S2S: Verbmobil
  5. © 2012 #11 boom actual plena efervescencia de sistemas reglas

    basados en ejemplos estadísticos basados en contexto alternativas: crowdsourcing importantes compañías involucradas IBM, SAP, Google, Microsoft ...
  6. © 2012 #14 sobre la SMT ventajas rapidez de desarrollo

    de idiomas y dominios superioridad en aplicaciones acotadas alto volumen de texto multilingüe disponible no necesita intervención lingüística inconvenientes metodología estadística cómo particularizar
  7. © 2012 #18 características <idiomas _ dominios _ palabras traducidas>

    ilimitadas <glosarios> traducciones y palabras prohibidas <formatos de ficheros> tmx, ttx, xliff, Déjà Vu, doc, docx, ppt, pptx, xls, xlsx, xml, html, rtf, InDesign, ... <y mucho más> aprendizaje dinos lo que necesitas y lo hacemos
  8. © 2012 #19 creación de dominio <LSP> <tauyou> memorias de

    traducción corpus open-source documentos previos alineación documentación webs de clientes información pública reglas programación de reglas otros datos extracción de terminología <algunas cuestiones> mínimo número de palabras necesidad de clasificación de datos pares de idiomas
  9. © 2012 #20 y más <selección y limpieza de datos>

    tablas de traducción y modelos de lenguaje datos y parámetros para ajuste fino medidas de test <creación de motores> varios + purga <validación> por traductores profesionales <mejora continua> nuevos ficheros, corpus, reglas, etc...
  10. © 2012 #21 el proceso de producción (I) decodificación SMT

    conversión formato segmentar texto tareas NLP tokenizar reescribir origen minúsculas
  11. © 2012 #22 el proceso de producción (II) decodificación SMT

    fichero traducido reformatear detokenizar reescribir destino mayúsculas evaluación
  12. © 2012 #23 minimización del riesgo <tauyou> cálculo medidas calidad

    <LSP> análisis de coste y tiempo <LSP> + <tauyou> medir la evolución
  13. © 2012 #24 Niveles de calidad Nivel Traducción Contenido Calidad

    1 1 1 1 Humana Humana Humana Humana Marketing, traducciones con Marketing, traducciones con Marketing, traducciones con Marketing, traducciones con certificci certificci certificci certificció ó ó ón, documentaci n, documentaci n, documentaci n, documentació ó ó ón n n n t t t té é é écnica muy especializada cnica muy especializada cnica muy especializada cnica muy especializada para uso externo, webs de para uso externo, webs de para uso externo, webs de para uso externo, webs de mucho tr mucho tr mucho tr mucho trá á á áfico fico fico fico Alta Alta Alta Alta 2 2 2 2 MT posteditada MT posteditada MT posteditada MT posteditada Documentaci Documentaci Documentaci Documentació ó ó ón e uso interno, n e uso interno, n e uso interno, n e uso interno, p p p pá á á áginas web de tr ginas web de tr ginas web de tr ginas web de trá á á áfico medio fico medio fico medio fico medio Media Media Media Media 3 3 3 3 MT +terminolog MT +terminolog MT +terminolog MT +terminologí í í ía, a, a, a, TM y/o diccionarios TM y/o diccionarios TM y/o diccionarios TM y/o diccionarios Informaci Informaci Informaci Informació ó ó ón b n b n b n bá á á ásica, conocer el sica, conocer el sica, conocer el sica, conocer el contenido del texto contenido del texto contenido del texto contenido del texto Debajo de la Debajo de la Debajo de la Debajo de la media media media media 4 4 4 4 MT en bruto MT en bruto MT en bruto MT en bruto Medios sociales/digitales, Medios sociales/digitales, Medios sociales/digitales, Medios sociales/digitales, informaci informaci informaci informació ó ó ón para cliente n para cliente n para cliente n para cliente Pobre Pobre Pobre Pobre
  14. © 2012 #25 postedición suficientemente buena Se intenta obtener una

    traducción correcta desde el punto de vista semántico. Se asegura que no se haya añadido ni omitido ninguna información accidentalmente. Se modifica todo contenido ofensivo, inadecuado o no aceptable culturalmente. Se utiliza tanto como sea posible del resultado “en bruto” de la traducción automática. Se aplican las reglas básicas con respecto a la ortografía. No hay que implementar correcciones de naturaleza estilística. No hay que reestructurar oraciones solo para mejorar el flujo natural del texto.
  15. © 2012 #26 postedición de calidad Se intenta obtener una

    traducción correcta desde el punto de vista gramatical, sintáctico y semántico. Se asegura que la terminología clave esté correctamente traducida y que los términos no traducidos sean los que aparecen en la lista de “Términos que no se deben traducir“ del cliente. Se asegura que no se haya añadido ni omitido ninguna información. Se modifica todo contenido ofensivo, inadecuado o no aceptable culturalmente. Se utiliza tanto como sea posible del resultado “en bruto” de la traducción automática. Se aplican reglas básicas con respecto a la ortografía, puntuación y guiones. Se asegura que el formato sea el correcto.
  16. © 2012 #28 datos 1 <gran volumen de datos heterogéneos>

    entrenamiento con todo clasificación semántica por dominios ajuste fino para cada cliente priorización por glosarios aprendizaje continuo
  17. © 2012 #29 datos 2 <datos escasos> añadir diccionarios al

    corpus completar con segmentos complementarios combinar datos del cliente con texto genérico adaptación a dominio en base a genérico aumentar el número de frases con reglas
  18. © 2012 #30 datos 3 <datos sucios> eliminar traducciones múltiples

    detectar texto en otros idiomas corregir ortografía seleccionar frases con gramática correcta alineación con terminología del cliente filtrar otros segmentos indeseados
  19. © 2012 #31 datos 4 <creación y mejora de datos>

    cliente final definido documentos traducidos sin alinear traducciones genéricas creacion del corpus/memorias óptimas extensión y filtrado basado en reglas
  20. © 2012 #32 cuestiones lingüísticas 1 <palabras no traducidas> creación

    de diccionarios <errores gramaticales> reglas de post-proceso <filtrado de calidad> eliminar aquellas que no cumplan requisitos
  21. © 2012 #33 cuestiones lingüísticas 2 <limpieza del texto original>

    ortografía y gramática simplificación de frases homogeneización terminológica <detección de palabras especiales> personas, lugares, organizaciones códigos alfanuméricos
  22. © 2012 #34 caso de uso ... <volumen recurrentes> traducciones

    frecuencues clientes de diferentes dominios <flujo> conseguir cuanto más datos mejor recibir un nuevo fichero para traducir crear un dominio ad-hoc para ese fichero entrenar la solución y reglas básicas <salida> adaptación óptima en alrededor 4 horas
  23. © 2012 #35 algunos consejos clientes más grandes idiomas con

    volúmenes más altos con estructura similar con necesidades o terminología específica involucrar a traductores innovadores empezar ... probar
  24. © 2012 #36 otras soluciones <author> mejorar la calidad del

    texto original coherencia y simplificación ortografía, gramática, semántica <web> traducción de páginas web MT + postedición automática <API> integración en otras aplicaciones posibilidad de tiempo real
  25. © 2012 #37 ¡Gracias! // Diego Bartolomé, PhD <dirección> C/

    Les Planes 39 – 08201 Sabadell <teléfono> +34 93 711 29 96 <móvil> +34 670 331 225 <email> [email protected] <www> tauyou.com