Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2012 machine translation basics

2012 machine translation basics

2-hour training on machine translation for Language Service Providers.
Language: Spanish

More Decks by tauyou <language technology>

Other Decks in Technology

Transcript

  1. © 2012 #1
    traducción automática
    para LSPs
    Diego Bartolomé, CEO

    View full-size slide

  2. © 2012 #2
    presentaciones

    View full-size slide

  3. © 2012 #3
    ¿dónde estamos?
    1954 machine translation movie

    View full-size slide

  4. © 2012 #4
    ¡nunca!
    no funciona para lo que hacemos
    salen errores muy graves
    se equivoca en cosas muy sencillas
    pierdo más tiempo que empezando de cero
    la calidad final siempre será peor
    nos va a quitar el trabajo
    ...

    View full-size slide

  5. © 2012 #5
    ... pero ...
    los precios van a la baja
    los deadlines son cada vez más ajustados
    la competencia es cada vez más dura
    hay diferentes niveles de calidad tolerados
    cada vez con más contenido para traducir
    y en más idiomas
    a veces, es necesario traducir en tiempo real

    View full-size slide

  6. © 2012 #8
    le podemos dar una oportunidad
    incrementa la productividad
    nos elimina ciertas tareas repetitivas
    mejora con el tiempo
    reduce los costes
    permite acceder a nuevos clientes
    proporciona nuevos modelos de negocio
    no sirve para todo

    View full-size slide

  7. © 2012 #9
    Gartner hype cycle

    View full-size slide

  8. © 2012 #10
    en los 80/90
    3 sistemas principales: Systran, Logos, Metal
    interés renovado por 3 motivos principales
    aumento de la capacidad computacional
    reducción del coste de hardware y software
    aparición de los modelos estadísticos (IBM)
    métodos basados en ejemplos
    principalmente en Japón
    proyecto de S2S: Verbmobil

    View full-size slide

  9. © 2012 #11
    boom actual
    plena efervescencia de sistemas
    reglas
    basados en ejemplos
    estadísticos
    basados en contexto
    alternativas: crowdsourcing
    importantes compañías involucradas
    IBM, SAP, Google, Microsoft ...

    View full-size slide

  10. © 2012 #13
    modelo SMT

    View full-size slide

  11. © 2012 #14
    sobre la SMT
    ventajas
    rapidez de desarrollo de idiomas y dominios
    superioridad en aplicaciones acotadas
    alto volumen de texto multilingüe disponible
    no necesita intervención lingüística
    inconvenientes
    metodología estadística
    cómo particularizar

    View full-size slide

  12. © 2012 #15
    productividad en Autodesk

    View full-size slide

  13. © 2012 #16
    productividad según longitud

    View full-size slide

  14. © 2012 #17
    ¿qué tenemos en tauyou?
    demo ttext

    View full-size slide

  15. © 2012 #18
    características

    ilimitadas

    traducciones y palabras prohibidas

    tmx, ttx, xliff, Déjà Vu, doc, docx, ppt, pptx,
    xls, xlsx, xml, html, rtf, InDesign, ...

    aprendizaje
    dinos lo que necesitas y lo hacemos

    View full-size slide

  16. © 2012 #19
    creación de dominio

    memorias de traducción corpus open-source
    documentos previos alineación documentación
    webs de clientes información pública
    reglas programación de reglas
    otros datos extracción de terminología

    mínimo número de palabras
    necesidad de clasificación de datos
    pares de idiomas

    View full-size slide

  17. © 2012 #20
    y más

    tablas de traducción y modelos de lenguaje
    datos y parámetros para ajuste fino
    medidas de test

    varios + purga

    por traductores profesionales

    nuevos ficheros, corpus, reglas, etc...

    View full-size slide

  18. © 2012 #21
    el proceso de producción (I)
    decodificación SMT
    conversión
    formato
    segmentar
    texto
    tareas
    NLP
    tokenizar
    reescribir
    origen
    minúsculas

    View full-size slide

  19. © 2012 #22
    el proceso de producción (II)
    decodificación SMT
    fichero
    traducido
    reformatear detokenizar
    reescribir
    destino
    mayúsculas
    evaluación

    View full-size slide

  20. © 2012 #23
    minimización del riesgo

    cálculo medidas calidad

    análisis de coste y tiempo
    +
    medir la evolución

    View full-size slide

  21. © 2012 #24
    Niveles de calidad
    Nivel Traducción Contenido Calidad
    1
    1
    1
    1 Humana
    Humana
    Humana
    Humana Marketing, traducciones con
    Marketing, traducciones con
    Marketing, traducciones con
    Marketing, traducciones con
    certificci
    certificci
    certificci
    certificció
    ó
    ó
    ón, documentaci
    n, documentaci
    n, documentaci
    n, documentació
    ó
    ó
    ón
    n
    n
    n
    t
    t
    t

    é
    é
    écnica muy especializada
    cnica muy especializada
    cnica muy especializada
    cnica muy especializada
    para uso externo, webs de
    para uso externo, webs de
    para uso externo, webs de
    para uso externo, webs de
    mucho tr
    mucho tr
    mucho tr
    mucho trá
    á
    á
    áfico
    fico
    fico
    fico
    Alta
    Alta
    Alta
    Alta
    2
    2
    2
    2 MT posteditada
    MT posteditada
    MT posteditada
    MT posteditada Documentaci
    Documentaci
    Documentaci
    Documentació
    ó
    ó
    ón e uso interno,
    n e uso interno,
    n e uso interno,
    n e uso interno,
    p
    p
    p

    á
    á
    áginas web de tr
    ginas web de tr
    ginas web de tr
    ginas web de trá
    á
    á
    áfico medio
    fico medio
    fico medio
    fico medio
    Media
    Media
    Media
    Media
    3
    3
    3
    3 MT +terminolog
    MT +terminolog
    MT +terminolog
    MT +terminologí
    í
    í
    ía,
    a,
    a,
    a,
    TM y/o diccionarios
    TM y/o diccionarios
    TM y/o diccionarios
    TM y/o diccionarios
    Informaci
    Informaci
    Informaci
    Informació
    ó
    ó
    ón b
    n b
    n b
    n bá
    á
    á
    ásica, conocer el
    sica, conocer el
    sica, conocer el
    sica, conocer el
    contenido del texto
    contenido del texto
    contenido del texto
    contenido del texto
    Debajo de la
    Debajo de la
    Debajo de la
    Debajo de la
    media
    media
    media
    media
    4
    4
    4
    4 MT en bruto
    MT en bruto
    MT en bruto
    MT en bruto Medios sociales/digitales,
    Medios sociales/digitales,
    Medios sociales/digitales,
    Medios sociales/digitales,
    informaci
    informaci
    informaci
    informació
    ó
    ó
    ón para cliente
    n para cliente
    n para cliente
    n para cliente
    Pobre
    Pobre
    Pobre
    Pobre

    View full-size slide

  22. © 2012 #25
    postedición suficientemente buena
    Se intenta obtener una traducción correcta desde el punto de
    vista semántico.
    Se asegura que no se haya añadido ni omitido ninguna
    información accidentalmente.
    Se modifica todo contenido ofensivo, inadecuado o no aceptable
    culturalmente.
    Se utiliza tanto como sea posible del resultado “en bruto” de la
    traducción automática.
    Se aplican las reglas básicas con respecto a la ortografía.
    No hay que implementar correcciones de naturaleza estilística.
    No hay que reestructurar oraciones solo para mejorar el flujo
    natural del texto.

    View full-size slide

  23. © 2012 #26
    postedición de calidad
    Se intenta obtener una traducción correcta desde el punto de vista
    gramatical, sintáctico y semántico.
    Se asegura que la terminología clave esté correctamente traducida y
    que los términos no traducidos sean los que aparecen en la lista
    de “Términos que no se deben traducir“ del cliente.
    Se asegura que no se haya añadido ni omitido ninguna información.
    Se modifica todo contenido ofensivo, inadecuado o no aceptable
    culturalmente.
    Se utiliza tanto como sea posible del resultado “en bruto” de la
    traducción automática.
    Se aplican reglas básicas con respecto a la ortografía, puntuación y
    guiones.
    Se asegura que el formato sea el correcto.

    View full-size slide

  24. © 2012 #27
    casos habituales

    View full-size slide

  25. © 2012 #28
    datos 1

    entrenamiento con todo
    clasificación semántica por dominios
    ajuste fino para cada cliente
    priorización por glosarios
    aprendizaje continuo

    View full-size slide

  26. © 2012 #29
    datos 2

    añadir diccionarios al corpus
    completar con segmentos complementarios
    combinar datos del cliente con texto genérico
    adaptación a dominio en base a genérico
    aumentar el número de frases con reglas

    View full-size slide

  27. © 2012 #30
    datos 3

    eliminar traducciones múltiples
    detectar texto en otros idiomas
    corregir ortografía
    seleccionar frases con gramática correcta
    alineación con terminología del cliente
    filtrar otros segmentos indeseados

    View full-size slide

  28. © 2012 #31
    datos 4

    cliente final definido
    documentos traducidos sin alinear
    traducciones genéricas
    creacion del corpus/memorias óptimas
    extensión y filtrado basado en reglas

    View full-size slide

  29. © 2012 #32
    cuestiones lingüísticas 1

    creación de diccionarios

    reglas de post-proceso

    eliminar aquellas que no cumplan requisitos

    View full-size slide

  30. © 2012 #33
    cuestiones lingüísticas 2

    ortografía y gramática
    simplificación de frases
    homogeneización terminológica

    personas, lugares, organizaciones
    códigos alfanuméricos

    View full-size slide

  31. © 2012 #34
    caso de uso ...

    traducciones frecuencues
    clientes de diferentes dominios

    conseguir cuanto más datos mejor
    recibir un nuevo fichero para traducir
    crear un dominio ad-hoc para ese fichero
    entrenar la solución y reglas básicas

    adaptación óptima en alrededor 4 horas

    View full-size slide

  32. © 2012 #35
    algunos consejos
    clientes más grandes
    idiomas
    con volúmenes más altos
    con estructura similar
    con necesidades o terminología específica
    involucrar a traductores innovadores
    empezar ... probar

    View full-size slide

  33. © 2012 #36
    otras soluciones

    mejorar la calidad del texto original
    coherencia y simplificación
    ortografía, gramática, semántica

    traducción de páginas web
    MT + postedición automática

    integración en otras aplicaciones
    posibilidad de tiempo real

    View full-size slide

  34. © 2012 #37
    ¡Gracias!
    // Diego Bartolomé, PhD
    C/ Les Planes 39 – 08201 Sabadell
    +34 93 711 29 96
    +34 670 331 225
    [email protected]
    tauyou.com

    View full-size slide