Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2012 Localization World

2012 Localization World

How advanced technologies can improve the generic output of machine translation engines.

tauyou <language technology>

October 12, 2012
Tweet

More Decks by tauyou <language technology>

Other Decks in Technology

Transcript

  1. Language Processing Techniques
    for
    Statistical Machine Translation
    Contact: Diego Bartolome – [email protected]
    C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain
    Tel. +34 93 711 29 96

    View full-size slide

  2. To start ...
    Contact: Diego Bartolome – [email protected]
    C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain
    Tel. +34 93 711 29 96

    View full-size slide

  3. … you choose Moses ...
    Translation memories + linguistic assets
    Cleaning and training following tutorials
    BLEU score seems ok in training
    … but ...
    the results are awful!
    Contact: Diego Bartolome – [email protected]
    C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain
    Tel. +34 93 711 29 96

    View full-size slide

  4. Why?
    Not enough data
    Unclean translation memories
    Misalignments
    Spelling and grammar errors
    Difficult language pairs
    Selection of wrong parameters
    Application of suboptimal techniques
    So many things … what can you do?
    Contact: Diego Bartolome – [email protected]
    C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain
    Tel. +34 93 711 29 96

    View full-size slide

  5. Contact: Diego Bartolome – [email protected]
    C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain
    Tel. +34 93 711 29 96

    View full-size slide

  6. Some steps
    Maximum exploitation of existing assets
    Source content optimization
    Data selection and cleaning
    Improvement of the models
    Linguistic processing
    Continuous improvement
    Contact: Diego Bartolome – [email protected]
    C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain
    Tel. +34 93 711 29 96

    View full-size slide

  7. Existing assets: increase TM leverage
    Translation memory sharing
    Clients, Partners, Competitors, EU, UN, TAUS
    Relevant on-line data retrieval
    Advanced TM techniques
    Sub-segment matching
    Parts of Speech replacement
    Contact: Diego Bartolome – [email protected]
    C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain
    Tel. +34 93 711 29 96

    View full-size slide

  8. Source optimization (I): Pre-editing
    Spell check
    Grammar check
    Style check
    Terminology check
    Client checklist
    new
    doc
    proposed
    doc
    + html
    report
    Contact: Diego Bartolome – [email protected]
    C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain
    Tel. +34 93 711 29 96

    View full-size slide

  9. Source optimization (II): Summarization
    % to reduce
    Use translation memories
    Project
    Client
    All
    new
    doc
    proposed
    doc
    + html
    report
    Contact: Diego Bartolome – [email protected]
    C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain
    Tel. +34 93 711 29 96

    View full-size slide

  10. Summarization example
    http://www.translationautomation.com/press-
    releases/free-open-source-machine-translation-
    tutorial-is-made-available-by-taus
    Contact: Diego Bartolome – [email protected]
    C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain
    Tel. +34 93 711 29 96

    View full-size slide

  11. Data selection and cleaning – a sample
    Clean translation memories
    Length, punctuation, terminology, repetitions …
    Segment splitting
    Optimize weight of most frequent n-grams in corpus
    Validate their translations
    Add out-of-domain data for irrelevant n-grams
    Contact: Diego Bartolome – [email protected]
    C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain
    Tel. +34 93 711 29 96

    View full-size slide

  12. Models optimization
    Filter the translation tables
    Remove the garbage + tune the weights if necessary
    Optimize language models
    Adapt them to the translation purpose
    Tune parameters correctly
    Tune set, test set, optimization parameters …
    Improve recasing
    Contact: Diego Bartolome – [email protected]
    C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain
    Tel. +34 93 711 29 96

    View full-size slide

  13. Linguistic processing
    In the source and/or target language
    Grammar checking
    Entities detection
    proper nouns, alphanumeric words, numbers, ...
    Compound words splitting
    Sentence reordering
    Contact: Diego Bartolome – [email protected]
    C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain
    Tel. +34 93 711 29 96

    View full-size slide

  14. Continuous improvement
    Qualitative feedback of translators
    Reports
    Automatic post-processing with
    machine translation + post-edited segments
    Contact: Diego Bartolome – [email protected]
    C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain
    Tel. +34 93 711 29 96

    View full-size slide

  15. An example from
    Source
    XXX 335102 doses are calculated as a free acid of the sodium salt (NA).
    The potential toxicity of XXX 335102 was studied in a number of acute toxicity studies in mouse and rat
    and repeat dose toxicity studies of 8 and 32 weeks each in rat and monkeys.
    XXX 335102 was negative in a panel of in vivo and in vitro tests to assess mutagenicity and
    clastogenicity identifying no genotoxic risks for human subjects.
    An in vitro assay for phototoxic potential suggested that XXX 335102 is photoxic/photosensitive.
    In the 8-week studies in monkeys, increases in unconjugated bilirubin were noted at the doses tested
    (33, 88, 192 and 444mg/kg/day); the greatest increases occurring at Week 4 and declining or returning
    to control levels by Week 8.
    Reference
    Las dosis de XXX 335102 se calculan como la sal sódica sin ácido (AS).
    La toxicidad potencial de XXX 335102 se estudió en varios estudios de toxicidad aguda en ratones y
    ratas y en estudios de toxicidad con administración repetida de 8 y 32 semanas en ratas y monos.
    Se obtuvieron resultados negativos en un grupo de pruebas in vivo e in vitro para evaluar su mutagenia
    y clastogenia, sin identificarse riesgos genotóxicos para el ser humano.
    En un estudio in vitro de su potencial fototóxico se sugirió que XXX 335102 es fototóxico o
    fotosensibilizador.
    En los estudios de 8 semanas en monos se apreció el aumento de la bilirrubina no conjugada con las
    dosis estudiadas (33, 88, 192 y 444 mg/kg/día), produciéndose el mayor incremento en la semana 4 y
    disminuyendo o volviendo a los niveles de control en la semana 8.

    View full-size slide

  16. Generic engine
    XXX 335102 se calculan en forma de dosis de ácido libre del sodio sal (NA).
    La Toxicidad potencial de XXX 335102 fue estudiado en una serie de estudios de toxicidad aguda en
    ratón y rata y vuelva a dosis estudios de toxicidad, de 8 y de 32 semanas en rata y cada uno de los
    monos.
    XXX 335102 era negativo en un grupo de in vivo y pruebas in vitro para evaluar mutagenicidad y
    genotóxicas clastogenicity no identificar los riesgos para los participantes humanos.
    Un para fines de ensayo in vitro phototoxic potencial se sugirió que XXX 335102
    photoxic/Photosensitive.
    En Los 8 -week estudios en los monos, aumentos en unconjugated bilirrubina salieron a las dosis
    analizada (33, 88, 192 y 444 mg/kg/día); los mayores incrementos habidos En la semana 4 y la
    reducción o devolver a nivel de control de 8 Por semana.
    Medical engine with improvements
    Las dosis XXX 335102 se calculan como ácido libre de la sal sódica (AS).
    La toxicidad potencial de XXX 335102 se estudió en varios estudios de toxicidad aguda en ratones y
    ratas y en estudios de toxicidad con administración repetida de 8 y 32 semanas en ratas y monos.
    XXX 335102 dio negativo en un grupo de pruebas in vivo e in vitro para evaluar su mutagenia y
    clastogenia, sin identificarse riesgos genotóxicos para el ser humano.
    En un estudio in vitro de su potencial fototóxico se sugirió que XXX 335102 es fototóxico o
    fotosensibilizador.
    En los estudios de 8 semanas en monos, el aumento de la bilirrubina no conjugada con las dosis
    estudiadas (33, 88, 192 y 444 mg/kg/día); el mayor incremento en la semana 4 y disminuyendo o
    volviendo a los niveles de control en la semana 8.

    View full-size slide

  17. Reference
    Las dosis de XXX 335102 se calculan como la sal sódica sin ácido (AS).
    La toxicidad potencial de XXX 335102 se estudió en varios estudios de toxicidad aguda en ratones y
    ratas y en estudios de toxicidad con administración repetida de 8 y 32 semanas en ratas y monos.
    Se obtuvieron resultados negativos en un grupo de pruebas in vivo e in vitro para evaluar su mutagenia
    y clastogenia, sin identificarse riesgos genotóxicos para el ser humano.
    En un estudio in vitro de su potencial fototóxico se sugirió que XXX 335102 es fototóxico o
    fotosensibilizador.
    En los estudios de 8 semanas en monos se apreció el aumento de la bilirrubina no conjugada con las
    dosis estudiadas (33, 88, 192 y 444 mg/kg/día), produciéndose el mayor incremento en la semana 4 y
    disminuyendo o volviendo a los niveles de control en la semana 8.
    Medical engine with improvements
    Las dosis XXX 335102 se calculan como ácido libre de la sal sódica (AS).
    La toxicidad potencial de XXX 335102 se estudió en varios estudios de toxicidad aguda en ratones y
    ratas y en estudios de toxicidad con administración repetida de 8 y 32 semanas en ratas y monos.
    XXX 335102 dio negativo en un grupo de pruebas in vivo e in vitro para evaluar su mutagenia y
    clastogenia, sin identificarse riesgos genotóxicos para el ser humano.
    En un estudio in vitro de su potencial fototóxico se sugirió que XXX 335102 es fototóxico o
    fotosensibilizador.
    En los estudios de 8 semanas en monos, el aumento de la bilirrubina no conjugada con las dosis
    estudiadas (33, 88, 192 y 444 mg/kg/día); el mayor incremento en la semana 4 y disminuyendo o
    volviendo a los niveles de control en la semana 8.

    View full-size slide

  18. Conclusions
    MT can be combined with other advanced techniques
    Creating and improving an engine requires time
    You can also be lucky at the first try!
    The optimum results require translators
    Implementation of the linguistic knowledge
    Continuous improvement
    Contact: Diego Bartolome – [email protected]
    C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain
    Tel. +34 93 711 29 96

    View full-size slide