Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Automatic Machine Translation Evaluation in Man...

ryoma yoshimura
November 17, 2020
42

Automatic Machine Translation Evaluation in Many Languages via Zero-Shot Paraphrasing

研究室のEMNLP読み会での資料です。

ryoma yoshimura

November 17, 2020
Tweet

More Decks by ryoma yoshimura

Transcript

  1. Abstract
 • 機械翻訳(MT)の評価を,参照文を条件としたMT出力のスコ アリングとしてフレーム化
 • 言い換えモデルを多言語NMTとして学習し,言い換えをゼロ ショット翻訳タスクとして扱うことを提案
 • WMT19で実験
 ◦

    segment-level metrics shared task
 ▪ ほとんどの言語で全手法より優れているか統計的に差がない ◦ QE as metric
 ▪ 全言語で全手法より有意に優れていた ◦ 提案手法よりも翻訳で強いシステムの評価を行えていることを示し た
 
 2

  2. Introduction
 • MTの改善は自動評価手法を用いて行われてきた
 • BLEUはMTの自動評価のデファクトスタンダード
 ◦ 強いシステムの評価では人手との相関が低い [Ma et al.,

    2019]
 ◦ これから強いシステムがでてきたときに問題
 • 言い換えモデルで,参照文を入力として評価するMT出力を予 測させて評価することを提案
 ◦ 生成時の確率で,MT出力が参照訳を
 どれくらい言い換えられているか評価
 ◦ 語彙的・構文的に偏りのない言い換え
 器が理想
 ◦ 多言語NMTを使用することを提案
 ▪ ゼロショット翻訳として言い換えを行う ◦ 人手評価は用いない
 3

  3. Related Work
 • MT Metrics
 ◦ n-gram overlap: 
 ▪

    BLEU [Papineni et al., 2002], METEOR [Denkowski and Lavie, 2010] ◦ word and sentence embeddings
 ▪ RUSE [Shimanaka et al., 2018], ESIM [Mather et al., 2019], MEANT [Lo, 2017] ◦ SOTA: 
 ▪ YiSi [Lo, 2019], BERTscore [Zhang et al., 2019], BLEURT [Sellam et al., 2020] • Multilingual NMT
 ◦ 複数言語のコーパスで学習
 ◦ 高リソース言語からの転移学習によって低リソース言語翻訳を改善
 ◦ 学習データにないペアでの翻訳はゼロショット翻訳
 
 
 4

  4. Related Work
 • Generative Paraphrasing
 ◦ 言い換えペアでMTシステムを学習 [Quirk et al.

    2004]
 ◦ 単言語コーパスを逆翻訳して言い換え用の学習データを作成 [Prakash et al, 2016+]
 ◦ 多言語NMTを言い換えとして使用 [Tiedemann and Scherrer, 2019] 
 • Semantic Similarity
 ◦ LASER [Artetxe and Schwenk, 2018]
 ▪ 93言語で固定サイズの中間表現を学習 ▪ Encoder からの Embedding を比較して言語内または言語間の意味的 類似性を測定できる 
 5

  5. Method
 6
 • MT出力を,参照文を条件としてデコードした時の確率を使用 
 • 2つの方法で実験
 
 
 • MT出力を条件として使用することも実験


    • 入力文の意味を最もよく表す出力文は入力文のコピーと仮定
 ◦ 正確な語順や単語選択が微妙な意味合いを変えることが多いため
 • 最終的な評価方法
 
 x: input sentence
 y: output sentence
 y t : t th output token

  6. Experiment 
 • Data
 ◦ 99.8M sentence pairs in 39

    languages
 ◦ WikiMatrix, Global Voices, EuroParl, SETimes, United Nateions
 
 
 9

  7. Experiment 
 • Data
 ◦ 中間表現を言語依存にしないように,可能な限り多くの言 語ペアを選択(39言語)
 ◦ ターゲット文に言語タグをつける
 ▪

    Encoder が言語固有のことを学習しないように ▪ テスト時には,言語タグを強制的にデコード ◦ LASERでフィルタリング [Chaundhary et al., 2019]
 ◦ FastTextで言語IDフィルタリング
 ▪ 異なる言語タグで学習しないように ◦ 学習データをコピー度合いでフィルタリング
 ▪ コピーが学習データに入ってると性能が大幅に低下 [Ott et al., 2018] 10

  8. Experiment
 • Model
 ◦ Transformer 
 • Baselines
 ◦ ME

    metrics: WMT19 の metric + BERTscore, BLEURT
 ◦ Contrastive methods
 ▪ Paraphraser: Transformer trained ParaBank2 [Hu et al., 2019] ▪ Auto-encoder: mBART [Liu et al., 2020] ▪ LASER: pretrained 93-language model ▪ LM: GPT-2 trained on the same data as proposed method • Paraphraser Bias
 ◦ PrismとParaBank2の比較
 ◦ 同じ入力に対する3つの出力の条件付き確率を比較
 11

  9. Results - Paraphraser Bias
 • Prism
 ◦ 入力のコピーは Beam Search

    とほぼ同じスコア
 ◦ Beam Search で入力に類似した出力が生成できている
 • ParaBank2 
 ◦ 入力のコピーよりもビームサーチの方が高いスコア
 ◦ 入力文に類似しない出力を生成
 
 
 13

  10. Analysis and Discussion
 • Prism-ref と Prism-src の比較
 ◦ de-csを除いて

    Prism-ref が統計的に高い
 ◦ de-cs は唯一の教師なしシステム
 ◦ 提案手法は翻訳においてde-cs以外ベストシス テムより弱い(右図)
 ◦ 提案手法より評価するMTシステムが弱い → 参照訳は必要ない
 ◦ 提案手法より評価するMTシステムが強い → 参照訳は役に立っている
 • 優れた(SoTAではない)多言語NMTシステムが、強 いMTメトリックであり、最先端のMTシステムを判断 できている
 
 18
 How helpful are human references?

  11. Analysis and Discussion
 • 提案手法はParaBank2より高いが,統計的有意差は無い
 • 語彙/構文のバイアスは,MT出力が参照訳と一致するかほぼ一致する場 合にのみ問題
 • より強力なシステムや複数の参照訳がある場合はより問題であることが

    示唆される
 19
 Does paraphraser bias matter?
 Does fluency matter?
 
 • NMTは流暢だが,英語以外では流暢さは discriminative である
 ◦ toEn の 7/10の言語ペアで,LMスコアはsentBLEUより高い
 • LMがBLEUを補強するのに使用できるという知見(Edunov et al., 2020) と 一致

  12. Analysis and Discussion
 20
 Can we measure adequacy and fluency

    separately?
 Can we train on monolingual data instead of bitext?
 • 提案手法は,LASERがLMと組み合わさった場合でもほとんどの言語ペア で大幅に上回っている
 • 妥当性と流暢性を共同で最適化するほうが,個別に最適化して事後に組 み合わせるよりも優れていることを示唆
 • 提案手法は単言語コーパスで学習しているmBARTより高い
 • 計算時間も早い
 ◦ Prism: 1.3 weeks on 8 V100s 
 ◦ mBART: 2.5 weeks on 256 V100s

  13. Conclusions
 • 多言語NMTが語彙的・構文的にバイアスのない多言語言い換 えモデルとして利用できること,それがMT metic やQE metric として利用できることを示した
 • WMTの

    shared metrics task と QE task で,人手評価の学習な しに最高性能を達している
 • 単に評価タスクを SoTAのMTシステムを構築することにしては いないことを示した
 
 
 21