Automatic Machine Translation Evaluation in Many Languages via Zero-Shot Paraphrasing

2020/11/16 研究室EMNLP読み会   紹介者: 吉村   

Abstract  • 機械翻訳（MT）の評価を，参照文を条件としたMT出力のスコアリングとしてフレーム化  • 言い換えモデルを多言語NMTとして学習し，言い換えをゼロショット翻訳タスクとして扱うことを提案  • WMT19で実験  ◦
segment-level metrics shared task  ▪ ほとんどの言語で全手法より優れているか統計的に差がない ◦ QE as metric  ▪ 全言語で全手法より有意に優れていた ◦ 提案手法よりも翻訳で強いシステムの評価を行えていることを示した    2 

Introduction  • MTの改善は自動評価手法を用いて行われてきた  • BLEUはMTの自動評価のデファクトスタンダード  ◦ 強いシステムの評価では人手との相関が低い [Ma et al.,
2019]  ◦ これから強いシステムがでてきたときに問題  • 言い換えモデルで，参照文を入力として評価するMT出力を予測させて評価することを提案  ◦ 生成時の確率で，MT出力が参照訳を  どれくらい言い換えられているか評価  ◦ 語彙的・構文的に偏りのない言い換え  器が理想  ◦ 多言語NMTを使用することを提案  ▪ ゼロショット翻訳として言い換えを行う ◦ 人手評価は用いない  3 

Related Work  • MT Metrics  ◦ n-gram overlap:   ▪
BLEU [Papineni et al., 2002], METEOR [Denkowski and Lavie, 2010] ◦ word and sentence embeddings  ▪ RUSE [Shimanaka et al., 2018], ESIM [Mather et al., 2019], MEANT [Lo, 2017] ◦ SOTA:   ▪ YiSi [Lo, 2019], BERTscore [Zhang et al., 2019], BLEURT [Sellam et al., 2020] • Multilingual NMT  ◦ 複数言語のコーパスで学習  ◦ 高リソース言語からの転移学習によって低リソース言語翻訳を改善  ◦ 学習データにないペアでの翻訳はゼロショット翻訳      4 

Related Work  • Generative Paraphrasing  ◦ 言い換えペアでMTシステムを学習 [Quirk et al.
2004]  ◦ 単言語コーパスを逆翻訳して言い換え用の学習データを作成 [Prakash et al, 2016+]  ◦ 多言語NMTを言い換えとして使用 [Tiedemann and Scherrer, 2019]   • Semantic Similarity  ◦ LASER [Artetxe and Schwenk, 2018]  ▪ 93言語で固定サイズの中間表現を学習 ▪ Encoder からの Embedding を比較して言語内または言語間の意味的類似性を測定できる   5 

Method  6  • MT出力を，参照文を条件としてデコードした時の確率を使用　  • 2つの方法で実験      • MT出力を条件として使用することも実験 
• 入力文の意味を最もよく表す出力文は入力文のコピーと仮定  ◦ 正確な語順や単語選択が微妙な意味合いを変えることが多いため  • 最終的な評価方法    x: input sentence  y: output sentence  y t : t th output token 

Preliminary (Development) Result  • Prism-ref と Prism-src の定義を決めるのに使用  7 

Method  8  • 実際のトークンレベルの確率の例 

Experiment   • Data  ◦ 99.8M sentence pairs in 39
languages  ◦ WikiMatrix, Global Voices, EuroParl, SETimes, United Nateions      9 

Experiment   • Data  ◦ 中間表現を言語依存にしないように，可能な限り多くの言語ペアを選択（39言語）  ◦ ターゲット文に言語タグをつける  ▪
Encoder が言語固有のことを学習しないように ▪ テスト時には，言語タグを強制的にデコード ◦ LASERでフィルタリング [Chaundhary et al., 2019]  ◦ FastTextで言語IDフィルタリング  ▪ 異なる言語タグで学習しないように ◦ 学習データをコピー度合いでフィルタリング  ▪ コピーが学習データに入ってると性能が大幅に低下 [Ott et al., 2018] 10 

Experiment  • Model  ◦ Transformer   • Baselines  ◦ ME
metrics: WMT19 の metric + BERTscore, BLEURT  ◦ Contrastive methods  ▪ Paraphraser: Transformer trained ParaBank2 [Hu et al., 2019] ▪ Auto-encoder: mBART [Liu et al., 2020] ▪ LASER: pretrained 93-language model ▪ LM: GPT-2 trained on the same data as proposed method • Paraphraser Bias  ◦ PrismとParaBank2の比較  ◦ 同じ入力に対する3つの出力の条件付き確率を比較  11 

Results - Paraphraser Bias  • Prism  ◦ sentBLEUが増えるとH(sys|ref)も増える  ◦ 表層がより近い文により高いスコアを与えられている 
• ParaBank2  ◦ 60~100でほぼ同じ  ◦ 表層がより近くても変わらない    12 

Results - Paraphraser Bias  • Prism  ◦ 入力のコピーは Beam Search
とほぼ同じスコア  ◦ Beam Search で入力に類似した出力が生成できている  • ParaBank2   ◦ 入力のコピーよりもビームサーチの方が高いスコア  ◦ 入力文に類似しない出力を生成      13 

Results - Paraphraser Bias    • 提案手法はコピーまたはコピーに近い文を生成する傾向  • PraBank2 は文の意味を変えるような変更をする傾向 
14 

Results - Segment-Level Results  15 

Results - System-Level Results  16 

Results - QE as Metric  17 

Analysis and Discussion  • Prism-ref と Prism-src の比較  ◦ de-csを除いて
Prism-ref が統計的に高い  ◦ de-cs は唯一の教師なしシステム  ◦ 提案手法は翻訳においてde-cs以外ベストシステムより弱い（右図）  ◦ 提案手法より評価するMTシステムが弱い → 参照訳は必要ない  ◦ 提案手法より評価するMTシステムが強い → 参照訳は役に立っている  • 優れた（SoTAではない）多言語NMTシステムが、強いMTメトリックであり、最先端のMTシステムを判断できている    18  How helpful are human references? 

Analysis and Discussion  • 提案手法はParaBank2より高いが，統計的有意差は無い  • 語彙/構文のバイアスは，MT出力が参照訳と一致するかほぼ一致する場合にのみ問題  • より強力なシステムや複数の参照訳がある場合はより問題であることが
示唆される  19  Does paraphraser bias matter?  Does fluency matter?    • NMTは流暢だが，英語以外では流暢さは discriminative である  ◦ toEn の 7/10の言語ペアで，LMスコアはsentBLEUより高い  • LMがBLEUを補強するのに使用できるという知見（Edunov et al., 2020) と一致 

Analysis and Discussion  20  Can we measure adequacy and fluency
separately?  Can we train on monolingual data instead of bitext?  • 提案手法は，LASERがLMと組み合わさった場合でもほとんどの言語ペアで大幅に上回っている  • 妥当性と流暢性を共同で最適化するほうが，個別に最適化して事後に組み合わせるよりも優れていることを示唆  • 提案手法は単言語コーパスで学習しているmBARTより高い  • 計算時間も早い  ◦ Prism: 1.3 weeks on 8 V100s   ◦ mBART: 2.5 weeks on 256 V100s 

Conclusions  • 多言語NMTが語彙的・構文的にバイアスのない多言語言い換えモデルとして利用できること，それがMT metic やQE metric として利用できることを示した  • WMTの
shared metrics task と QE task で，人手評価の学習なしに最高性能を達している  • 単に評価タスクを SoTAのMTシステムを構築することにしてはいないことを示した      21 

Automatic Machine Translation Evaluation in Man...

Automatic Machine Translation Evaluation in Many Languages via Zero-Shot Paraphrasing

ryoma yoshimura

More Decks by ryoma yoshimura

Featured

Transcript

2020/11/16 研究室EMNLP読み会   紹介者: 吉村

Introduction  • MTの改善は自動評価手法を用いて行われてきた  • BLEUはMTの自動評価のデファクトスタンダード  ◦ 強いシステムの評価では人手との相関が低い [Ma et al.,

Related Work  • MT Metrics  ◦ n-gram overlap:   ▪

Related Work  • Generative Paraphrasing  ◦ 言い換えペアでMTシステムを学習 [Quirk et al.

Method  6  • MT出力を，参照文を条件としてデコードした時の確率を使用　  • 2つの方法で実験      • MT出力を条件として使用することも実験

Preliminary (Development) Result  • Prism-ref と Prism-src の定義を決めるのに使用  7

Method  8  • 実際のトークンレベルの確率の例

Experiment   • Data  ◦ 99.8M sentence pairs in 39

Experiment   • Data  ◦ 中間表現を言語依存にしないように，可能な限り多くの言語ペアを選択（39言語）  ◦ ターゲット文に言語タグをつける  ▪

Experiment  • Model  ◦ Transformer   • Baselines  ◦ ME

Results - Paraphraser Bias  • Prism  ◦ sentBLEUが増えるとH(sys|ref)も増える  ◦ 表層がより近い文により高いスコアを与えられている

Results - Paraphraser Bias  • Prism  ◦ 入力のコピーは Beam Search

Results - Paraphraser Bias    • 提案手法はコピーまたはコピーに近い文を生成する傾向  • PraBank2 は文の意味を変えるような変更をする傾向

Results - Segment-Level Results  15

Results - System-Level Results  16

Results - QE as Metric  17

Analysis and Discussion  • Prism-ref と Prism-src の比較  ◦ de-csを除いて

Analysis and Discussion  20  Can we measure adequacy and fluency

Conclusions  • 多言語NMTが語彙的・構文的にバイアスのない多言語言い換えモデルとして利用できること，それがMT metic やQE metric として利用できることを示した  • WMTの