Beyond BLEU: Training Neural Machine Translation with Semantic Similarity

Beyond BLEU: Training Neural Machine Translation with Semantic Similarity  John
Wieting, Taylor Berg-Kirkpatrick, Kevin Gimpel, Graham Neubig  ACL2019    2019/10/28 ACL論文読み会   紹介者: 吉村   

Abstract  • Minimum risk training の BLEU に代わる新しい報酬 SIMILE
を提案    • (cs, de, ru, tr) to English の MT で実験  • 自動評価と人手評価で BLEU が報酬の場合より良かった  • BLEUが報酬の場合よりスコアの粒度が細かくなるため収束が早くなることが示唆される 

Introduction  • 多くのNMTでは最尤推定を用いた学習  • 最近は BLEU などを直接最適化するように学習させることで翻訳精度が向上することが示されている  • BLEU
を使用することの問題点  ◦ 出力と参照訳の意味が同じでも表層が違うとペナルティが科される  ◦ スコアの粒度が細かくない  → 最適化が難しい  • SIMILE という新しい報酬関数を提案  ◦ STS の embedding ベースの手法 

SIM  • Wieting and Gimpel (2018) をベースにしたもの  ◦ STSの unsupervised
で SOTAの手法、ドメインに依存しない  • Model  ◦ LSTM の hidden state の平均  ◦ 300次元の subword embeddings の平均で文を encode する  ◦ 出力と参照訳をそれぞれ encode して cos類似度で類似度を計算  • Training  ◦ <s, s’> の言い換えペアに対して以下を学習      <s. s’> : 16.77M pairs of ParaNMT   g : model  δ : マージン   t：負例（ミニバッチで最も類似した文）  

SIMILE  Length Penalty      • BLEUの BP と似ていて、rとhの長さが全く異なる場合にペナルティをかける 
• LP の影響をわずかに下げることで精度が向上  ◦ α = 0.25に設定   

BLEU, METEORとの比較  • METEOR と SIMの違いは流暢性にあるとの予測  • 流暢性をとらえるために MRT に
MLE loss を追加することで改善（Edunov et al. 2018）     

MT - Model Architecture  • encoder-decoder with soft attention  •
gated convolutional encoders and decoders  • encoder 4 layer, decoder 3 layer  • hidden size 256  • bpe 40,000  • embedding size 256   

MT - Objective Functions  • 最初にで学習させてからで fine-tuning  •
サンプルする n-best size は 8  • 　で 200 エポック、　で 10エポック学習  • γ は {0.2, 0.3, 0.4} からチューニングして決める  U(x): set of candidate hypotheses   t: reference  cost(t, u): 1 - BLEU(t, h) or 1 - SIMILE(t, h)   (Pereyra et al., 2017)  

Experiments  • DATA  ◦ cs-en, de-en, ru-en:   ▪ train:
News Commentary v13 (WMT18) ▪ valid: validation set of WMT16, 17 ▪ test: test set of WMT18 ◦ tr-en:   ▪ train: SETIMES2 (WMT18) ▪ valid: validation set of WMT16, validation and test set of WMT17 ▪ test: test set of WMT18 • Evaluation  ◦ Automatic Evaluation  ▪ BLEU, SIM (not SIMILE) 意味を重視 ◦ Human Evaluation  ▪ 200文を人手評価（情報をどれだけ伝えたかの観点）  

Result (Automatic Evaluation)  • MLE: Maximum likelihood with label smoothing 
• BLEU: Minimum risk training with 1-BLEU as the cost  • SIMILE: Minimum risk training with 1-SIMILE as the cost  • Half: Minimum risk training with a new cost that is 1-(BLEU + SIM)/2      • SIMの自動評価では SIMILE が全言語でベスト  • SIMILEは BLEU を最適化するモデルよりも BLEU が上がっている  • BLEUを最適化すると SIM でも大きく上がる 

Result (Human Evaluation)  • tr-en が SIMILE で低くなっている  ◦ warm
up の段階である程度良くなっていないといけないという仮説  • de-en, ru-en がBLEUに対してSIMILEで最も改善し、MLEでのBLEUが最も高い (Table 4)ので仮説の信頼性が高まる ← warm up時のスコアをみるべきでは？  Annotation Instructions  

Quantitative Analysis - Partial Credit  • BLEU は高いコストにたくさん集まっている → 学習時の情報が少ない 
• beam size 8の28ペアで  ◦ スコアの差が0以上の割合 BLEU: 85.1% SIMILE: 99.0%,  ◦ 平均差 BLEU: 4.3 SIMILE: 4.8  • SIMILEのほうが細かい粒度でスコアが存在 → 学習時の情報が多い 

Quantitative Analysis - Validation loss  • SIMILE のほうが早く loss が減少 
• 最終的な loss も SIMILE が低い  • 1 epoch 直後のスコア  ◦ BLUE でのモデル  ▪ SIM/BLEU = 86.71/27.63 ◦ SIM でのモデル  ▪ SIM/BLEU = 87.14/28.10

Quantitative Analysis - Effect of n-best list size  • SIMILE
は n-bset size を増やすにつれて BLEU と SIM が大幅に改善されている    • BLEU は n-best を増やすと SIMILEとのギャップが縮まると仮説 → 縮まってない  ◦ metric に関係なく小さい n-best ではそもそも精度がでないから 

Quantitative Analysis - Lexical F1    • compare-mt を使用して単語タイプの BLEU
と SIMILE のF1値の差を計算  ◦ 出現頻度と品詞を分析  • 程頻度語をより正確に生成してる  • 文の意味に特徴的な品詞のスコア差が高くなっている  • DETのようなあまり意味をもたない品詞はスコア差が小さい 

Qualitative Analysis  • SIMILE では他の2つでは省略されている重要な単語を生成できている  • 失敗例でも、元の文の重要な単語を生成している 

Metric Comparison  • SIMスコア差が大きい場合、文の意味に違いがあることがわかる  ◦ BLEUスコア差が小さい場合は当てはまらない（1番上の例）  • BLEUスコアの差が大きくても意味を保持している  ◦ BLEUスコアの問題点 
 

Conclusion  • MRTの報酬として BLEUに代わる SIMILE を提案  • BLEUの場合より自動評価でも人手評価でもよかった。  • 最適化が容易になり、意味的に重要な単語を翻訳する傾向に
あることがわかった。   

Beyond BLEU: Training Neural Machine Translatio...

Beyond BLEU: Training Neural Machine Translation with Semantic Similarity

ryoma yoshimura

More Decks by ryoma yoshimura

Other Decks in Research

Featured

Transcript

Beyond BLEU: Training Neural Machine Translation with Semantic Similarity  John

Abstract  • Minimum risk training の BLEU に代わる新しい報酬 SIMILE

Introduction  • 多くのNMTでは最尤推定を用いた学習  • 最近は BLEU などを直接最適化するように学習させることで翻訳精度が向上することが示されている  • BLEU

SIM  • Wieting and Gimpel (2018) をベースにしたもの  ◦ STSの unsupervised

SIMILE  Length Penalty      • BLEUの BP と似ていて、rとhの長さが全く異なる場合にペナルティをかける

BLEU, METEORとの比較  • METEOR と SIMの違いは流暢性にあるとの予測  • 流暢性をとらえるために MRT に

MT - Model Architecture  • encoder-decoder with soft attention  •

MT - Objective Functions  • 最初にで学習させてからで fine-tuning  •

Experiments  • DATA  ◦ cs-en, de-en, ru-en:   ▪ train:

Result (Automatic Evaluation)  • MLE: Maximum likelihood with label smoothing

Result (Human Evaluation)  • tr-en が SIMILE で低くなっている  ◦ warm

Quantitative Analysis - Partial Credit  • BLEU は高いコストにたくさん集まっている → 学習時の情報が少ない

Quantitative Analysis - Validation loss  • SIMILE のほうが早く loss が減少

Quantitative Analysis - Effect of n-best list size  • SIMILE

Quantitative Analysis - Lexical F1    • compare-mt を使用して単語タイプの BLEU

Qualitative Analysis  • SIMILE では他の2つでは省略されている重要な単語を生成できている  • 失敗例でも、元の文の重要な単語を生成している

Metric Comparison  • SIMスコア差が大きい場合、文の意味に違いがあることがわかる  ◦ BLEUスコア差が小さい場合は当てはまらない（1番上の例）  • BLEUスコアの差が大きくても意味を保持している  ◦ BLEUスコアの問題点

Conclusion  • MRTの報酬として BLEUに代わる SIMILE を提案  • BLEUの場合より自動評価でも人手評価でもよかった。  • 最適化が容易になり、意味的に重要な単語を翻訳する傾向に