Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Beyond BLEU: Training Neural Machine Translation with Semantic Similarity

Beyond BLEU: Training Neural Machine Translation with Semantic Similarity

研究室のACL論文読み会の発表資料です。

ryoma yoshimura

October 28, 2019
Tweet

More Decks by ryoma yoshimura

Other Decks in Research

Transcript

  1. Beyond BLEU: Training Neural Machine Translation with Semantic Similarity
 John

    Wieting, Taylor Berg-Kirkpatrick, Kevin Gimpel, Graham Neubig
 ACL2019
 
 2019/10/28 ACL論文読み会 
 紹介者: 吉村
 

  2. Abstract
 • Minimum risk training の BLEU に代わる 新しい報酬 SIMILE

    を提案
 
 • (cs, de, ru, tr) to English の MT で実験
 • 自動評価と人手評価で BLEU が報酬の場合より良かった
 • BLEUが報酬の場合よりスコアの粒度が細かくなるため収束が 早くなることが示唆される

  3. Introduction
 • 多くのNMTでは最尤推定を用いた学習
 • 最近は BLEU などを直接最適化するように学習させることで 翻訳精度が向上することが示されている
 • BLEU

    を使用することの問題点
 ◦ 出力と参照訳の意味が同じでも表層が違うとペナルティが科される
 ◦ スコアの粒度が細かくない
 → 最適化が難しい
 • SIMILE という新しい報酬関数を提案
 ◦ STS の embedding ベースの手法

  4. SIM
 • Wieting and Gimpel (2018) をベースにしたもの
 ◦ STSの unsupervised

    で SOTAの手法、ドメインに依存しない
 • Model
 ◦ LSTM の hidden state の平均
 ◦ 300次元の subword embeddings の平均で文を encode する
 ◦ 出力と参照訳をそれぞれ encode して cos類似度で類似度を計算
 • Training
 ◦ <s, s’> の言い換えペアに対して以下を学習
 
 
 <s. s’> : 16.77M pairs of ParaNMT 
 g : model
 δ : マージン 
 t: 負例(ミニバッチで最も類似した文) 

  5. SIMILE
 Length Penalty
 
 
 • BLEUの BP と似ていて、rとhの長さが全く異なる場合にペナ ルティをかける


    • LP の影響をわずかに下げることで精度が向上
 ◦ α = 0.25に設定
 

  6. MT - Model Architecture
 • encoder-decoder with soft attention
 •

    gated convolutional encoders and decoders
 • encoder 4 layer, decoder 3 layer
 • hidden size 256
 • bpe 40,000
 • embedding size 256
 

  7. MT - Objective Functions
 • 最初に で学習させてから で fine-tuning
 •

    サンプルする n-best size は 8
 •   で 200 エポック、  で 10エポック学習
 • γ は {0.2, 0.3, 0.4} から チューニングして決める
 U(x): set of candidate hypotheses 
 t: reference
 cost(t, u): 1 - BLEU(t, h) or 1 - SIMILE(t, h) 
 (Pereyra et al., 2017) 

  8. Experiments
 • DATA
 ◦ cs-en, de-en, ru-en: 
 ▪ train:

    News Commentary v13 (WMT18) ▪ valid: validation set of WMT16, 17 ▪ test: test set of WMT18 ◦ tr-en: 
 ▪ train: SETIMES2 (WMT18) ▪ valid: validation set of WMT16, validation and test set of WMT17 ▪ test: test set of WMT18 • Evaluation
 ◦ Automatic Evaluation
 ▪ BLEU, SIM (not SIMILE) 意味を重視 ◦ Human Evaluation
 ▪ 200文を人手評価(情報をどれだけ伝えたかの観点) 

  9. Result (Automatic Evaluation)
 • MLE: Maximum likelihood with label smoothing


    • BLEU: Minimum risk training with 1-BLEU as the cost
 • SIMILE: Minimum risk training with 1-SIMILE as the cost
 • Half: Minimum risk training with a new cost that is 1-(BLEU + SIM)/2
 
 
 • SIMの自動評価では SIMILE が全言語でベスト
 • SIMILEは BLEU を最適化するモデルよりも BLEU が上がっている
 • BLEUを最適化すると SIM でも大きく上がる

  10. Result (Human Evaluation)
 • tr-en が SIMILE で低くなっている
 ◦ warm

    up の段階である程度良くなっていないといけないという仮説
 • de-en, ru-en がBLEUに対してSIMILEで最も改善し、MLEでのBLEUが最も高い (Table 4)ので仮説の信頼性が高まる ← warm up時のスコアをみるべきでは?
 Annotation Instructions 

  11. Quantitative Analysis - Partial Credit
 • BLEU は高いコストにたくさん集まっている → 学習時の情報が少ない


    • beam size 8の28ペアで
 ◦ スコアの差が0以上の割合 BLEU: 85.1% SIMILE: 99.0%,
 ◦ 平均差 BLEU: 4.3 SIMILE: 4.8
 • SIMILEのほうが細かい粒度でスコアが存在 → 学習時の情報が多い

  12. Quantitative Analysis - Validation loss
 • SIMILE のほうが早く loss が減少


    • 最終的な loss も SIMILE が低い
 • 1 epoch 直後のスコア
 ◦ BLUE でのモデル
 ▪ SIM/BLEU = 86.71/27.63 ◦ SIM でのモデル
 ▪ SIM/BLEU = 87.14/28.10
  13. Quantitative Analysis - Effect of n-best list size
 • SIMILE

    は n-bset size を増やす につれて BLEU と SIM が大幅 に改善されている
 
 • BLEU は n-best を増やすと SIMILEとのギャップが縮まると 仮説 → 縮まってない
 ◦ metric に関係なく小さい n-best ではそもそも精度が でないから

  14. Quantitative Analysis - Lexical F1
 
 • compare-mt を使用して単語タイプの BLEU

    と SIMILE のF1値の差を計算
 ◦ 出現頻度と品詞を分析
 • 程頻度語をより正確に生成してる
 • 文の意味に特徴的な品詞のスコア差が 高くなっている
 • DETのようなあまり意味をもたない品詞は スコア差が小さい