Slide 1

Slide 1 text

Improving Back-Translation with Uncertainty-based Confidence Estimation Shuo Wang, Yang Liu, Chao Wang, Huanbo Luan, Maosong Sun Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 791-802, Hong Kong, 2019.

Slide 2

Slide 2 text

Abstract - Back-Translation の 順方向モデル(擬似データ +元データ) において、“モデルの不確かさ” を訓 練に組み込む手法を提案 - ベースラインと比較して、性能の向上を確認 2

Slide 3

Slide 3 text

Introduction - Back-Translation は low-resource な機械翻訳 で効果的 - 限られたデータで訓練された逆方向 NMT で生成 した擬似データはノイズが避けられない - “モデルの不確かさ” を用いて改善を図る 3

Slide 4

Slide 4 text

Method 4

Slide 5

Slide 5 text

Method 5 “モデルの不確かさ” を定義 ・Word-level ・Sentence-level

Slide 6

Slide 6 text

Method - Word-level - Attention weight に付与 - 誤った単語 に対して attention が小さくなるよう修正 6

Slide 7

Slide 7 text

Method - Sentence-level - loss の計算に使用(m: 元データ、n: 擬似データ) 7

Slide 8

Slide 8 text

Method 8 Monte Carlo Dropout で weight を変えて K 回生成(sampling)

Slide 9

Slide 9 text

Method 9 - 確率分布→不確かさ? - Predicted translation probability (PTP) - Expected translation probability (EXP) - Variance of translation probability (VAR) - Combination of expectation and variance (CEV)

Slide 10

Slide 10 text

Method - Predicted translation probability (PTP) - 確率をそのまま使う - Expected translation probability (EXP) - 期待値 10

Slide 11

Slide 11 text

Method - Variance of translation probability (VAR) - 分散 - 1から引いたものを採用(α = 2) 11

Slide 12

Slide 12 text

Method - Combination of expectation and variance (CEV) - 分散と期待値を組み合わせたもの(β = 2) 12

Slide 13

Slide 13 text

Experiment 1. 不確かさの比較(PTP vs EXP vs VAR vs CEV) 2. 粒度間で不確かさの比較(word vs sentence) 3. ベースラインとの比較 13

Slide 14

Slide 14 text

Experiment - Model: Transformer - Evaluation: BLEU - Data 14 train dev test back-translation Chinese-English LDC(1.25M) NIST06 NIST02-05, 08 WMT17 (English, 10M) English-German WMT14 (4.47M) newstest13 newstest12, 14-15 NewsCrawl12 (German, 4.5M)

Slide 15

Slide 15 text

Result 1. 不確かさの比較(PTP vs EXP vs VAR vs CEV) 15 CEV(期待値と分 散の組み合わせ) が最も効果あり 今後CEVを使用

Slide 16

Slide 16 text

Result 2. 粒度間で不確かさの比較(word vs sentence) 16 Word, sentence 両方を用いた結果 が一番良い

Slide 17

Slide 17 text

Result 3. ベースラインとの比較(Chinese-English) - None: back-translation なし, U: 不確かさ(CEV, word+sentence)を用いる - Search: back-translation with beam-search - Sample: back-translation with sampling 17

Slide 18

Slide 18 text

Result 3. ベースラインとの比較(English-German) - N: Openkiwi で Quality Estimation した結果を用いる 18

Slide 19

Slide 19 text

Conclusion - “モデルの不確かさ” を訓練に組み込む手法を提 案 - Word-level - Sentence-level - Back-Translation による NMT の性能向上 19

Slide 20

Slide 20 text

Reference - Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning(ICML2016) https://arxiv.org/abs/1506.02142 - ベイジアン・ディープラーニングによる安全なAIの実現 https://qiita.com/takaaki5564/items/5ed89541d8d2a4725baa# 20