文献紹介:Improving Back-Translation with Uncertainty-based Confidence Estimation

9e650916f36300d64c9c61eeb4ab697e?s=47 Taichi Aida
November 27, 2019

文献紹介:Improving Back-Translation with Uncertainty-based Confidence Estimation

Improving Back-Translation with Uncertainty-based Confidence Estimation
Shuo Wang, Yang Liu, Chao Wang, Huanbo Luan, Maosong Sun
Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 791-802, Hong Kong, 2019.

9e650916f36300d64c9c61eeb4ab697e?s=128

Taichi Aida

November 27, 2019
Tweet

Transcript

  1. Improving Back-Translation with Uncertainty-based Confidence Estimation Shuo Wang, Yang Liu,

    Chao Wang, Huanbo Luan, Maosong Sun Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 791-802, Hong Kong, 2019.
  2. Abstract - Back-Translation の 順方向モデル(擬似データ +元データ) において、“モデルの不確かさ” を訓 練に組み込む手法を提案 -

    ベースラインと比較して、性能の向上を確認 2
  3. Introduction - Back-Translation は low-resource な機械翻訳 で効果的 - 限られたデータで訓練された逆方向 NMT

    で生成 した擬似データはノイズが避けられない - “モデルの不確かさ” を用いて改善を図る 3
  4. Method 4

  5. Method 5 “モデルの不確かさ” を定義 ・Word-level ・Sentence-level

  6. Method - Word-level - Attention weight に付与 - 誤った単語 に対して

    attention が小さくなるよう修正 6
  7. Method - Sentence-level - loss の計算に使用(m: 元データ、n: 擬似データ) 7

  8. Method 8 Monte Carlo Dropout で weight を変えて K 回生成(sampling)

  9. Method 9 - 確率分布→不確かさ? - Predicted translation probability (PTP) -

    Expected translation probability (EXP) - Variance of translation probability (VAR) - Combination of expectation and variance (CEV)
  10. Method - Predicted translation probability (PTP) - 確率をそのまま使う - Expected

    translation probability (EXP) - 期待値 10
  11. Method - Variance of translation probability (VAR) - 分散 -

    1から引いたものを採用(α = 2) 11
  12. Method - Combination of expectation and variance (CEV) - 分散と期待値を組み合わせたもの(β

    = 2) 12
  13. Experiment 1. 不確かさの比較(PTP vs EXP vs VAR vs CEV) 2.

    粒度間で不確かさの比較(word vs sentence) 3. ベースラインとの比較 13
  14. Experiment - Model: Transformer - Evaluation: BLEU - Data 14

    train dev test back-translation Chinese-English LDC(1.25M) NIST06 NIST02-05, 08 WMT17 (English, 10M) English-German WMT14 (4.47M) newstest13 newstest12, 14-15 NewsCrawl12 (German, 4.5M)
  15. Result 1. 不確かさの比較(PTP vs EXP vs VAR vs CEV) 15

    CEV(期待値と分 散の組み合わせ) が最も効果あり 今後CEVを使用
  16. Result 2. 粒度間で不確かさの比較(word vs sentence) 16 Word, sentence 両方を用いた結果 が一番良い

  17. Result 3. ベースラインとの比較(Chinese-English) - None: back-translation なし, U: 不確かさ(CEV, word+sentence)を用いる

    - Search: back-translation with beam-search - Sample: back-translation with sampling 17
  18. Result 3. ベースラインとの比較(English-German) - N: Openkiwi で Quality Estimation した結果を用いる

    18
  19. Conclusion - “モデルの不確かさ” を訓練に組み込む手法を提 案 - Word-level - Sentence-level -

    Back-Translation による NMT の性能向上 19
  20. Reference - Dropout as a Bayesian Approximation: Representing Model Uncertainty

    in Deep Learning(ICML2016) https://arxiv.org/abs/1506.02142 - ベイジアン・ディープラーニングによる安全なAIの実現 https://qiita.com/takaaki5564/items/5ed89541d8d2a4725baa# 20