文献紹介:Exploring Prediction Uncertainty in Machine Translation Quality Estimation

9e650916f36300d64c9c61eeb4ab697e?s=47 Taichi Aida
December 15, 2019

文献紹介:Exploring Prediction Uncertainty in Machine Translation Quality Estimation

Exploring Prediction Uncertainty in Machine Translation Quality Estimation
Daniel Beck, Lucia Specia, and Trevor Cohn
Proceedings of The 20th SIGNLL Conference on Computational Natural Language Learning, pages 208-218, Berlin, 2016.

9e650916f36300d64c9c61eeb4ab697e?s=128

Taichi Aida

December 15, 2019
Tweet

Transcript

  1. Exploring Prediction Uncertainty in Machine Translation Quality Estimation Daniel Beck,

    Lucia Specia, and Trevor Cohn Proceedings of The 20th SIGNLL Conference on Computational Natural Language Learning, pages 208-218, Berlin, 2016.
  2. Abstract - Quality Estimation (QE) のタスクに合った Gaussian Process (GP) を調査

    - QE に参加していないが、Baseline の結果を上 回る 2
  3. Introduction - QE は点推定の指標でしか評価されていない - 良い予測ができるモデルが強い(当たり前) - 用いる指標は増え、モデルは複雑に… - GP

    による “不確かさ” の情報を加えるとさらなる 向上が得られるのでは? 3
  4. Gaussian Process (GP) 4 - 回帰関数の確率モデル - f(x): 入力データ x

    に対する予測値 - m(x): mean function - k(x, x'): kernel function - 周辺尤度 p(y|X) を最大化するように学習
  5. GP: Kernel Functions - Exponentiated Quadratic (EQ), または RBF -

    強い仮定:滑らかで無限微分可能な f(x) を生成 → QE のようなノイズのあるデータには強すぎる 5 “とりあえず” 使われがち
  6. Methods EQ kernel の代わりに Matern kernel を使用 - パラメータ v

    で滑らかさを調整 - v = 3/2, 5/2 が一般的 6
  7. Methods - GP は実数全体をカバー - QE の score は正の整数のみ →範囲を合わせるため、

    Warped GPs を使用(従来は log) - a, b, c はパラメータ、I は NN における層の数 7
  8. Experiment Task: Sentence-level の QE 8 引用:OpenKiwi: An Open Source

    Framework for Quality Estimation
  9. Experiment Task: Sentence-level の QE Evaluation • 人手評価との相関 (Pearson), 平均絶対誤差

    (MAE) • Negative Log Predictive Density (NLPD) • Negative Log Likelihood (NLL) 9 QE タスクの評価 GP の評価
  10. Experiment Method 1. Kernel a. EQ kernel b. Matern kernel

    (v=3/2, 5/2) 2. Warped GPs a. なし b. log: f(y) = log(y) c. tanh (1層〜3層) 10
  11. Experiment Data 1. English-Spanish (en-es) • WMT14 QE, 858 sentences

    2. French-English (fr-en) • By Specia 2011, 2,525 sentences 3. English-German (en-de) • WMT16 QE, 2,828 sentences 11 この論文が 書かれた年
  12. Result 12 Baseline は 0.351 →上回る

  13. Result 13 Kernel 間で 差はない Warp は 効果あり

  14. Result 14 NLPD が低い=予測が正しい時 NLPD が高い=予測が誤っている時 分布が集中 変化なし

  15. Conclusion - Gaussian Process (GP) を Quality Estimation (QE) で用いるために、適切な設定を調査

    - Kernel を変えてもあまり変化がない - QE の score は正の範囲を取るので、Warp GP で範囲を 合わせるのが効果的 - QE の Baseline の結果を上回る 15
  16. Reference - Warped Gaussian Processes(NIPS2004) http://www.gatsby.ucl.ac.uk/~snelson/gpwarp.pdf - ベイズ的最適化 https://www.slideshare.net/issei_sato/bayesian-optimization 16