文献紹介：Exploring Prediction Uncertainty in Machine Translation Quality Estimation

Exploring Prediction Uncertainty in Machine Translation Quality Estimation Daniel Beck,
Lucia Specia, and Trevor Cohn Proceedings of The 20th SIGNLL Conference on Computational Natural Language Learning, pages 208-218, Berlin, 2016.

Abstract - Quality Estimation (QE) のタスクに合った Gaussian Process (GP) を調査
- QE に参加していないが、Baseline の結果を上回る 2

Introduction - QE は点推定の指標でしか評価されていない - 良い予測ができるモデルが強い（当たり前） - 用いる指標は増え、モデルは複雑に… - GP
による “不確かさ” の情報を加えるとさらなる向上が得られるのでは？ 3

Gaussian Process (GP) 4 - 回帰関数の確率モデル - f(x): 入力データ x
に対する予測値 - m(x): mean function - k(x, x'): kernel function - 周辺尤度 p(y|X) を最大化するように学習

GP: Kernel Functions - Exponentiated Quadratic (EQ), または RBF -
強い仮定：滑らかで無限微分可能な f(x) を生成 → QE のようなノイズのあるデータには強すぎる 5 “とりあえず” 使われがち

Methods EQ kernel の代わりに Matern kernel を使用 - パラメータ v
で滑らかさを調整 - v = 3/2, 5/2 が一般的 6

Methods - GP は実数全体をカバー - QE の score は正の整数のみ →範囲を合わせるため、
Warped GPs を使用（従来は log） - a, b, c はパラメータ、I は NN における層の数 7

Experiment Task: Sentence-level の QE 8 引用：OpenKiwi: An Open Source
Framework for Quality Estimation

Experiment Task: Sentence-level の QE Evaluation • 人手評価との相関 (Pearson), 平均絶対誤差
(MAE) • Negative Log Predictive Density (NLPD) • Negative Log Likelihood (NLL) 9 QE タスクの評価 GP の評価

Experiment Method 1. Kernel a. EQ kernel b. Matern kernel
(v=3/2, 5/2) 2. Warped GPs a. なし b. log: f(y) = log(y) c. tanh (1層〜3層) 10

Experiment Data 1. English-Spanish (en-es) • WMT14 QE, 858 sentences
2. French-English (fr-en) • By Specia 2011, 2,525 sentences 3. English-German (en-de) • WMT16 QE, 2,828 sentences 11 この論文が書かれた年

Result 12 Baseline は 0.351 →上回る

Result 13 Kernel 間で差はない Warp は効果あり

Result 14 NLPD が低い＝予測が正しい時 NLPD が高い＝予測が誤っている時分布が集中変化なし

Conclusion - Gaussian Process (GP) を Quality Estimation (QE) で用いるために、適切な設定を調査
- Kernel を変えてもあまり変化がない - QE の score は正の範囲を取るので、Warp GP で範囲を合わせるのが効果的 - QE の Baseline の結果を上回る 15

Reference - Warped Gaussian Processes(NIPS2004) http://www.gatsby.ucl.ac.uk/~snelson/gpwarp.pdf - ベイズ的最適化 https://www.slideshare.net/issei_sato/bayesian-optimization 16

文献紹介：Exploring Prediction Uncertainty in Machin...

文献紹介：Exploring Prediction Uncertainty in Machine Translation Quality Estimation

Taichi Aida

More Decks by Taichi Aida

Other Decks in Research

Featured

Transcript

Exploring Prediction Uncertainty in Machine Translation Quality Estimation Daniel Beck,

Abstract - Quality Estimation (QE) のタスクに合った Gaussian Process (GP) を調査

Introduction - QE は点推定の指標でしか評価されていない - 良い予測ができるモデルが強い（当たり前） - 用いる指標は増え、モデルは複雑に… - GP

Gaussian Process (GP) 4 - 回帰関数の確率モデル - f(x): 入力データ x

GP: Kernel Functions - Exponentiated Quadratic (EQ), または RBF -

Methods EQ kernel の代わりに Matern kernel を使用 - パラメータ v

Methods - GP は実数全体をカバー - QE の score は正の整数のみ →範囲を合わせるため、

Experiment Task: Sentence-level の QE 8 引用：OpenKiwi: An Open Source

Experiment Task: Sentence-level の QE Evaluation • 人手評価との相関 (Pearson), 平均絶対誤差

Experiment Method 1. Kernel a. EQ kernel b. Matern kernel

Experiment Data 1. English-Spanish (en-es) • WMT14 QE, 858 sentences

Result 12 Baseline は 0.351 →上回る

Result 13 Kernel 間で差はない Warp は効果あり

Result 14 NLPD が低い＝予測が正しい時 NLPD が高い＝予測が誤っている時分布が集中変化なし

Conclusion - Gaussian Process (GP) を Quality Estimation (QE) で用いるために、適切な設定を調査

Reference - Warped Gaussian Processes(NIPS2004) http://www.gatsby.ucl.ac.uk/~snelson/gpwarp.pdf - ベイズ的最適化 https://www.slideshare.net/issei_sato/bayesian-optimization 16