Slide 1

Slide 1 text

Exploring Prediction Uncertainty in Machine Translation Quality Estimation Daniel Beck, Lucia Specia, and Trevor Cohn Proceedings of The 20th SIGNLL Conference on Computational Natural Language Learning, pages 208-218, Berlin, 2016.

Slide 2

Slide 2 text

Abstract - Quality Estimation (QE) のタスクに合った Gaussian Process (GP) を調査 - QE に参加していないが、Baseline の結果を上 回る 2

Slide 3

Slide 3 text

Introduction - QE は点推定の指標でしか評価されていない - 良い予測ができるモデルが強い(当たり前) - 用いる指標は増え、モデルは複雑に… - GP による “不確かさ” の情報を加えるとさらなる 向上が得られるのでは? 3

Slide 4

Slide 4 text

Gaussian Process (GP) 4 - 回帰関数の確率モデル - f(x): 入力データ x に対する予測値 - m(x): mean function - k(x, x'): kernel function - 周辺尤度 p(y|X) を最大化するように学習

Slide 5

Slide 5 text

GP: Kernel Functions - Exponentiated Quadratic (EQ), または RBF - 強い仮定:滑らかで無限微分可能な f(x) を生成 → QE のようなノイズのあるデータには強すぎる 5 “とりあえず” 使われがち

Slide 6

Slide 6 text

Methods EQ kernel の代わりに Matern kernel を使用 - パラメータ v で滑らかさを調整 - v = 3/2, 5/2 が一般的 6

Slide 7

Slide 7 text

Methods - GP は実数全体をカバー - QE の score は正の整数のみ →範囲を合わせるため、 Warped GPs を使用(従来は log) - a, b, c はパラメータ、I は NN における層の数 7

Slide 8

Slide 8 text

Experiment Task: Sentence-level の QE 8 引用:OpenKiwi: An Open Source Framework for Quality Estimation

Slide 9

Slide 9 text

Experiment Task: Sentence-level の QE Evaluation ● 人手評価との相関 (Pearson), 平均絶対誤差 (MAE) ● Negative Log Predictive Density (NLPD) ● Negative Log Likelihood (NLL) 9 QE タスクの評価 GP の評価

Slide 10

Slide 10 text

Experiment Method 1. Kernel a. EQ kernel b. Matern kernel (v=3/2, 5/2) 2. Warped GPs a. なし b. log: f(y) = log(y) c. tanh (1層〜3層) 10

Slide 11

Slide 11 text

Experiment Data 1. English-Spanish (en-es) ● WMT14 QE, 858 sentences 2. French-English (fr-en) ● By Specia 2011, 2,525 sentences 3. English-German (en-de) ● WMT16 QE, 2,828 sentences 11 この論文が 書かれた年

Slide 12

Slide 12 text

Result 12 Baseline は 0.351 →上回る

Slide 13

Slide 13 text

Result 13 Kernel 間で 差はない Warp は 効果あり

Slide 14

Slide 14 text

Result 14 NLPD が低い=予測が正しい時 NLPD が高い=予測が誤っている時 分布が集中 変化なし

Slide 15

Slide 15 text

Conclusion - Gaussian Process (GP) を Quality Estimation (QE) で用いるために、適切な設定を調査 - Kernel を変えてもあまり変化がない - QE の score は正の範囲を取るので、Warp GP で範囲を 合わせるのが効果的 - QE の Baseline の結果を上回る 15

Slide 16

Slide 16 text

Reference - Warped Gaussian Processes(NIPS2004) http://www.gatsby.ucl.ac.uk/~snelson/gpwarp.pdf - ベイズ的最適化 https://www.slideshare.net/issei_sato/bayesian-optimization 16