Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介:Exploring Prediction Uncertainty in Machin...

Taichi Aida
December 15, 2019

文献紹介:Exploring Prediction Uncertainty in Machine Translation Quality Estimation

Exploring Prediction Uncertainty in Machine Translation Quality Estimation
Daniel Beck, Lucia Specia, and Trevor Cohn
Proceedings of The 20th SIGNLL Conference on Computational Natural Language Learning, pages 208-218, Berlin, 2016.

Taichi Aida

December 15, 2019
Tweet

More Decks by Taichi Aida

Other Decks in Research

Transcript

  1. Exploring Prediction Uncertainty in Machine Translation Quality Estimation Daniel Beck,

    Lucia Specia, and Trevor Cohn Proceedings of The 20th SIGNLL Conference on Computational Natural Language Learning, pages 208-218, Berlin, 2016.
  2. Abstract - Quality Estimation (QE) のタスクに合った Gaussian Process (GP) を調査

    - QE に参加していないが、Baseline の結果を上 回る 2
  3. Gaussian Process (GP) 4 - 回帰関数の確率モデル - f(x): 入力データ x

    に対する予測値 - m(x): mean function - k(x, x'): kernel function - 周辺尤度 p(y|X) を最大化するように学習
  4. GP: Kernel Functions - Exponentiated Quadratic (EQ), または RBF -

    強い仮定:滑らかで無限微分可能な f(x) を生成 → QE のようなノイズのあるデータには強すぎる 5 “とりあえず” 使われがち
  5. Methods EQ kernel の代わりに Matern kernel を使用 - パラメータ v

    で滑らかさを調整 - v = 3/2, 5/2 が一般的 6
  6. Methods - GP は実数全体をカバー - QE の score は正の整数のみ →範囲を合わせるため、

    Warped GPs を使用(従来は log) - a, b, c はパラメータ、I は NN における層の数 7
  7. Experiment Task: Sentence-level の QE Evaluation • 人手評価との相関 (Pearson), 平均絶対誤差

    (MAE) • Negative Log Predictive Density (NLPD) • Negative Log Likelihood (NLL) 9 QE タスクの評価 GP の評価
  8. Experiment Method 1. Kernel a. EQ kernel b. Matern kernel

    (v=3/2, 5/2) 2. Warped GPs a. なし b. log: f(y) = log(y) c. tanh (1層〜3層) 10
  9. Experiment Data 1. English-Spanish (en-es) • WMT14 QE, 858 sentences

    2. French-English (fr-en) • By Specia 2011, 2,525 sentences 3. English-German (en-de) • WMT16 QE, 2,828 sentences 11 この論文が 書かれた年
  10. Conclusion - Gaussian Process (GP) を Quality Estimation (QE) で用いるために、適切な設定を調査

    - Kernel を変えてもあまり変化がない - QE の score は正の範囲を取るので、Warp GP で範囲を 合わせるのが効果的 - QE の Baseline の結果を上回る 15