文献紹介:OpenKiwi: An Open Source Framework for Quality Estimation

9e650916f36300d64c9c61eeb4ab697e?s=47 Taichi Aida
January 10, 2020

文献紹介:OpenKiwi: An Open Source Framework for Quality Estimation

OpenKiwi: An Open Source Framework for Quality Estimation
Fabio Kepler, Jonay Trénous, Marcos Treviso, Miguel Vera, André F. T. Martins
Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics: System Demonstrations, pages 117-122, Florence, July 2019.

9e650916f36300d64c9c61eeb4ab697e?s=128

Taichi Aida

January 10, 2020
Tweet

Transcript

  1. OpenKiwi: An Open Source Framework for Quality Estimation Fabio Kepler,

    Jonay Trénous, Marcos Treviso, Miguel Vera, André F. T. Martins Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics: System Demonstrations, pages 117-122, Florence, July 2019.
  2. Abstract - Quality Estimation (QE) のタスクにおけるオープ ンソースのフレームワークを公開 - WMT18 の

    QE タスクで SoTA(word-level)、それ に迫る性能(sentence-level) 2
  3. Quality Estimation (QE) - 原文(Source)と機械翻訳が出力した訳文(MT)を 用いて、訳文(MT) の品質を推定 - Metrics:訳文と参照文から訳文の品質を推定 -

    訓練時には上の2つの文の他に、訳文(MT)を人 手で修正した文(Post-edit; PE)が与えられる 3
  4. Quality Estimation (QE) - Word-level - PEとMTを比較して、単語の挿入(Gap tag)、置換・削除 (MT tag)の必要があれば

    BAD、それ以外は OK - SourceにおいてMTのエラーになりそうな箇所に BADそれ 以外は OK (Source tag) - Sentence-level - PEとMTの編集距離(lower is better)を算出 4
  5. Quality Estimation (QE) 5

  6. Evaluation - Word-level - 3つのタグ付けについて、F1-scoreを計算 - Sentence-level - Scoring:Pearsonの相関係数、平均絶対誤差(MAE)、平 均平方二乗誤差(RMSE)

    - Ranking:Spearmanの順位相関係数、DeltaAvg 6
  7. Methods - 4つの既存モデルを Ensemble/Stack - QUality Estimation from scraTCH (QUETCH)

    - Neural Quality Estimation (NuQE) - Predictor-Estimator - Automatic Post-Editing adapted for QE (APE-QE) 7
  8. QUality Estimation from scraTCH (QUETCH) - Word-level QE - 原文と訳文で単語(列)の対応箇所を

    alignmentし、入力 - NNで OK/BAD ラベルを推定 8
  9. Neural Quality Estimation (NuQE) - QUETCH (左図) の改良版 - 隠れ層(Hidden

    Layers)を変更 - feedforward layers - bi-directional GRU layers 9
  10. Predictor-Estimator - Predictor - 情報抽出 - 原文から訳文を予測するように訓 練 - RNNではなくbi-LSTMを使用

    - Estimator - 情報をもとに推定 - word, sentence-level 10
  11. Automatic Post-Editing adapted for QE (APE-QE) (QEのおさらい) - 訓練時:原文、訳文、訳文を人手で編集した文 -

    テスト:原文、訳文 「テストのときに編集文がないなら、疑似編集文を生成すればよい のでは?」 - 訓練データを用いて編集文を生成するモデルを訓練 - タグ付け、編集距離計算は予測した編集文を用いて行う 11
  12. Experiment - Task - Word-level QE - Sentence-level QE -

    Data - WMT18 English-German, train/dev = 39,715/2000(文) - pred-est の事前訓練:WMT 3,396,364文, in-domain 12
  13. Evaluation - Word-level - 3つのタグ付けについて、F1-scoreを計算 - Sentence-level - Scoring:Pearsonの相関係数、平均絶対誤差(MAE)、平 均平方二乗誤差(RMSE)

    - Ranking:Spearmanの順位相関係数、DeltaAvg 13
  14. Result (dev-set) 14 Word-level Sentence-level

  15. Result (dev-set) 15 Sentence-level だとPred-Est がダントツ。Word-level でも高 く、万能なモデル。 Word-level だと

    APE-QE が高い。疑似編集文生成が 効いている?
  16. Result (test-set) 16 - 過去のSotAモデルとの比較 Word-level Sentence-level

  17. Result (test-set) 17 - 過去のSotAモデルとの比較 Sentence-level はあと一歩 Word-level で SotA

  18. Conclusion - QE のフレームワークを公開 - 4つのモデルを用いて、word-levelではSotAを達 成、sentence-levelではそれに迫る結果 18

  19. References - Julia Kreutzer, Shigehiko Schamoni, and Stefan Riezler. QUality

    Estimation from ScraTCH (QUETCH): Deep Learning for Word-level Translation Quality Estimation. In Proc. of WMT, pp. 316-322, 2015. - André F. T. Martins, Ramón Astudillo, Chris Hokamp, and Fabio Kepler. Unbabel’s Participation in the WMT16 Word-Level Translation Quality Estimation Shared Task. In Proc. of WMT, pp. 806-811, 2016. - Hyun Kim, Jong-Hyeok Lee, and Seung-Hoon Na. Predictor-Estimator using Multilevel Task Learning with Stack Propagation for Neural Quality Estimation. In Proc. of WMT, pp. 562-568, 2017. - André F. T. Martins, Marcin Junczys-Dowmunt, Fabio N. Kepler, Ramón Astudillo, Chris Hokamp, and Roman Grundkiewicz. Pushing the Limits of Translation Quality Estimation. Trans. of ACL, pp. 205-218, 2017. 19