Slide 1

Slide 1 text

OpenKiwi: An Open Source Framework for Quality Estimation Fabio Kepler, Jonay Trénous, Marcos Treviso, Miguel Vera, André F. T. Martins Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics: System Demonstrations, pages 117-122, Florence, July 2019.

Slide 2

Slide 2 text

Abstract - Quality Estimation (QE) のタスクにおけるオープ ンソースのフレームワークを公開 - WMT18 の QE タスクで SoTA(word-level)、それ に迫る性能(sentence-level) 2

Slide 3

Slide 3 text

Quality Estimation (QE) - 原文(Source)と機械翻訳が出力した訳文(MT)を 用いて、訳文(MT) の品質を推定 - Metrics:訳文と参照文から訳文の品質を推定 - 訓練時には上の2つの文の他に、訳文(MT)を人 手で修正した文(Post-edit; PE)が与えられる 3

Slide 4

Slide 4 text

Quality Estimation (QE) - Word-level - PEとMTを比較して、単語の挿入(Gap tag)、置換・削除 (MT tag)の必要があれば BAD、それ以外は OK - SourceにおいてMTのエラーになりそうな箇所に BADそれ 以外は OK (Source tag) - Sentence-level - PEとMTの編集距離(lower is better)を算出 4

Slide 5

Slide 5 text

Quality Estimation (QE) 5

Slide 6

Slide 6 text

Evaluation - Word-level - 3つのタグ付けについて、F1-scoreを計算 - Sentence-level - Scoring:Pearsonの相関係数、平均絶対誤差(MAE)、平 均平方二乗誤差(RMSE) - Ranking:Spearmanの順位相関係数、DeltaAvg 6

Slide 7

Slide 7 text

Methods - 4つの既存モデルを Ensemble/Stack - QUality Estimation from scraTCH (QUETCH) - Neural Quality Estimation (NuQE) - Predictor-Estimator - Automatic Post-Editing adapted for QE (APE-QE) 7

Slide 8

Slide 8 text

QUality Estimation from scraTCH (QUETCH) - Word-level QE - 原文と訳文で単語(列)の対応箇所を alignmentし、入力 - NNで OK/BAD ラベルを推定 8

Slide 9

Slide 9 text

Neural Quality Estimation (NuQE) - QUETCH (左図) の改良版 - 隠れ層(Hidden Layers)を変更 - feedforward layers - bi-directional GRU layers 9

Slide 10

Slide 10 text

Predictor-Estimator - Predictor - 情報抽出 - 原文から訳文を予測するように訓 練 - RNNではなくbi-LSTMを使用 - Estimator - 情報をもとに推定 - word, sentence-level 10

Slide 11

Slide 11 text

Automatic Post-Editing adapted for QE (APE-QE) (QEのおさらい) - 訓練時:原文、訳文、訳文を人手で編集した文 - テスト:原文、訳文 「テストのときに編集文がないなら、疑似編集文を生成すればよい のでは?」 - 訓練データを用いて編集文を生成するモデルを訓練 - タグ付け、編集距離計算は予測した編集文を用いて行う 11

Slide 12

Slide 12 text

Experiment - Task - Word-level QE - Sentence-level QE - Data - WMT18 English-German, train/dev = 39,715/2000(文) - pred-est の事前訓練:WMT 3,396,364文, in-domain 12

Slide 13

Slide 13 text

Evaluation - Word-level - 3つのタグ付けについて、F1-scoreを計算 - Sentence-level - Scoring:Pearsonの相関係数、平均絶対誤差(MAE)、平 均平方二乗誤差(RMSE) - Ranking:Spearmanの順位相関係数、DeltaAvg 13

Slide 14

Slide 14 text

Result (dev-set) 14 Word-level Sentence-level

Slide 15

Slide 15 text

Result (dev-set) 15 Sentence-level だとPred-Est がダントツ。Word-level でも高 く、万能なモデル。 Word-level だと APE-QE が高い。疑似編集文生成が 効いている?

Slide 16

Slide 16 text

Result (test-set) 16 - 過去のSotAモデルとの比較 Word-level Sentence-level

Slide 17

Slide 17 text

Result (test-set) 17 - 過去のSotAモデルとの比較 Sentence-level はあと一歩 Word-level で SotA

Slide 18

Slide 18 text

Conclusion - QE のフレームワークを公開 - 4つのモデルを用いて、word-levelではSotAを達 成、sentence-levelではそれに迫る結果 18

Slide 19

Slide 19 text

References - Julia Kreutzer, Shigehiko Schamoni, and Stefan Riezler. QUality Estimation from ScraTCH (QUETCH): Deep Learning for Word-level Translation Quality Estimation. In Proc. of WMT, pp. 316-322, 2015. - André F. T. Martins, Ramón Astudillo, Chris Hokamp, and Fabio Kepler. Unbabel’s Participation in the WMT16 Word-Level Translation Quality Estimation Shared Task. In Proc. of WMT, pp. 806-811, 2016. - Hyun Kim, Jong-Hyeok Lee, and Seung-Hoon Na. Predictor-Estimator using Multilevel Task Learning with Stack Propagation for Neural Quality Estimation. In Proc. of WMT, pp. 562-568, 2017. - André F. T. Martins, Marcin Junczys-Dowmunt, Fabio N. Kepler, Ramón Astudillo, Chris Hokamp, and Roman Grundkiewicz. Pushing the Limits of Translation Quality Estimation. Trans. of ACL, pp. 205-218, 2017. 19