文献紹介：OpenKiwi: An Open Source Framework for Quality Estimation

OpenKiwi: An Open Source Framework for Quality Estimation Fabio Kepler,
Jonay Trénous, Marcos Treviso, Miguel Vera, André F. T. Martins Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics: System Demonstrations, pages 117-122, Florence, July 2019.

Abstract - Quality Estimation (QE) のタスクにおけるオープンソースのフレームワークを公開 - WMT18 の
QE タスクで SoTA(word-level)、それに迫る性能(sentence-level) 2

Quality Estimation (QE) - 原文(Source)と機械翻訳が出力した訳文(MT)を用いて、訳文(MT) の品質を推定 - Metrics：訳文と参照文から訳文の品質を推定 -
訓練時には上の2つの文の他に、訳文(MT)を人手で修正した文(Post-edit; PE)が与えられる 3

Quality Estimation (QE) - Word-level - PEとMTを比較して、単語の挿入(Gap tag)、置換・削除 (MT tag)の必要があれば
BAD、それ以外は OK - SourceにおいてMTのエラーになりそうな箇所に BADそれ以外は OK (Source tag) - Sentence-level - PEとMTの編集距離(lower is better)を算出 4

Quality Estimation (QE) 5

Evaluation - Word-level - 3つのタグ付けについて、F1-scoreを計算 - Sentence-level - Scoring：Pearsonの相関係数、平均絶対誤差(MAE)、平均平方二乗誤差(RMSE)
- Ranking：Spearmanの順位相関係数、DeltaAvg 6

Methods - 4つの既存モデルを Ensemble/Stack - QUality Estimation from scraTCH (QUETCH)
- Neural Quality Estimation (NuQE) - Predictor-Estimator - Automatic Post-Editing adapted for QE (APE-QE) 7

QUality Estimation from scraTCH (QUETCH) - Word-level QE - 原文と訳文で単語(列)の対応箇所を
alignmentし、入力 - NNで OK/BAD ラベルを推定 8

Neural Quality Estimation (NuQE) - QUETCH (左図) の改良版 - 隠れ層(Hidden
Layers)を変更 - feedforward layers - bi-directional GRU layers 9

Predictor-Estimator - Predictor - 情報抽出 - 原文から訳文を予測するように訓練 - RNNではなくbi-LSTMを使用
- Estimator - 情報をもとに推定 - word, sentence-level 10

Automatic Post-Editing adapted for QE (APE-QE) (QEのおさらい) - 訓練時：原文、訳文、訳文を人手で編集した文 -
テスト：原文、訳文「テストのときに編集文がないなら、疑似編集文を生成すればよいのでは？」 - 訓練データを用いて編集文を生成するモデルを訓練 - タグ付け、編集距離計算は予測した編集文を用いて行う 11

Experiment - Task - Word-level QE - Sentence-level QE -
Data - WMT18 English-German, train/dev = 39,715/2000(文) - pred-est の事前訓練：WMT 3,396,364文, in-domain 12

Evaluation - Word-level - 3つのタグ付けについて、F1-scoreを計算 - Sentence-level - Scoring：Pearsonの相関係数、平均絶対誤差(MAE)、平均平方二乗誤差(RMSE)
- Ranking：Spearmanの順位相関係数、DeltaAvg 13

Result (dev-set) 14 Word-level Sentence-level

Result (dev-set) 15 Sentence-level だとPred-Est がダントツ。Word-level でも高く、万能なモデル。 Word-level だと
APE-QE が高い。疑似編集文生成が効いている？

Result (test-set) 16 - 過去のSotAモデルとの比較 Word-level Sentence-level

Result (test-set) 17 - 過去のSotAモデルとの比較 Sentence-level はあと一歩 Word-level で SotA

Conclusion - QE のフレームワークを公開 - 4つのモデルを用いて、word-levelではSotAを達成、sentence-levelではそれに迫る結果 18

References - Julia Kreutzer, Shigehiko Schamoni, and Stefan Riezler. QUality
Estimation from ScraTCH (QUETCH): Deep Learning for Word-level Translation Quality Estimation. In Proc. of WMT, pp. 316-322, 2015. - André F. T. Martins, Ramón Astudillo, Chris Hokamp, and Fabio Kepler. Unbabel’s Participation in the WMT16 Word-Level Translation Quality Estimation Shared Task. In Proc. of WMT, pp. 806-811, 2016. - Hyun Kim, Jong-Hyeok Lee, and Seung-Hoon Na. Predictor-Estimator using Multilevel Task Learning with Stack Propagation for Neural Quality Estimation. In Proc. of WMT, pp. 562-568, 2017. - André F. T. Martins, Marcin Junczys-Dowmunt, Fabio N. Kepler, Ramón Astudillo, Chris Hokamp, and Roman Grundkiewicz. Pushing the Limits of Translation Quality Estimation. Trans. of ACL, pp. 205-218, 2017. 19

文献紹介：OpenKiwi: An Open Source Framework for Qua...

文献紹介：OpenKiwi: An Open Source Framework for Quality Estimation

Taichi Aida

More Decks by Taichi Aida

Other Decks in Research

Featured

Transcript

OpenKiwi: An Open Source Framework for Quality Estimation Fabio Kepler,

Abstract - Quality Estimation (QE) のタスクにおけるオープンソースのフレームワークを公開 - WMT18 の

Quality Estimation (QE) - 原文(Source)と機械翻訳が出力した訳文(MT)を用いて、訳文(MT) の品質を推定 - Metrics：訳文と参照文から訳文の品質を推定 -

Quality Estimation (QE) - Word-level - PEとMTを比較して、単語の挿入(Gap tag)、置換・削除 (MT tag)の必要があれば

Quality Estimation (QE) 5

Evaluation - Word-level - 3つのタグ付けについて、F1-scoreを計算 - Sentence-level - Scoring：Pearsonの相関係数、平均絶対誤差(MAE)、平均平方二乗誤差(RMSE)

Methods - 4つの既存モデルを Ensemble/Stack - QUality Estimation from scraTCH (QUETCH)

QUality Estimation from scraTCH (QUETCH) - Word-level QE - 原文と訳文で単語(列)の対応箇所を

Neural Quality Estimation (NuQE) - QUETCH (左図) の改良版 - 隠れ層(Hidden

Predictor-Estimator - Predictor - 情報抽出 - 原文から訳文を予測するように訓練 - RNNではなくbi-LSTMを使用

Automatic Post-Editing adapted for QE (APE-QE) (QEのおさらい) - 訓練時：原文、訳文、訳文を人手で編集した文 -

Experiment - Task - Word-level QE - Sentence-level QE -

Evaluation - Word-level - 3つのタグ付けについて、F1-scoreを計算 - Sentence-level - Scoring：Pearsonの相関係数、平均絶対誤差(MAE)、平均平方二乗誤差(RMSE)

Result (dev-set) 14 Word-level Sentence-level

Result (dev-set) 15 Sentence-level だとPred-Est がダントツ。Word-level でも高く、万能なモデル。 Word-level だと

Result (test-set) 16 - 過去のSotAモデルとの比較 Word-level Sentence-level

Result (test-set) 17 - 過去のSotAモデルとの比較 Sentence-level はあと一歩 Word-level で SotA

Conclusion - QE のフレームワークを公開 - 4つのモデルを用いて、word-levelではSotAを達成、sentence-levelではそれに迫る結果 18

References - Julia Kreutzer, Shigehiko Schamoni, and Stefan Riezler. QUality