文献紹介：deepQuest: A Framework for Neural-based Quality Estimation

⽂献紹介 (2019/05/07) deepQuest: A Framework for Neural-based Quality Estimation 相⽥
太⼀⻑岡技術科学⼤学⾃然⾔語処理研究室

Literature • Author • Conference 2

Abstract • Quality Estimation (QE)というShared task • ニューラルの⼿法により、性能が向上してきた • しかし、既存の⼿法はどれも単語や⽂単位
• state-of-the-artのモデル POSTECH (Kim et al., 2017)も莫⼤な事前学習を要する • ⽂単位と⽂書単位の2つの軽量な⼿法を提案 3

Introduction • Quality Estimation (QE)というShared task • 参照翻訳なしで品質を予測 • 品質がラベル付けされたデータで評価
• 従来⼿法（ニューラル） • 単語、句、⽂単位でのQE 以下2つのいずれかを要する • 莫⼤な事前学習 • 特徴量エンジニアリング • 少ないコストで同等かそれ以上の結果 • SMTとNMTの両⽅で実験（初） 4

Existing method: POSTECH • Predictor • encoder-decoder RNN • ⽂脈表現に基づいて単語を予測
• ⼤規模なデータと計算リソースが必要 • Estimator • bidirectional RNN • Predictorからの表現に基づき、単語、フレーズ、⽂ベースで予測した品質スコアを⽣成 5

• POSTECH (Kim et al., 2017)は複雑なアーキテクチャ・リソース集約型だが、提案⼿法は軽量でシンプル・⼤規模な事前訓練なし Proposal method: BI-RNN
6 ①Sentence level ②Document level

Proposal method: BI-RNN ①Sentence level • SourceとMTのencoderそれぞれ独⽴ • 順⽅向と逆⽅向で単語ごとに隠れ状態を計算 •
Attentionで正規化した重みを計算 • ⽂ベクトルは上の2つの積の総和になる 7

Proposal method: BI-RNN ②Document level • ×Sentence levelでのscoreの集合 • ⽂書内でどの⽂が重要かを考慮すべき
→Attention • Attentionの式はSentence levelの時と同じ 8

Evaluation ~Sentence level~ • Datasets • English-German(EN-DE) • IT domain
• 28,000 sentences • English-Latvian(EN-LV) • Life science domain • 18,768 sentences • 以下のように分ける • Dev: 1,000 sentences • Test: 2,000 sentences • Train: 残り 9

Evaluation ~Sentence level~ • Baseline: QuEst++ (Specia et al., 2015)
• 既存⼿法：POSTECH 以下のデータでpredictorの訓練 • Europarl corpus (Koehn, 2005) • 2,000,000 sentences • EN-DE • Parallel data of the WMT 2017 News translation task • 2,000,000 sentences • EN-LV • 提案⼿法：BI-RNN (Sentence level) 10

Result ~Sentence level~ EN-DE • SMT、NMT共にBaselineを上回り、訓練後のPOSTECHに迫る結果 EN-LV • SMTではBaselineを上回り、訓練後の
POSTECHに迫る • NMTではBaselineが⾼い 11

Evaluation ~Document level~ • Datasets WMT 2008-2017 のNews task （ニュース⽂書の翻訳結果）
• German-English(DE-EN) • 14,640 documents • English-Spanish(EN-ES) • 6,733 documents • English-French(EN-FR) • 11,537 documents • English-Russian(EN-RU) • 6,996 documents • 各システムが提出した提出物のフルセット（ALL） • 各年の最⾼性能と最低性能のシステムの提出物（FILT） 12 筆者らの直感：「極端な品質レベルを考慮すれば、データも⼩さくなり、区別しやすくなるのでは？」

Evaluation ~Document level~ • # docs: ⽂書数 • ALLは、FILTと⽂書数が同じ数になるようにランダムで抽出
• FILTはALLに含まれるため、devとtestは固定 • av # sent: 1⽂書に含まれる⽂の数の平均 • BLEU: ⽂書レベルのBLEUの平均 • wBLEU: ⽂書レベルの重み付きBLEU平均 • TBLEU: ⽂書単位のTF-IDFにより重み付けされたBLEUの平均 TBLEU& = ∑)*+ , TFIDF)BLEU) ∑)*+ , ()) 13

Evaluation ~Document level~ • Baseline: QuEst++ (Specia et al., 2015)
• SVR: Support Vector Regression (SVMを回帰に応⽤したもの) で⽂書レベルのQEシステムを学習 • 既存⼿法：POSTECH それぞれ以下のデータで事前訓練 • Europarl corpus • 2,000,000 sentences • EN-DE • News Commentary • 2,000,000 sentences • EN-FR • 提案⼿法：BI-RNN (Document level) 14

Result ~Document level~ • Baseline • 提案⼿法がTBLEUと強い相関 • Attentionはなくても良さそう •
既存⼿法、提案⼿法 15 Last: Attentionなし Att: Attentionあり

Result ~Document level~ • 提案⼿法のみ • EN-RUでの結果が低い→DE-ENとともに、予測が難しい⾔語？ 16 Last: Attentionなし
Att: Attentionあり

Conclusion • ニューラルベースの⽂、⽂書単位の品質予測⼿法を提案 • 既存のstate-of-the-art⼿法であるPOSTECHに対し、 • ⽂単位では迫る結果 • ⽂書単位では上回る結果 •
訓練時間は40倍早いとなった。 • ソースコードは以下 https://github.com/sheffieldnlp/deepQuest 17

文献紹介：deepQuest: A Framework for Neural-based Qu...

文献紹介：deepQuest: A Framework for Neural-based Quality Estimation

Taichi Aida

More Decks by Taichi Aida

Other Decks in Technology

Featured

Transcript

⽂献紹介 (2019/05/07) deepQuest: A Framework for Neural-based Quality Estimation 相⽥

Literature • Author • Conference 2

Abstract • Quality Estimation (QE)というShared task • ニューラルの⼿法により、性能が向上してきた • しかし、既存の⼿法はどれも単語や⽂単位

Introduction • Quality Estimation (QE)というShared task • 参照翻訳なしで品質を予測 • 品質がラベル付けされたデータで評価

Existing method: POSTECH • Predictor • encoder-decoder RNN • ⽂脈表現に基づいて単語を予測

• POSTECH (Kim et al., 2017)は複雑なアーキテクチャ・リソース集約型だが、提案⼿法は軽量でシンプル・⼤規模な事前訓練なし Proposal method: BI-RNN

Proposal method: BI-RNN ①Sentence level • SourceとMTのencoderそれぞれ独⽴ • 順⽅向と逆⽅向で単語ごとに隠れ状態を計算 •

Proposal method: BI-RNN ②Document level • ×Sentence levelでのscoreの集合 • ⽂書内でどの⽂が重要かを考慮すべき

Evaluation ~Sentence level~ • Datasets • English-German(EN-DE) • IT domain

Evaluation ~Sentence level~ • Baseline: QuEst++ (Specia et al., 2015)

Result ~Sentence level~ EN-DE • SMT、NMT共にBaselineを上回り、訓練後のPOSTECHに迫る結果 EN-LV • SMTではBaselineを上回り、訓練後の

Evaluation ~Document level~ • Datasets WMT 2008-2017 のNews task （ニュース⽂書の翻訳結果）

Evaluation ~Document level~ • # docs: ⽂書数 • ALLは、FILTと⽂書数が同じ数になるようにランダムで抽出

Evaluation ~Document level~ • Baseline: QuEst++ (Specia et al., 2015)

Result ~Document level~ • Baseline • 提案⼿法がTBLEUと強い相関 • Attentionはなくても良さそう •

Result ~Document level~ • 提案⼿法のみ • EN-RUでの結果が低い→DE-ENとともに、予測が難しい⾔語？ 16 Last: Attentionなし

Conclusion • ニューラルベースの⽂、⽂書単位の品質予測⼿法を提案 • 既存のstate-of-the-art⼿法であるPOSTECHに対し、 • ⽂単位では迫る結果 • ⽂書単位では上回る結果 •