文献紹介：deepQuest: A Framework for Neural-based Quality Estimation

Slide 1

Slide 1 text

⽂献紹介 (2019/05/07) deepQuest: A Framework for Neural-based Quality Estimation 相⽥太⼀⻑岡技術科学⼤学⾃然⾔語処理研究室

Slide 2

Slide 2 text

Literature • Author • Conference 2

Slide 3

Slide 3 text

Abstract • Quality Estimation (QE)というShared task • ニューラルの⼿法により、性能が向上してきた • しかし、既存の⼿法はどれも単語や⽂単位 • state-of-the-artのモデル POSTECH (Kim et al., 2017)も莫⼤な事前学習を要する • ⽂単位と⽂書単位の2つの軽量な⼿法を提案 3

Slide 4

Slide 4 text

Introduction • Quality Estimation (QE)というShared task • 参照翻訳なしで品質を予測 • 品質がラベル付けされたデータで評価 • 従来⼿法（ニューラル） • 単語、句、⽂単位でのQE 以下2つのいずれかを要する • 莫⼤な事前学習 • 特徴量エンジニアリング • 少ないコストで同等かそれ以上の結果 • SMTとNMTの両⽅で実験（初） 4

Slide 5

Slide 5 text

Existing method: POSTECH • Predictor • encoder-decoder RNN • ⽂脈表現に基づいて単語を予測 • ⼤規模なデータと計算リソースが必要 • Estimator • bidirectional RNN • Predictorからの表現に基づき、単語、フレーズ、⽂ベースで予測した品質スコアを⽣成 5

Slide 6

Slide 6 text

• POSTECH (Kim et al., 2017)は複雑なアーキテクチャ・リソース集約型だが、提案⼿法は軽量でシンプル・⼤規模な事前訓練なし Proposal method: BI-RNN 6 ①Sentence level ②Document level

Slide 7

Slide 7 text

Proposal method: BI-RNN ①Sentence level • SourceとMTのencoderそれぞれ独⽴ • 順⽅向と逆⽅向で単語ごとに隠れ状態を計算 • Attentionで正規化した重みを計算 • ⽂ベクトルは上の2つの積の総和になる 7

Slide 8

Slide 8 text

Proposal method: BI-RNN ②Document level • ×Sentence levelでのscoreの集合 • ⽂書内でどの⽂が重要かを考慮すべき →Attention • Attentionの式はSentence levelの時と同じ 8

Slide 9

Slide 9 text

Evaluation ~Sentence level~ • Datasets • English-German(EN-DE) • IT domain • 28,000 sentences • English-Latvian(EN-LV) • Life science domain • 18,768 sentences • 以下のように分ける • Dev: 1,000 sentences • Test: 2,000 sentences • Train: 残り 9

Slide 10

Slide 10 text

Evaluation ~Sentence level~ • Baseline: QuEst++ (Specia et al., 2015) • 既存⼿法：POSTECH 以下のデータでpredictorの訓練 • Europarl corpus (Koehn, 2005) • 2,000,000 sentences • EN-DE • Parallel data of the WMT 2017 News translation task • 2,000,000 sentences • EN-LV • 提案⼿法：BI-RNN (Sentence level) 10

Slide 11

Slide 11 text

Result ~Sentence level~ EN-DE • SMT、NMT共にBaselineを上回り、訓練後のPOSTECHに迫る結果 EN-LV • SMTではBaselineを上回り、訓練後の POSTECHに迫る • NMTではBaselineが⾼い 11

Slide 12

Slide 12 text

Evaluation ~Document level~ • Datasets WMT 2008-2017 のNews task （ニュース⽂書の翻訳結果） • German-English(DE-EN) • 14,640 documents • English-Spanish(EN-ES) • 6,733 documents • English-French(EN-FR) • 11,537 documents • English-Russian(EN-RU) • 6,996 documents • 各システムが提出した提出物のフルセット（ALL） • 各年の最⾼性能と最低性能のシステムの提出物（FILT） 12 筆者らの直感：「極端な品質レベルを考慮すれば、データも⼩さくなり、区別しやすくなるのでは？」

Slide 13

Slide 13 text

Evaluation ~Document level~ • # docs: ⽂書数 • ALLは、FILTと⽂書数が同じ数になるようにランダムで抽出 • FILTはALLに含まれるため、devとtestは固定 • av # sent: 1⽂書に含まれる⽂の数の平均 • BLEU: ⽂書レベルのBLEUの平均 • wBLEU: ⽂書レベルの重み付きBLEU平均 • TBLEU: ⽂書単位のTF-IDFにより重み付けされたBLEUの平均 TBLEU& = ∑)*+ , TFIDF)BLEU) ∑)*+ , ()) 13

Slide 14

Slide 14 text

Evaluation ~Document level~ • Baseline: QuEst++ (Specia et al., 2015) • SVR: Support Vector Regression (SVMを回帰に応⽤したもの) で⽂書レベルのQEシステムを学習 • 既存⼿法：POSTECH それぞれ以下のデータで事前訓練 • Europarl corpus • 2,000,000 sentences • EN-DE • News Commentary • 2,000,000 sentences • EN-FR • 提案⼿法：BI-RNN (Document level) 14

Slide 15

Slide 15 text

Result ~Document level~ • Baseline • 提案⼿法がTBLEUと強い相関 • Attentionはなくても良さそう • 既存⼿法、提案⼿法 15 Last: Attentionなし Att: Attentionあり

Slide 16

Slide 16 text

Result ~Document level~ • 提案⼿法のみ • EN-RUでの結果が低い→DE-ENとともに、予測が難しい⾔語？ 16 Last: Attentionなし Att: Attentionあり

Slide 17

Slide 17 text

Conclusion • ニューラルベースの⽂、⽂書単位の品質予測⼿法を提案 • 既存のstate-of-the-art⼿法であるPOSTECHに対し、 • ⽂単位では迫る結果 • ⽂書単位では上回る結果 • 訓練時間は40倍早いとなった。 • ソースコードは以下 https://github.com/sheffieldnlp/deepQuest 17