文献紹介:deepQuest: A Framework for Neural-based Quality Estimation

文献紹介:deepQuest: A Framework for Neural-based Quality Estimation

2019年5月文献紹介

9e650916f36300d64c9c61eeb4ab697e?s=128

Taichi Aida

May 04, 2019
Tweet

Transcript

  1. ⽂献紹介 (2019/05/07) deepQuest: A Framework for Neural-based Quality Estimation 相⽥

    太⼀ ⻑岡技術科学⼤学 ⾃然⾔語処理研究室
  2. Literature • Author • Conference 2

  3. Abstract • Quality Estimation (QE)というShared task • ニューラルの⼿法により、性能が向上してきた • しかし、既存の⼿法はどれも単語や⽂単位

    • state-of-the-artのモデル POSTECH (Kim et al., 2017)も莫⼤ な事前学習を要する • ⽂単位と⽂書単位の2つの軽量な⼿法を提案 3
  4. Introduction • Quality Estimation (QE)というShared task • 参照翻訳なしで品質を予測 • 品質がラベル付けされたデータで評価

    • 従来⼿法(ニューラル) • 単語、句、⽂単位でのQE 以下2つのいずれかを要する • 莫⼤な事前学習 • 特徴量エンジニアリング • 少ないコストで同等かそれ以上の結果 • SMTとNMTの両⽅で実験(初) 4
  5. Existing method: POSTECH • Predictor • encoder-decoder RNN • ⽂脈表現に基づいて単語を予測

    • ⼤規模なデータと計算リソースが必要 • Estimator • bidirectional RNN • Predictorからの表現に基づき、 単語、フレーズ、⽂ベースで 予測した品質スコアを⽣成 5
  6. • POSTECH (Kim et al., 2017)は複雑なアーキテクチャ・リソース集約型だが、提 案⼿法は軽量でシンプル・⼤規模な事前訓練なし Proposal method: BI-RNN

    6 ①Sentence level ②Document level
  7. Proposal method: BI-RNN ①Sentence level • SourceとMTのencoderそれぞれ独⽴ • 順⽅向と逆⽅向で単語ごとに隠れ状態を計算 •

    Attentionで正規化した重みを計算 • ⽂ベクトルは上の2つの積の総和になる 7
  8. Proposal method: BI-RNN ②Document level • ×Sentence levelでのscoreの集合 • ⽂書内でどの⽂が重要かを考慮すべき

    →Attention • Attentionの式はSentence levelの時と同じ 8
  9. Evaluation ~Sentence level~ • Datasets • English-German(EN-DE) • IT domain

    • 28,000 sentences • English-Latvian(EN-LV) • Life science domain • 18,768 sentences • 以下のように分ける • Dev: 1,000 sentences • Test: 2,000 sentences • Train: 残り 9
  10. Evaluation ~Sentence level~ • Baseline: QuEst++ (Specia et al., 2015)

    • 既存⼿法:POSTECH 以下のデータでpredictorの訓練 • Europarl corpus (Koehn, 2005) • 2,000,000 sentences • EN-DE • Parallel data of the WMT 2017 News translation task • 2,000,000 sentences • EN-LV • 提案⼿法:BI-RNN (Sentence level) 10
  11. Result ~Sentence level~ EN-DE • SMT、NMT共にBaselineを上回り、訓練 後のPOSTECHに迫る結果 EN-LV • SMTではBaselineを上回り、訓練後の

    POSTECHに迫る • NMTではBaselineが⾼い 11
  12. Evaluation ~Document level~ • Datasets WMT 2008-2017 のNews task (ニュース⽂書の翻訳結果)

    • German-English(DE-EN) • 14,640 documents • English-Spanish(EN-ES) • 6,733 documents • English-French(EN-FR) • 11,537 documents • English-Russian(EN-RU) • 6,996 documents • 各システムが提出した提出物の フルセット(ALL) • 各年の最⾼性能と最低性能の システムの提出物(FILT) 12 筆者らの直感: 「極端な品質レベルを考慮すれば、データも ⼩さくなり、区別しやすくなるのでは?」
  13. Evaluation ~Document level~ • # docs: ⽂書数 • ALLは、FILTと⽂書数が同じ数になるようにラ ンダムで抽出

    • FILTはALLに含まれるため、devとtestは固定 • av # sent: 1⽂書に含まれる⽂の数の平均 • BLEU: ⽂書レベルのBLEUの平均 • wBLEU: ⽂書レベルの重み付きBLEU平均 • TBLEU: ⽂書単位のTF-IDFにより重み付 けされたBLEUの平均 TBLEU& = ∑)*+ , TFIDF)BLEU) ∑)*+ , ()) 13
  14. Evaluation ~Document level~ • Baseline: QuEst++ (Specia et al., 2015)

    • SVR: Support Vector Regression (SVMを回帰に応⽤したもの) で⽂書レベルのQEシステムを学習 • 既存⼿法:POSTECH それぞれ以下のデータで事前訓練 • Europarl corpus • 2,000,000 sentences • EN-DE • News Commentary • 2,000,000 sentences • EN-FR • 提案⼿法:BI-RNN (Document level) 14
  15. Result ~Document level~ • Baseline • 提案⼿法がTBLEUと強い相関 • Attentionはなくても良さそう •

    既存⼿法、提案⼿法 15 Last: Attentionなし Att: Attentionあり
  16. Result ~Document level~ • 提案⼿法のみ • EN-RUでの結果が低い→DE-ENとともに、予測が難しい⾔語? 16 Last: Attentionなし

    Att: Attentionあり
  17. Conclusion • ニューラルベースの⽂、⽂書単位の品質予測⼿法を提案 • 既存のstate-of-the-art⼿法であるPOSTECHに対し、 • ⽂単位では迫る結果 • ⽂書単位では上回る結果 •

    訓練時間は40倍早い となった。 • ソースコードは以下 https://github.com/sheffieldnlp/deepQuest 17