Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介:deepQuest: A Framework for Neural-based Qu...

文献紹介:deepQuest: A Framework for Neural-based Quality Estimation

2019年5月文献紹介

Taichi Aida

May 04, 2019
Tweet

More Decks by Taichi Aida

Other Decks in Technology

Transcript

  1. ⽂献紹介 (2019/05/07) deepQuest: A Framework for Neural-based Quality Estimation 相⽥

    太⼀ ⻑岡技術科学⼤学 ⾃然⾔語処理研究室
  2. Abstract • Quality Estimation (QE)というShared task • ニューラルの⼿法により、性能が向上してきた • しかし、既存の⼿法はどれも単語や⽂単位

    • state-of-the-artのモデル POSTECH (Kim et al., 2017)も莫⼤ な事前学習を要する • ⽂単位と⽂書単位の2つの軽量な⼿法を提案 3
  3. Introduction • Quality Estimation (QE)というShared task • 参照翻訳なしで品質を予測 • 品質がラベル付けされたデータで評価

    • 従来⼿法(ニューラル) • 単語、句、⽂単位でのQE 以下2つのいずれかを要する • 莫⼤な事前学習 • 特徴量エンジニアリング • 少ないコストで同等かそれ以上の結果 • SMTとNMTの両⽅で実験(初) 4
  4. Existing method: POSTECH • Predictor • encoder-decoder RNN • ⽂脈表現に基づいて単語を予測

    • ⼤規模なデータと計算リソースが必要 • Estimator • bidirectional RNN • Predictorからの表現に基づき、 単語、フレーズ、⽂ベースで 予測した品質スコアを⽣成 5
  5. Proposal method: BI-RNN ①Sentence level • SourceとMTのencoderそれぞれ独⽴ • 順⽅向と逆⽅向で単語ごとに隠れ状態を計算 •

    Attentionで正規化した重みを計算 • ⽂ベクトルは上の2つの積の総和になる 7
  6. Evaluation ~Sentence level~ • Datasets • English-German(EN-DE) • IT domain

    • 28,000 sentences • English-Latvian(EN-LV) • Life science domain • 18,768 sentences • 以下のように分ける • Dev: 1,000 sentences • Test: 2,000 sentences • Train: 残り 9
  7. Evaluation ~Sentence level~ • Baseline: QuEst++ (Specia et al., 2015)

    • 既存⼿法:POSTECH 以下のデータでpredictorの訓練 • Europarl corpus (Koehn, 2005) • 2,000,000 sentences • EN-DE • Parallel data of the WMT 2017 News translation task • 2,000,000 sentences • EN-LV • 提案⼿法:BI-RNN (Sentence level) 10
  8. Evaluation ~Document level~ • Datasets WMT 2008-2017 のNews task (ニュース⽂書の翻訳結果)

    • German-English(DE-EN) • 14,640 documents • English-Spanish(EN-ES) • 6,733 documents • English-French(EN-FR) • 11,537 documents • English-Russian(EN-RU) • 6,996 documents • 各システムが提出した提出物の フルセット(ALL) • 各年の最⾼性能と最低性能の システムの提出物(FILT) 12 筆者らの直感: 「極端な品質レベルを考慮すれば、データも ⼩さくなり、区別しやすくなるのでは?」
  9. Evaluation ~Document level~ • # docs: ⽂書数 • ALLは、FILTと⽂書数が同じ数になるようにラ ンダムで抽出

    • FILTはALLに含まれるため、devとtestは固定 • av # sent: 1⽂書に含まれる⽂の数の平均 • BLEU: ⽂書レベルのBLEUの平均 • wBLEU: ⽂書レベルの重み付きBLEU平均 • TBLEU: ⽂書単位のTF-IDFにより重み付 けされたBLEUの平均 TBLEU& = ∑)*+ , TFIDF)BLEU) ∑)*+ , ()) 13
  10. Evaluation ~Document level~ • Baseline: QuEst++ (Specia et al., 2015)

    • SVR: Support Vector Regression (SVMを回帰に応⽤したもの) で⽂書レベルのQEシステムを学習 • 既存⼿法:POSTECH それぞれ以下のデータで事前訓練 • Europarl corpus • 2,000,000 sentences • EN-DE • News Commentary • 2,000,000 sentences • EN-FR • 提案⼿法:BI-RNN (Document level) 14