An Empirical Study of Incorporating Pseudo Data into Grammatical Error Correction

66cc992074ab4522374e429c11fef225?s=47 youichiro
September 30, 2019

An Empirical Study of Incorporating Pseudo Data into Grammatical Error Correction

長岡技術科学大学
自然言語処理研究室
文献紹介(2019-09-30)
An Empirical Study of Incorporating Pseudo Data into Grammatical Error Correction
https://arxiv.org/pdf/1909.00502.pdf

66cc992074ab4522374e429c11fef225?s=128

youichiro

September 30, 2019
Tweet

Transcript

  1. An Empirical Study of Incorporating Pseudo Data into Grammatical Error

    Correction 1 長岡技術科学大学 自然言語処理研究室 小川耀一朗 文献紹介(2019-09-30)
  2. Paper 2 arXiv:1909.00502 (Accepted by EMNLP 2019)

  3. Introduction 3 • GECは学習者コーパスが少ないため 擬似誤り生成による訓練データの拡張 が有効 である • 擬似誤り生成手法に関する最適な条件などの調査がされていない •

    擬似誤り生成手法の調査のため,以下の実験を行う ◦ 擬似誤り生成手法の比較 ◦ シードコーパス(擬似誤り生成の元とするコーパス )の選択 ◦ 擬似誤りデータの訓練方法の比較
  4. Model: • Transformer-Big, BPE (8,000 subsets) Dataset: Dataset and Model

    4
  5. Methods 5 BACKTRANS DIRECT NOISE clean sentence noisy sentence Masking

    Deletion Insertion Keeping 擬似誤りを生成する2つの手法を検証 μ mask μ del μ ins μ keep
  6. • BACKTRANS(SAMPLE): デコード時にノイズを付与しない • BACKTRANS(NOISY): デコード時にノイズを付与する • DIRECT NOISE: (μ

    mask , μ del , μ ins , μ keep ) = (0.5, 0.15, 0.15, 0.2) • 訓練データと擬似誤りデータを足し合わせて訓練 (JOINT) Comparison of Generation Methods 6
  7. Comparison of Seed Corpora 7 • シードコーパスとして [ Wikipedia, SimpleWikipedia,

    Gigaword ] を比較 ◦ WikipediaはGECのドメインとは離れている ◦ Gigawordはノイズが少ないらしい • サイズは1.4Mに統一 コーパスの違いによる F0.5の変化は小さい
  8. JOINT Joint Training vs Pre-training 8 PRETRAIN learner data pseudo

    data learner data pseudo data Pre-training Training Fine-tuning 擬似誤りデータを訓練するための 2つのパターンを検証
  9. Joint Training vs Pre-training 9 PRETRAIN > JOINT 擬似データサイズを 1.4Mから14Mに増やすことで,

    PRETRAINはスコアが上がるが JOINTは変化小 PRETRAINだとBACKTRANS > DIRECT NOISE と逆転する
  10. Amount of Pseudo Data 擬似誤りデータを{ 1.4M, 7M, 14M, 30M, 70M

    }と変化させる DIRECT NOISEは頭打ちするが,BACKTRANSはスコアが伸びていく 10
  11. Comparison with Top Models 11 PRET LARGE: Gigaword 70Mの擬似データをPRETRAIN Synthetic

    Spelling Error(SSE): 文字レベルの擬似誤り生成手法 Right-to-left Re-ranking(R2L): 順方向NMT×4のアンサンブル→逆方向NMT×4のリランキング Sentence-level Error Detection(SED): 入力文が誤りを含む /含まないの分類を素性に加える
  12. Conclusion 12 擬似誤り生成手法の調査のため,以下の実験を行った • 擬似誤り生成手法の比較 • シードコーパス(擬似誤り生成の元とするコーパス )の選択 • 擬似誤りデータの訓練方法の比較

    以下の性能向上のための知見を明らかにした • Gigawordをシードコーパスとして使用すること • BACKTRANSで得た擬似データでモデルを pre-trainingすること モデル(Transformer-Big)を変更することなくSoTAを達成した
  13. 13

  14. References 14 • BACKTRANS(NOISE) ◦ Noising and Denoising Natural Language:

    Diverse Backtranslation for Grammar Correction (2018) • BACKTRANS(SAMPLE) ◦ Understanding Back-Translation at Scale (2018) • DIRECT NOISE ◦ Improving Grammatical Error Correction via Pre-Training a Copy-Augmented Architecture with Unlabeled Data (2019) • Synthetic Spelling Error(SSE) ◦ Corpora Generation for Grammatical Error Correction (2019) • Right-to-left Re-ranking(R2L) ◦ Neural grammatical error correction systems with unsupervised pre-training on synthetic data (2019) • Sentence-level Error Detection(SED) ◦ The AIP-Tohoku System at the BEA-2019 Shared Task (2019)
  15. Hyper-parameters 15

  16. Mask Probability of DIRECT NOISE 16

  17. Examples of Noisy Sentences 17