Upgrade to Pro — share decks privately, control downloads, hide ads and more …

An Empirical Study of Incorporating Pseudo Data...

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for youichiro youichiro
September 30, 2019

An Empirical Study of Incorporating Pseudo Data into Grammatical Error Correction

長岡技術科学大学
自然言語処理研究室
文献紹介(2019-09-30)
An Empirical Study of Incorporating Pseudo Data into Grammatical Error Correction
https://arxiv.org/pdf/1909.00502.pdf

Avatar for youichiro

youichiro

September 30, 2019
Tweet

More Decks by youichiro

Other Decks in Research

Transcript

  1. An Empirical Study of Incorporating Pseudo Data into Grammatical Error

    Correction 1 長岡技術科学大学 自然言語処理研究室 小川耀一朗 文献紹介(2019-09-30)
  2. Introduction 3 • GECは学習者コーパスが少ないため 擬似誤り生成による訓練データの拡張 が有効 である • 擬似誤り生成手法に関する最適な条件などの調査がされていない •

    擬似誤り生成手法の調査のため,以下の実験を行う ◦ 擬似誤り生成手法の比較 ◦ シードコーパス(擬似誤り生成の元とするコーパス )の選択 ◦ 擬似誤りデータの訓練方法の比較
  3. Methods 5 BACKTRANS DIRECT NOISE clean sentence noisy sentence Masking

    Deletion Insertion Keeping 擬似誤りを生成する2つの手法を検証 μ mask μ del μ ins μ keep
  4. • BACKTRANS(SAMPLE): デコード時にノイズを付与しない • BACKTRANS(NOISY): デコード時にノイズを付与する • DIRECT NOISE: (μ

    mask , μ del , μ ins , μ keep ) = (0.5, 0.15, 0.15, 0.2) • 訓練データと擬似誤りデータを足し合わせて訓練 (JOINT) Comparison of Generation Methods 6
  5. Comparison of Seed Corpora 7 • シードコーパスとして [ Wikipedia, SimpleWikipedia,

    Gigaword ] を比較 ◦ WikipediaはGECのドメインとは離れている ◦ Gigawordはノイズが少ないらしい • サイズは1.4Mに統一 コーパスの違いによる F0.5の変化は小さい
  6. JOINT Joint Training vs Pre-training 8 PRETRAIN learner data pseudo

    data learner data pseudo data Pre-training Training Fine-tuning 擬似誤りデータを訓練するための 2つのパターンを検証
  7. Joint Training vs Pre-training 9 PRETRAIN > JOINT 擬似データサイズを 1.4Mから14Mに増やすことで,

    PRETRAINはスコアが上がるが JOINTは変化小 PRETRAINだとBACKTRANS > DIRECT NOISE と逆転する
  8. Amount of Pseudo Data 擬似誤りデータを{ 1.4M, 7M, 14M, 30M, 70M

    }と変化させる DIRECT NOISEは頭打ちするが,BACKTRANSはスコアが伸びていく 10
  9. Comparison with Top Models 11 PRET LARGE: Gigaword 70Mの擬似データをPRETRAIN Synthetic

    Spelling Error(SSE): 文字レベルの擬似誤り生成手法 Right-to-left Re-ranking(R2L): 順方向NMT×4のアンサンブル→逆方向NMT×4のリランキング Sentence-level Error Detection(SED): 入力文が誤りを含む /含まないの分類を素性に加える
  10. Conclusion 12 擬似誤り生成手法の調査のため,以下の実験を行った • 擬似誤り生成手法の比較 • シードコーパス(擬似誤り生成の元とするコーパス )の選択 • 擬似誤りデータの訓練方法の比較

    以下の性能向上のための知見を明らかにした • Gigawordをシードコーパスとして使用すること • BACKTRANSで得た擬似データでモデルを pre-trainingすること モデル(Transformer-Big)を変更することなくSoTAを達成した
  11. 13

  12. References 14 • BACKTRANS(NOISE) ◦ Noising and Denoising Natural Language:

    Diverse Backtranslation for Grammar Correction (2018) • BACKTRANS(SAMPLE) ◦ Understanding Back-Translation at Scale (2018) • DIRECT NOISE ◦ Improving Grammatical Error Correction via Pre-Training a Copy-Augmented Architecture with Unlabeled Data (2019) • Synthetic Spelling Error(SSE) ◦ Corpora Generation for Grammatical Error Correction (2019) • Right-to-left Re-ranking(R2L) ◦ Neural grammatical error correction systems with unsupervised pre-training on synthetic data (2019) • Sentence-level Error Detection(SED) ◦ The AIP-Tohoku System at the BEA-2019 Shared Task (2019)