An Empirical Study of Incorporating Pseudo Data into Grammatical Error Correction

An Empirical Study of Incorporating Pseudo Data into Grammatical Error
Correction 1 長岡技術科学大学自然言語処理研究室小川耀一朗文献紹介（2019-09-30）

Paper 2 arXiv:1909.00502 (Accepted by EMNLP 2019)

Introduction 3 • GECは学習者コーパスが少ないため擬似誤り生成による訓練データの拡張が有効である • 擬似誤り生成手法に関する最適な条件などの調査がされていない •
擬似誤り生成手法の調査のため，以下の実験を行う ◦ 擬似誤り生成手法の比較 ◦ シードコーパス(擬似誤り生成の元とするコーパス )の選択 ◦ 擬似誤りデータの訓練方法の比較

Model: • Transformer-Big, BPE (8,000 subsets) Dataset: Dataset and Model
4

Methods 5 BACKTRANS DIRECT NOISE clean sentence noisy sentence Masking
Deletion Insertion Keeping 擬似誤りを生成する2つの手法を検証 μ mask μ del μ ins μ keep

• BACKTRANS(SAMPLE): デコード時にノイズを付与しない • BACKTRANS(NOISY): デコード時にノイズを付与する • DIRECT NOISE: (μ
mask , μ del , μ ins , μ keep ) = (0.5, 0.15, 0.15, 0.2) • 訓練データと擬似誤りデータを足し合わせて訓練 (JOINT) Comparison of Generation Methods 6

Comparison of Seed Corpora 7 • シードコーパスとして [ Wikipedia, SimpleWikipedia,
Gigaword ] を比較 ◦ WikipediaはGECのドメインとは離れている ◦ Gigawordはノイズが少ないらしい • サイズは1.4Mに統一コーパスの違いによる F0.5の変化は小さい

JOINT Joint Training vs Pre-training 8 PRETRAIN learner data pseudo
data learner data pseudo data Pre-training Training Fine-tuning 擬似誤りデータを訓練するための 2つのパターンを検証

Joint Training vs Pre-training 9 PRETRAIN > JOINT 擬似データサイズを 1.4Mから14Mに増やすことで，
PRETRAINはスコアが上がるが JOINTは変化小 PRETRAINだとBACKTRANS > DIRECT NOISE と逆転する

Amount of Pseudo Data 擬似誤りデータを{ 1.4M, 7M, 14M, 30M, 70M
}と変化させる DIRECT NOISEは頭打ちするが，BACKTRANSはスコアが伸びていく 10

Comparison with Top Models 11 PRET LARGE: Gigaword 70Mの擬似データをPRETRAIN Synthetic
Spelling Error(SSE): 文字レベルの擬似誤り生成手法 Right-to-left Re-ranking(R2L): 順方向NMT×4のアンサンブル→逆方向NMT×4のリランキング Sentence-level Error Detection(SED): 入力文が誤りを含む /含まないの分類を素性に加える

Conclusion 12 擬似誤り生成手法の調査のため，以下の実験を行った • 擬似誤り生成手法の比較 • シードコーパス(擬似誤り生成の元とするコーパス )の選択 • 擬似誤りデータの訓練方法の比較
以下の性能向上のための知見を明らかにした • Gigawordをシードコーパスとして使用すること • BACKTRANSで得た擬似データでモデルを pre-trainingすることモデル(Transformer-Big)を変更することなくSoTAを達成した

References 14 • BACKTRANS(NOISE) ◦ Noising and Denoising Natural Language:
Diverse Backtranslation for Grammar Correction (2018) • BACKTRANS(SAMPLE) ◦ Understanding Back-Translation at Scale (2018) • DIRECT NOISE ◦ Improving Grammatical Error Correction via Pre-Training a Copy-Augmented Architecture with Unlabeled Data (2019) • Synthetic Spelling Error(SSE) ◦ Corpora Generation for Grammatical Error Correction (2019) • Right-to-left Re-ranking(R2L) ◦ Neural grammatical error correction systems with unsupervised pre-training on synthetic data (2019) • Sentence-level Error Detection(SED) ◦ The AIP-Tohoku System at the BEA-2019 Shared Task (2019)

Hyper-parameters 15

Mask Probability of DIRECT NOISE 16

Examples of Noisy Sentences 17

An Empirical Study of Incorporating Pseudo Data...

An Empirical Study of Incorporating Pseudo Data into Grammatical Error Correction

youichiro

More Decks by youichiro

Other Decks in Research

Featured

Transcript