Upgrade to Pro — share decks privately, control downloads, hide ads and more …

An Empirical Study of Incorporating Pseudo Data into Grammatical Error Correction

youichiro
September 30, 2019

An Empirical Study of Incorporating Pseudo Data into Grammatical Error Correction

長岡技術科学大学
自然言語処理研究室
文献紹介(2019-09-30)
An Empirical Study of Incorporating Pseudo Data into Grammatical Error Correction
https://arxiv.org/pdf/1909.00502.pdf

youichiro

September 30, 2019
Tweet

More Decks by youichiro

Other Decks in Research

Transcript

  1. An Empirical Study of Incorporating Pseudo
    Data into Grammatical Error Correction
    1
    長岡技術科学大学 自然言語処理研究室 小川耀一朗
    文献紹介(2019-09-30)

    View Slide

  2. Paper
    2
    arXiv:1909.00502 (Accepted by EMNLP 2019)

    View Slide

  3. Introduction
    3
    ● GECは学習者コーパスが少ないため
    擬似誤り生成による訓練データの拡張
    が有効
    である
    ● 擬似誤り生成手法に関する最適な条件などの調査がされていない
    ● 擬似誤り生成手法の調査のため,以下の実験を行う
    ○ 擬似誤り生成手法の比較
    ○ シードコーパス(擬似誤り生成の元とするコーパス
    )の選択
    ○ 擬似誤りデータの訓練方法の比較

    View Slide

  4. Model:
    ● Transformer-Big, BPE (8,000 subsets)
    Dataset:
    Dataset and Model
    4

    View Slide

  5. Methods
    5
    BACKTRANS DIRECT NOISE
    clean sentence
    noisy sentence
    Masking
    Deletion
    Insertion
    Keeping
    擬似誤りを生成する2つの手法を検証
    μ
    mask
    μ
    del
    μ
    ins
    μ
    keep

    View Slide

  6. ● BACKTRANS(SAMPLE): デコード時にノイズを付与しない
    ● BACKTRANS(NOISY): デコード時にノイズを付与する
    ● DIRECT NOISE: (μ
    mask
    , μ
    del
    , μ
    ins
    , μ
    keep
    ) = (0.5, 0.15, 0.15, 0.2)
    ● 訓練データと擬似誤りデータを足し合わせて訓練 (JOINT)
    Comparison of Generation Methods
    6

    View Slide

  7. Comparison of Seed Corpora
    7
    ● シードコーパスとして [ Wikipedia, SimpleWikipedia, Gigaword ] を比較
    ○ WikipediaはGECのドメインとは離れている
    ○ Gigawordはノイズが少ないらしい
    ● サイズは1.4Mに統一
    コーパスの違いによる F0.5の変化は小さい

    View Slide

  8. JOINT
    Joint Training vs Pre-training
    8
    PRETRAIN
    learner
    data
    pseudo data
    learner
    data
    pseudo data
    Pre-training
    Training
    Fine-tuning
    擬似誤りデータを訓練するための 2つのパターンを検証

    View Slide

  9. Joint Training vs Pre-training
    9
    PRETRAIN > JOINT
    擬似データサイズを 1.4Mから14Mに増やすことで,
    PRETRAINはスコアが上がるが JOINTは変化小
    PRETRAINだとBACKTRANS > DIRECT NOISE と逆転する

    View Slide

  10. Amount of Pseudo Data
    擬似誤りデータを{ 1.4M, 7M, 14M, 30M, 70M }と変化させる
    DIRECT NOISEは頭打ちするが,BACKTRANSはスコアが伸びていく
    10

    View Slide

  11. Comparison with Top Models
    11
    PRET LARGE: Gigaword 70Mの擬似データをPRETRAIN
    Synthetic Spelling Error(SSE): 文字レベルの擬似誤り生成手法
    Right-to-left Re-ranking(R2L): 順方向NMT×4のアンサンブル→逆方向NMT×4のリランキング
    Sentence-level Error Detection(SED): 入力文が誤りを含む /含まないの分類を素性に加える

    View Slide

  12. Conclusion
    12
    擬似誤り生成手法の調査のため,以下の実験を行った
    ● 擬似誤り生成手法の比較
    ● シードコーパス(擬似誤り生成の元とするコーパス )の選択
    ● 擬似誤りデータの訓練方法の比較
    以下の性能向上のための知見を明らかにした
    ● Gigawordをシードコーパスとして使用すること
    ● BACKTRANSで得た擬似データでモデルを pre-trainingすること
    モデル(Transformer-Big)を変更することなくSoTAを達成した

    View Slide

  13. 13

    View Slide

  14. References
    14
    ● BACKTRANS(NOISE)
    ○ Noising and Denoising Natural Language: Diverse Backtranslation for Grammar Correction
    (2018)
    ● BACKTRANS(SAMPLE)
    ○ Understanding Back-Translation at Scale (2018)
    ● DIRECT NOISE
    ○ Improving Grammatical Error Correction via Pre-Training a Copy-Augmented Architecture with
    Unlabeled Data (2019)
    ● Synthetic Spelling Error(SSE)
    ○ Corpora Generation for Grammatical Error Correction (2019)
    ● Right-to-left Re-ranking(R2L)
    ○ Neural grammatical error correction systems with unsupervised pre-training on synthetic data
    (2019)
    ● Sentence-level Error Detection(SED)
    ○ The AIP-Tohoku System at the BEA-2019 Shared Task (2019)

    View Slide

  15. Hyper-parameters
    15

    View Slide

  16. Mask Probability of DIRECT NOISE
    16

    View Slide

  17. Examples of Noisy Sentences
    17

    View Slide