Upgrade to Pro — share decks privately, control downloads, hide ads and more …

A Neural Grammatical Error Correction System Built On Better Pre-training and Sequential Transfer Learning

youichiro
October 20, 2019

A Neural Grammatical Error Correction System Built On Better Pre-training and Sequential Transfer Learning

長岡技術科学大学
自然言語処理研究室
文献紹介(2019-10-21)
A Neural Grammatical Error Correction System Built On Better Pre-training and Sequential Transfer Learning
https://www.aclweb.org/anthology/W19-4423.pdf

youichiro

October 20, 2019
Tweet

More Decks by youichiro

Other Decks in Research

Transcript

  1. 長岡技術科学大学 自然言語処理研究室 小川耀一朗
    文献紹介(2019-10-21)
    A Neural Grammatical Error Correction
    System Built On Better Pre-training and
    Sequential Transfer Learning

    View full-size slide

  2. Previous Work
    3
    Replace
    Delete
    Insert
    Shuffe
    clean sentence
    noisy sentence
    10%
    10%
    10%
    normal
    distribution
    Copy Mechanism Denoising Auto-encoder

    View full-size slide

  3. Previous Work
    4
    Replace
    Delete
    Insert
    Shuffe
    clean sentence
    noisy sentence
    10%
    10%
    10%
    normal
    distribution
    Copy Mechanism Denoising Auto-encoder
    Randomではなく Realisticに誤り生成

    View full-size slide

  4. 5
    Motivation
    先行研究の手法では
    ● replace/delete/insert/shuffle をランダムに実行してノイズ生成
    ● replaceで置換される単語は語彙の中からランダムに選択される
    しかし
    ● word orderエラーは他のエラーに比べて少ない
    ● 置換する単語を語彙の中からランダムに選択するのは現実的ではない
    提案手法では
    ● shuffle は行わない
    ● 置換候補を事前に用意しておき、その中から
    1つ選択して置換する

    View full-size slide

  5. 6
    Realistic Noising Method
    token-based type-based
    token token*

    View full-size slide

  6. 7
    Realistic Noising Method
    token-based type-based
    Prepare
    ● GECコーパスから[訂正前→訂正後]の編集ペアを収集 (EditDict)
    ● ex) [of → at], [has → have]
    Generate
    ● EditDictを逆利用することで、正しいトークンを誤りに置換する
    ● 入力トークンがEditDictに含まれていたら
    ○ 90%の確率で置換する
    ○ 候補の中から出現確率に従って
    1つ選択して置換する
    token token*

    View full-size slide

  7. 8
    Realistic Noising Method
    token-based type-based
    Prepare
    ● preposition, noun, verb で同じ品詞のセットを作っておく
    Generate
    ● token-basedで置換されなかったトークンに対して、品詞に応じて以下を実行
    ○ preposition → 他の前置詞に置換
    ○ noun → 単数形/複数形を変化
    ○ verb → 活用を変化 (候補の中からランダムに選択 )
    token token*

    View full-size slide

  8. 9
    Realistic Noising Method
    3つのタグなし学習者コーパスを擬似誤り生成のシードコーパスとして使用
    ● Gutenberg
    ○ エラーの少ないcleanなコーパス
    ● Tatoeba
    ○ 口語で、辞書的な説明文
    ● WikiText-103
    ○ Wikipedia記事
    Gutenberg × 1 times + Tatoeba × 12 times + WikiText-103 × 5 times
    = 45M を擬似誤りデータとして使用

    View full-size slide

  9. 10
    Models
    ● large (実験ではこのモデルを使用)
    ○ vanilla Transformer
    ○ 6 blocks
    ○ 1024-4096 units
    ○ 16 attention heads
    ○ pre-attention layer normalization
    ● base
    ○ vanilla Transformer
    ○ 6 blocks
    ○ 512-2048 units
    ○ 8 attention heads
    ● copy
    ○ copy-augmented Transformer (Zhao et al,. 2019)
    ○ 6 blocks
    ○ 512-4096 units
    ○ 8 attention heads

    View full-size slide

  10. 11
    Training
    ● Pre-training(DAE)
    ○ 擬似誤りデータ(45M)でモデルをpre-train
    ● Training
    ○ 学習者コーパスをtrain
    ● Fine-tuning
    ○ テストセットにドメインが近い訓練コーパスで fine-tuning(もう一回train)する
    ○ Domain-adaptation

    View full-size slide

  11. 12
    Datasets
    BEA Workshop 2019のRestricted Track, Low-resource Track 及び CoNLL-2014の3つの実験で使
    用したコーパス

    View full-size slide

  12. 13
    Results (Restricted)
    Table 3: BEA Workshop Restricted Track results.
    ● Pre-trainの時点で高いスコア(54.82) → realistic noisingの効果か
    ● base, large × 2, copy × 2 の5つでアンサンブル
    ● BEA Workshop 2019 では2位

    View full-size slide

  13. 14
    Results (CoNLL2014)
    ● state-of-the-artなスコアに匹敵
    ● 本家のcopy-augmented Transformerには届かず
    ○ 理由に言及なし

    View full-size slide

  14. 15
    ● realisticの方がスコアは高い
    ● ギャップは減少していく
    Comparison of noising methods

    View full-size slide

  15. 16
    ● 先行研究(copy-aug.)の擬似誤り生成手法を random ではなく realistic に変更して
    検証
    ● BEA Workshop 2019 ではRestricted Trackで2位、Low-resource Trackで2位
    Conclusion

    View full-size slide

  16. 18
    Result on Error Types
    ← This work
    ↓ Previous work

    View full-size slide