A Neural Grammatical Error Correction System Built On Better Pre-training and Sequential Transfer Learning

66cc992074ab4522374e429c11fef225?s=47 youichiro
October 20, 2019

A Neural Grammatical Error Correction System Built On Better Pre-training and Sequential Transfer Learning

長岡技術科学大学
自然言語処理研究室
文献紹介(2019-10-21)
A Neural Grammatical Error Correction System Built On Better Pre-training and Sequential Transfer Learning
https://www.aclweb.org/anthology/W19-4423.pdf

66cc992074ab4522374e429c11fef225?s=128

youichiro

October 20, 2019
Tweet

Transcript

  1. 長岡技術科学大学 自然言語処理研究室 小川耀一朗 文献紹介(2019-10-21) A Neural Grammatical Error Correction System

    Built On Better Pre-training and Sequential Transfer Learning
  2. Paper 2

  3. Previous Work 3 Replace Delete Insert Shuffe clean sentence noisy

    sentence 10% 10% 10% normal distribution Copy Mechanism Denoising Auto-encoder
  4. Previous Work 4 Replace Delete Insert Shuffe clean sentence noisy

    sentence 10% 10% 10% normal distribution Copy Mechanism Denoising Auto-encoder Randomではなく Realisticに誤り生成
  5. 5 Motivation 先行研究の手法では • replace/delete/insert/shuffle をランダムに実行してノイズ生成 • replaceで置換される単語は語彙の中からランダムに選択される しかし •

    word orderエラーは他のエラーに比べて少ない • 置換する単語を語彙の中からランダムに選択するのは現実的ではない 提案手法では • shuffle は行わない • 置換候補を事前に用意しておき、その中から 1つ選択して置換する
  6. 6 Realistic Noising Method token-based type-based token token*

  7. 7 Realistic Noising Method token-based type-based Prepare • GECコーパスから[訂正前→訂正後]の編集ペアを収集 (EditDict)

    • ex) [of → at], [has → have] Generate • EditDictを逆利用することで、正しいトークンを誤りに置換する • 入力トークンがEditDictに含まれていたら ◦ 90%の確率で置換する ◦ 候補の中から出現確率に従って 1つ選択して置換する token token*
  8. 8 Realistic Noising Method token-based type-based Prepare • preposition, noun,

    verb で同じ品詞のセットを作っておく Generate • token-basedで置換されなかったトークンに対して、品詞に応じて以下を実行 ◦ preposition → 他の前置詞に置換 ◦ noun → 単数形/複数形を変化 ◦ verb → 活用を変化 (候補の中からランダムに選択 ) token token*
  9. 9 Realistic Noising Method 3つのタグなし学習者コーパスを擬似誤り生成のシードコーパスとして使用 • Gutenberg ◦ エラーの少ないcleanなコーパス •

    Tatoeba ◦ 口語で、辞書的な説明文 • WikiText-103 ◦ Wikipedia記事 Gutenberg × 1 times + Tatoeba × 12 times + WikiText-103 × 5 times = 45M を擬似誤りデータとして使用
  10. 10 Models • large (実験ではこのモデルを使用) ◦ vanilla Transformer ◦ 6

    blocks ◦ 1024-4096 units ◦ 16 attention heads ◦ pre-attention layer normalization • base ◦ vanilla Transformer ◦ 6 blocks ◦ 512-2048 units ◦ 8 attention heads • copy ◦ copy-augmented Transformer (Zhao et al,. 2019) ◦ 6 blocks ◦ 512-4096 units ◦ 8 attention heads
  11. 11 Training • Pre-training(DAE) ◦ 擬似誤りデータ(45M)でモデルをpre-train • Training ◦ 学習者コーパスをtrain

    • Fine-tuning ◦ テストセットにドメインが近い訓練コーパスで fine-tuning(もう一回train)する ◦ Domain-adaptation
  12. 12 Datasets BEA Workshop 2019のRestricted Track, Low-resource Track 及び CoNLL-2014の3つの実験で使

    用したコーパス
  13. 13 Results (Restricted) Table 3: BEA Workshop Restricted Track results.

    • Pre-trainの時点で高いスコア(54.82) → realistic noisingの効果か • base, large × 2, copy × 2 の5つでアンサンブル • BEA Workshop 2019 では2位
  14. 14 Results (CoNLL2014) • state-of-the-artなスコアに匹敵 • 本家のcopy-augmented Transformerには届かず ◦ 理由に言及なし

  15. 15 • realisticの方がスコアは高い • ギャップは減少していく Comparison of noising methods

  16. 16 • 先行研究(copy-aug.)の擬似誤り生成手法を random ではなく realistic に変更して 検証 • BEA

    Workshop 2019 ではRestricted Trackで2位、Low-resource Trackで2位 Conclusion
  17. 17

  18. 18 Result on Error Types ← This work ↓ Previous

    work
  19. 19