Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Neural Grammatical Error Correction Systems with Unsupervised Pre-training on Synthetic Data

youichiro
August 04, 2019

Neural Grammatical Error Correction Systems with Unsupervised Pre-training on Synthetic Data

長岡技術科学大学
自然言語処理研究室
文献紹介(2019-08-05)
Neural Grammatical Error Correction Systems with Unsupervised Pre-training on Synthetic Data
https://www.aclweb.org/anthology/W19-4427

youichiro

August 04, 2019
Tweet

More Decks by youichiro

Other Decks in Research

Transcript

  1. Neural Grammatical Error Correction Systems with Unsupervised Pre-training on Synthetic

    Data Roman Grundkiewicz and Marcin Junczys-Dowmunt and Kenneth Heafield Proceedings of the Fourteenth Workshop on Innovative Use of NLP for Building Educational Applications, pages 252–263, 2019 長岡技術科学大学 自然言語処理研究室 小川耀一朗 文献紹介(2019-08-05) 1
  2. Introduction 2 [1] Approaching Neural Grammatical Error Correction as a

    Low-Resource Machine Translation Task より引用 機械翻訳タスクと比べると学習者アノテーショ ンコーパスの量はまだまだ少ない 教師なしの擬似誤り生成手法を提案
  3. Confusion sets 3 Confusion set (同じ品詞の単語や似ている 単語の集合) を擬似誤り生成に使用する 全単語をそれぞれ Aspell

    spellchecker に入 力し,出力リストの上位20件をその単語の confusion set として保持する
  4. 擬似誤り文生成の手順 1. 入力文の中から の確率で単語を選択 ( :平均0.15, 標準偏差0.2の正規分布) 2. 選ばれた各単語に対して,4つの操作のうち1つを実行する 4

    Synthetic data generation 置換(70%) confusion set からランダムに単語を選んで置換する 削除(10%) 削除する 挿入(10%) 次の位置にランダムに選んだ単語を挿入する 入れ替え(10%) 次の単語と位置を入れ替える
  5. • 文頭→文末の方向で学習したモデル (Right-to-left Model) を用意する • スタンダードな Left-to-right Model の

    n-best list をリランキングする -------- -------- -------- -------- Right-to-left re-ranking 7 Left-to-right Model -------- -------- -------- -------- Right-to-left Model output re-ranking n-best list
  6. Datasets 8 BEA19 shared taskでの Low resource track では アノテーションコーパスが使用不可

    WikiEd を使用 • Wikipediaの編集履歴をまとめたコーパス • ノイズが多いため,以下の2つのスコアの平均で ソートして上位2Mペアを使用した ◦ word 5-gram LM ◦ 操作タグの5-gram LM - “I think that the public transport will always be in the future .” - “I think that public transport will always exist in the future .” “<del> the <sub> be <to> exist”
  7. • とてもシンプルな教師なしの擬似誤り生成手法を提案 • 以下の手法を組み合わせることでベストスコア ◦ 擬似誤りデータでpre-training → fine-tuning ◦ TransformerとTransformer-based

    LMのアンサンブル ◦ Right-to-left Modelでリランキング • BEA19 shared taskのRestricted track, Low-resource trackにて1位を獲得 • CoNLL 2014 test setでもstate-of-the-artを達成 Conclusion 11
  8. 12

  9. Results 14 • 学習者レベルが高くなるとスコアが下がる (A→B→C) • 面白いことに,N (native data) では

    Restricted systemとLow-resource systemの スコアが同じになった.要調査