Neural Grammatical Error Correction Systems with Unsupervised Pre-training on Synthetic Data

Neural Grammatical Error Correction Systems with Unsupervised Pre-training on Synthetic
Data Roman Grundkiewicz and Marcin Junczys-Dowmunt and Kenneth Heafield Proceedings of the Fourteenth Workshop on Innovative Use of NLP for Building Educational Applications, pages 252–263, 2019 長岡技術科学大学自然言語処理研究室小川耀一朗文献紹介（2019-08-05） 1

Introduction 2 [1] Approaching Neural Grammatical Error Correction as a
Low-Resource Machine Translation Task より引用機械翻訳タスクと比べると学習者アノテーションコーパスの量はまだまだ少ない教師なしの擬似誤り生成手法を提案

Confusion sets 3 Confusion set (同じ品詞の単語や似ている単語の集合) を擬似誤り生成に使用する全単語をそれぞれ Aspell
spellchecker に入力し，出力リストの上位20件をその単語の confusion set として保持する

擬似誤り文生成の手順 1. 入力文の中からの確率で単語を選択 ( :平均0.15, 標準偏差0.2の正規分布) 2. 選ばれた各単語に対して，4つの操作のうち1つを実行する 4
Synthetic data generation 置換(70%) confusion set からランダムに単語を選んで置換する削除(10%) 削除する挿入(10%) 次の位置にランダムに選んだ単語を挿入する入れ替え(10%) 次の単語と位置を入れ替える

3. 更に入力文の単語の10%に対して，2と同様の置換，削除，挿入，入れ替え操作を文字レベルで行う News Crawlコーパスから擬似誤り文を2M文生成して実験に使用 5 Synthetic data generation

擬似データでモデルを事前学習し，2つのfine-tuningの方法を実験した re-training ➔ 事前学習したモデルの重みを初期値として，学習率，最適化パラメータをリセットして新しいデータを学習する fine-tuning ➔ モデルの重み，学習率，最適化パラメータを保持して新しいデータを訓練する 6
Model pre-training and fine-tuning

• 文頭→文末の方向で学習したモデル (Right-to-left Model) を用意する • スタンダードな Left-to-right Model の
n-best list をリランキングする -------- -------- -------- -------- Right-to-left re-ranking 7 Left-to-right Model -------- -------- -------- -------- Right-to-left Model output re-ranking n-best list

Datasets 8 BEA19 shared taskでの Low resource track ではアノテーションコーパスが使用不可
WikiEd を使用 • Wikipediaの編集履歴をまとめたコーパス • ノイズが多いため，以下の2つのスコアの平均でソートして上位2Mペアを使用した ◦ word 5-gram LM ◦ 操作タグの5-gram LM - “I think that the public transport will always be in the future .” - “I think that public transport will always exist in the future .” “<del> the <sub> be <to> exist”

Results 9

Results 10

• とてもシンプルな教師なしの擬似誤り生成手法を提案 • 以下の手法を組み合わせることでベストスコア ◦ 擬似誤りデータでpre-training → fine-tuning ◦ TransformerとTransformer-based
LMのアンサンブル ◦ Right-to-left Modelでリランキング • BEA19 shared taskのRestricted track, Low-resource trackにて1位を獲得 • CoNLL 2014 test setでもstate-of-the-artを達成 Conclusion 11

Results 13 ← 1回目の出力を入力して 2回目の出力を得る ← Right-to-left Modelで再訂正 ← 普通の出力
← Right-to-left Modelでリランキング

Results 14 • 学習者レベルが高くなるとスコアが下がる (A→B→C) • 面白いことに，N (native data) では
Restricted systemとLow-resource systemのスコアが同じになった．要調査

Results 15 ← non-publicのコーパスを使用した結果 ← non-publicのコーパスを使用しない結果

Neural Grammatical Error Correction Systems wit...

Neural Grammatical Error Correction Systems with Unsupervised Pre-training on Synthetic Data

youichiro

More Decks by youichiro

Other Decks in Research

Featured

Transcript