Neural Grammatical Error Correction Systems with Unsupervised Pre-training on Synthetic Data

Slide 1

Slide 1 text

Neural Grammatical Error Correction Systems with Unsupervised Pre-training on Synthetic Data Roman Grundkiewicz and Marcin Junczys-Dowmunt and Kenneth Heafield Proceedings of the Fourteenth Workshop on Innovative Use of NLP for Building Educational Applications, pages 252–263, 2019 長岡技術科学大学自然言語処理研究室小川耀一朗文献紹介（2019-08-05） 1

Slide 2

Slide 2 text

Introduction 2 [1] Approaching Neural Grammatical Error Correction as a Low-Resource Machine Translation Task より引用機械翻訳タスクと比べると学習者アノテーションコーパスの量はまだまだ少ない教師なしの擬似誤り生成手法を提案

Slide 3

Slide 3 text

Confusion sets 3 Confusion set (同じ品詞の単語や似ている単語の集合) を擬似誤り生成に使用する全単語をそれぞれ Aspell spellchecker に入力し，出力リストの上位20件をその単語の confusion set として保持する

Slide 4

Slide 4 text

擬似誤り文生成の手順 1. 入力文の中からの確率で単語を選択 ( :平均0.15, 標準偏差0.2の正規分布) 2. 選ばれた各単語に対して，4つの操作のうち1つを実行する 4 Synthetic data generation 置換(70%) confusion set からランダムに単語を選んで置換する削除(10%) 削除する挿入(10%) 次の位置にランダムに選んだ単語を挿入する入れ替え(10%) 次の単語と位置を入れ替える

Slide 5

Slide 5 text

3. 更に入力文の単語の10%に対して，2と同様の置換，削除，挿入，入れ替え操作を文字レベルで行う News Crawlコーパスから擬似誤り文を2M文生成して実験に使用 5 Synthetic data generation

Slide 6

Slide 6 text

擬似データでモデルを事前学習し，2つのfine-tuningの方法を実験した re-training ➔ 事前学習したモデルの重みを初期値として，学習率，最適化パラメータをリセットして新しいデータを学習する fine-tuning ➔ モデルの重み，学習率，最適化パラメータを保持して新しいデータを訓練する 6 Model pre-training and fine-tuning

Slide 7

Slide 7 text

● 文頭→文末の方向で学習したモデル (Right-to-left Model) を用意する ● スタンダードな Left-to-right Model の n-best list をリランキングする -------- -------- -------- -------- Right-to-left re-ranking 7 Left-to-right Model -------- -------- -------- -------- Right-to-left Model output re-ranking n-best list

Slide 8

Slide 8 text

Datasets 8 BEA19 shared taskでの Low resource track ではアノテーションコーパスが使用不可 WikiEd を使用 ● Wikipediaの編集履歴をまとめたコーパス ● ノイズが多いため，以下の2つのスコアの平均でソートして上位2Mペアを使用した ○ word 5-gram LM ○ 操作タグの5-gram LM - “I think that the public transport will always be in the future .” - “I think that public transport will always exist in the future .” “ ~~the _{be exist”}~~

Slide 9

Slide 9 text

Results 9

Slide 10

Slide 10 text

Results 10

Slide 11

Slide 11 text

● とてもシンプルな教師なしの擬似誤り生成手法を提案 ● 以下の手法を組み合わせることでベストスコア ○ 擬似誤りデータでpre-training → fine-tuning ○ TransformerとTransformer-based LMのアンサンブル ○ Right-to-left Modelでリランキング ● BEA19 shared taskのRestricted track, Low-resource trackにて1位を獲得 ● CoNLL 2014 test setでもstate-of-the-artを達成 Conclusion 11

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Results 13 ← 1回目の出力を入力して 2回目の出力を得る ← Right-to-left Modelで再訂正 ← 普通の出力 ← Right-to-left Modelでリランキング

Slide 14

Slide 14 text

Results 14 ● 学習者レベルが高くなるとスコアが下がる (A→B→C) ● 面白いことに，N (native data) では Restricted systemとLow-resource systemのスコアが同じになった．要調査

Slide 15

Slide 15 text

Results 15 ← non-publicのコーパスを使用した結果 ← non-publicのコーパスを使用しない結果