Neural Grammatical Error Correction Systems with Unsupervised Pre-training on Synthetic Data

66cc992074ab4522374e429c11fef225?s=47 youichiro
August 04, 2019

Neural Grammatical Error Correction Systems with Unsupervised Pre-training on Synthetic Data

長岡技術科学大学
自然言語処理研究室
文献紹介(2019-08-05)
Neural Grammatical Error Correction Systems with Unsupervised Pre-training on Synthetic Data
https://www.aclweb.org/anthology/W19-4427

66cc992074ab4522374e429c11fef225?s=128

youichiro

August 04, 2019
Tweet

Transcript

  1. Neural Grammatical Error Correction Systems with Unsupervised Pre-training on Synthetic

    Data Roman Grundkiewicz and Marcin Junczys-Dowmunt and Kenneth Heafield Proceedings of the Fourteenth Workshop on Innovative Use of NLP for Building Educational Applications, pages 252–263, 2019 長岡技術科学大学 自然言語処理研究室 小川耀一朗 文献紹介(2019-08-05) 1
  2. Introduction 2 [1] Approaching Neural Grammatical Error Correction as a

    Low-Resource Machine Translation Task より引用 機械翻訳タスクと比べると学習者アノテーショ ンコーパスの量はまだまだ少ない 教師なしの擬似誤り生成手法を提案
  3. Confusion sets 3 Confusion set (同じ品詞の単語や似ている 単語の集合) を擬似誤り生成に使用する 全単語をそれぞれ Aspell

    spellchecker に入 力し,出力リストの上位20件をその単語の confusion set として保持する
  4. 擬似誤り文生成の手順 1. 入力文の中から の確率で単語を選択 ( :平均0.15, 標準偏差0.2の正規分布) 2. 選ばれた各単語に対して,4つの操作のうち1つを実行する 4

    Synthetic data generation 置換(70%) confusion set からランダムに単語を選んで置換する 削除(10%) 削除する 挿入(10%) 次の位置にランダムに選んだ単語を挿入する 入れ替え(10%) 次の単語と位置を入れ替える
  5. 3. 更に入力文の単語の10%に対して,2と同様の置換,削除,挿入,入れ替え操作を 文字レベルで行う News Crawlコーパスから擬似誤り文を2M文生成して実験に使用 5 Synthetic data generation

  6. 擬似データでモデルを事前学習し,2つのfine-tuningの方法を実験した re-training ➔ 事前学習したモデルの重みを初期値として,学習率,最適化パラメータをリ セットして新しいデータを学習する fine-tuning ➔ モデルの重み,学習率,最適化パラメータを保持して新しいデータを訓練 する 6

    Model pre-training and fine-tuning
  7. • 文頭→文末の方向で学習したモデル (Right-to-left Model) を用意する • スタンダードな Left-to-right Model の

    n-best list をリランキングする -------- -------- -------- -------- Right-to-left re-ranking 7 Left-to-right Model -------- -------- -------- -------- Right-to-left Model output re-ranking n-best list
  8. Datasets 8 BEA19 shared taskでの Low resource track では アノテーションコーパスが使用不可

    WikiEd を使用 • Wikipediaの編集履歴をまとめたコーパス • ノイズが多いため,以下の2つのスコアの平均で ソートして上位2Mペアを使用した ◦ word 5-gram LM ◦ 操作タグの5-gram LM - “I think that the public transport will always be in the future .” - “I think that public transport will always exist in the future .” “<del> the <sub> be <to> exist”
  9. Results 9

  10. Results 10

  11. • とてもシンプルな教師なしの擬似誤り生成手法を提案 • 以下の手法を組み合わせることでベストスコア ◦ 擬似誤りデータでpre-training → fine-tuning ◦ TransformerとTransformer-based

    LMのアンサンブル ◦ Right-to-left Modelでリランキング • BEA19 shared taskのRestricted track, Low-resource trackにて1位を獲得 • CoNLL 2014 test setでもstate-of-the-artを達成 Conclusion 11
  12. 12

  13. Results 13 ← 1回目の出力を入力して 2回目の出力を得る ← Right-to-left Modelで再訂正 ← 普通の出力

    ← Right-to-left Modelでリランキング
  14. Results 14 • 学習者レベルが高くなるとスコアが下がる (A→B→C) • 面白いことに,N (native data) では

    Restricted systemとLow-resource systemの スコアが同じになった.要調査
  15. Results 15 ← non-publicのコーパスを使用した結果 ← non-publicのコーパスを使用しない結果