Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Neural Grammatical Error Correction Systems with Unsupervised Pre-training on Synthetic Data

youichiro
August 04, 2019

Neural Grammatical Error Correction Systems with Unsupervised Pre-training on Synthetic Data

長岡技術科学大学
自然言語処理研究室
文献紹介(2019-08-05)
Neural Grammatical Error Correction Systems with Unsupervised Pre-training on Synthetic Data
https://www.aclweb.org/anthology/W19-4427

youichiro

August 04, 2019
Tweet

More Decks by youichiro

Other Decks in Research

Transcript

  1. Neural Grammatical Error Correction Systems
    with Unsupervised Pre-training on Synthetic Data
    Roman Grundkiewicz and Marcin Junczys-Dowmunt and Kenneth Heafield
    Proceedings of the Fourteenth Workshop on Innovative Use of NLP for Building Educational Applications,
    pages 252–263, 2019
    長岡技術科学大学 自然言語処理研究室 小川耀一朗
    文献紹介(2019-08-05)
    1

    View Slide

  2. Introduction
    2
    [1] Approaching Neural Grammatical Error Correction
    as a Low-Resource Machine Translation Task より引用
    機械翻訳タスクと比べると学習者アノテーショ
    ンコーパスの量はまだまだ少ない
    教師なしの擬似誤り生成手法を提案

    View Slide

  3. Confusion sets
    3
    Confusion set (同じ品詞の単語や似ている
    単語の集合) を擬似誤り生成に使用する
    全単語をそれぞれ Aspell spellchecker に入
    力し,出力リストの上位20件をその単語の
    confusion set として保持する

    View Slide

  4. 擬似誤り文生成の手順
    1. 入力文の中から の確率で単語を選択 ( :平均0.15, 標準偏差0.2の正規分布)
    2. 選ばれた各単語に対して,4つの操作のうち1つを実行する
    4
    Synthetic data generation
    置換(70%) confusion set からランダムに単語を選んで置換する
    削除(10%) 削除する
    挿入(10%) 次の位置にランダムに選んだ単語を挿入する
    入れ替え(10%) 次の単語と位置を入れ替える

    View Slide

  5. 3. 更に入力文の単語の10%に対して,2と同様の置換,削除,挿入,入れ替え操作を
    文字レベルで行う
    News Crawlコーパスから擬似誤り文を2M文生成して実験に使用
    5
    Synthetic data generation

    View Slide

  6. 擬似データでモデルを事前学習し,2つのfine-tuningの方法を実験した
    re-training
    ➔ 事前学習したモデルの重みを初期値として,学習率,最適化パラメータをリ
    セットして新しいデータを学習する
    fine-tuning
    ➔ モデルの重み,学習率,最適化パラメータを保持して新しいデータを訓練
    する
    6
    Model pre-training and fine-tuning

    View Slide

  7. ● 文頭→文末の方向で学習したモデル (Right-to-left Model) を用意する
    ● スタンダードな Left-to-right Model の n-best list をリランキングする
    --------
    --------
    --------
    --------
    Right-to-left re-ranking
    7
    Left-to-right
    Model
    --------
    --------
    --------
    --------
    Right-to-left
    Model
    output re-ranking
    n-best list

    View Slide

  8. Datasets
    8
    BEA19 shared taskでの Low resource track では
    アノテーションコーパスが使用不可
    WikiEd を使用
    ● Wikipediaの編集履歴をまとめたコーパス
    ● ノイズが多いため,以下の2つのスコアの平均で
    ソートして上位2Mペアを使用した
    ○ word 5-gram LM
    ○ 操作タグの5-gram LM
    - “I think that the public transport will always be in the future .”
    - “I think that public transport will always exist in the future .”
    “ the be exist”

    View Slide

  9. Results
    9

    View Slide

  10. Results
    10

    View Slide

  11. ● とてもシンプルな教師なしの擬似誤り生成手法を提案
    ● 以下の手法を組み合わせることでベストスコア
    ○ 擬似誤りデータでpre-training → fine-tuning
    ○ TransformerとTransformer-based LMのアンサンブル
    ○ Right-to-left Modelでリランキング
    ● BEA19 shared taskのRestricted track, Low-resource trackにて1位を獲得
    ● CoNLL 2014 test setでもstate-of-the-artを達成
    Conclusion
    11

    View Slide

  12. 12

    View Slide

  13. Results
    13
    ← 1回目の出力を入力して 2回目の出力を得る
    ← Right-to-left Modelで再訂正
    ← 普通の出力
    ← Right-to-left Modelでリランキング

    View Slide

  14. Results
    14
    ● 学習者レベルが高くなるとスコアが下がる
    (A→B→C)
    ● 面白いことに,N (native data) では
    Restricted systemとLow-resource systemの
    スコアが同じになった.要調査

    View Slide

  15. Results
    15
    ← non-publicのコーパスを使用した結果
    ← non-publicのコーパスを使用しない結果

    View Slide