Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Noising and Denoising Natural Language: Diverse Backtranslation for Grammar Correction

youichiro
August 23, 2018

Noising and Denoising Natural Language: Diverse Backtranslation for Grammar Correction

長岡技術科学大学
自然言語処理研究室
文献紹介 (2018-08-23)

youichiro

August 23, 2018
Tweet

More Decks by youichiro

Other Decks in Technology

Transcript

  1. Noising and Denoising Natural Language:
    Diverse Backtranslation for Grammar Correction
    Ziang Xie, Guillaume Genthial, Stanley Xie, Andrew Y. Ng, Dan Jurafsky
    Proceedings of NAACL-HLT 2018, pages 619–628, 2018
    ⽂献紹介(2018-08-23)
    ⻑岡技術科学⼤学 ⾃然⾔語処理研究室 ⼩川 耀⼀朗
    1

    View Slide

  2. Introduction
    l 機械翻訳ベースの⽂法誤り訂正(GEC)アプローチでは、学習者の誤り⽂
    と正しい⽂の⼤規模なパラレルコーパスが必要になることがボトルネッ
    クとなっている
    Ø 正しい⽂にノイズを加えて誤り⽂を⽣成し、学習者作⽂データの不⾜を
    補う⼿法を提案
    l 単純な⽅法はトークンの削除や置換を⾏うことだが、⾮現実的なノイズ
    を⽣成してしまう
    Ø 提案⼿法では、encoder-decoderとbeam searchを組み合わせて多様
    な誤り⽂を⽣成する
    2

    View Slide

  3. Method
    3
    正しい⽂から誤り⽂を⽣成
    Noising model
    seed corpus(学習者コーパス)
    から正しい⽂→誤り⽂ を学習
    Denoising model
    誤り⽂から正しい⽂を⽣成
    (back-translation)

    View Slide

  4. Model
    4
    l convolutional encoder-decoder model
    l Noising と Denoising の両⽅でこのモデルを使⽤

    View Slide

  5. Noising 正しい⽂から誤り⽂を⽣成する⽅法
    ベースライン
    l appending clean examples
    Ø ノイズを加えず正しい⽂のまま使う
    l token noising
    Ø ⽂字/単語の削除・置換をランダムに発⽣させる
    l reverse noising
    Ø 学習させたNoising modelの出⼒を使う
    5

    View Slide

  6. Noising 正しい⽂から誤り⽂を⽣成する⽅法
    提案⼿法: Noisy modelのデコードでbeam searchする時にノイズを加える
    l rank penalty noising
    Ø 各候補に対して#$%&
    のペナルティを加える
    Ø は対数尤度の⼤きい順ランキング、#$%&
    はハイパーパラメータ
    l top penalty noising
    Ø スコアの最も⾼い候補にだけ'()
    のペナルティを加える
    l random noising
    Ø 各候補に対して#$%+(,
    のペナルティを加える
    Ø は[0,1]からランダムに選ばれる
    6
    ノイズ

    View Slide

  7. Denoising 誤り⽂から正しい⽂を⽣成する
    l beam searchの各候補のスコアを計算する際、⾔語モデル確率をスコ
    アに加える
    ./
    ℎ = ℎ + log ./

    h: 候補, λ: ハイパーパラメータ,
    s(): スコア関数, pLM
    : ⾔語モデル確率
    l ⾔語モデル: 5-gram LM trained on Common Crawl corpus with KenLM
    7

    View Slide

  8. Training data
    8
    実験する訓練データ
    base(1.0M) : 学習者コーパス
    synthesized(1.0M) : 単⾔語コーパスにノイズを与えたデータ
    ⽐較対象の訓練データ
    expanded(3.3M) : 学習者コーパス

    View Slide

  9. Result1 CoNLL 2013 dev and CoNLL 2014 test set
    9

    View Slide

  10. Result2 JFLEG test set
    10

    View Slide

  11. Result3
    11
    l 実学習者⽂と⽣成した誤り⽂を表⽰し、どちらが⽣成⽂かの2択問題を
    ⼈⼿評価
    (誤答率)

    View Slide

  12. Conclusion
    l GECタスクでは⼤量の学習者コーパスが必要となるが、本論⽂では
    Noising model、Denoising modelを⽤いて正しい⽂から誤り⽂を⽣成
    する⼿法を提案し、学習者コーパスの不⾜を補った
    l ⽣成された誤り⽂と学習者⽂を⽐較し、⼈が⾒⽐べても区別が難しいこ
    とがわかった
    l 実験では、⽣成したデータを加えて訓練した結果が、⼤規模な実学習者
    コーパスで訓練した結果と同程度の性能を⽰した
    12

    View Slide

  13. 13

    View Slide

  14. Examples of nonsynthesized and synthesized sentences
    14

    View Slide

  15. Back-translation
    15
    Style Transfer Through Back-Translation
    Shrimai Prabhumoye, Yulia Tsvetkov, Ruslan Salakhutdinov, Alan W Black
    2018, ACL, pages 866–876.
    Figure 1

    View Slide

  16. Beam search
    16
    https://distill.pub/2017/ctc/から引⽤

    View Slide

  17. Others
    17

    View Slide