Noising and Denoising Natural Language: Diverse Backtranslation for Grammar Correction

Noising and Denoising Natural Language: Diverse Backtranslation for Grammar Correction
Ziang Xie, Guillaume Genthial, Stanley Xie, Andrew Y. Ng, Dan Jurafsky Proceedings of NAACL-HLT 2018, pages 619–628, 2018 ⽂献紹介（2018-08-23）⻑岡技術科学⼤学⾃然⾔語処理研究室⼩川耀⼀朗 1

Introduction l 機械翻訳ベースの⽂法誤り訂正(GEC)アプローチでは、学習者の誤り⽂と正しい⽂の⼤規模なパラレルコーパスが必要になることがボトルネックとなっている Ø 正しい⽂にノイズを加えて誤り⽂を⽣成し、学習者作⽂データの不⾜を補う⼿法を提案 l 単純な⽅法はトークンの削除や置換を⾏うことだが、⾮現実的なノイズ
を⽣成してしまう Ø 提案⼿法では、encoder-decoderとbeam searchを組み合わせて多様な誤り⽂を⽣成する 2

Method 3 正しい⽂から誤り⽂を⽣成 Noising model seed corpus(学習者コーパス) から正しい⽂→誤り⽂を学習 Denoising
model 誤り⽂から正しい⽂を⽣成 (back-translation)

Model 4 l convolutional encoder-decoder model l Noising と Denoising
の両⽅でこのモデルを使⽤

Noising 正しい⽂から誤り⽂を⽣成する⽅法ベースライン l appending clean examples Ø ノイズを加えず正しい⽂のまま使う l
token noising Ø ⽂字/単語の削除・置換をランダムに発⽣させる l reverse noising Ø 学習させたNoising modelの出⼒を使う 5

Noising 正しい⽂から誤り⽂を⽣成する⽅法提案⼿法: Noisy modelのデコードでbeam searchする時にノイズを加える l rank penalty noising
Ø 各候補に対して#$%& のペナルティを加える Ø は対数尤度の⼤きい順ランキング、#$%& はハイパーパラメータ l top penalty noising Ø スコアの最も⾼い候補にだけ'() のペナルティを加える l random noising Ø 各候補に対して#$%+(, のペナルティを加える Ø は[0,1]からランダムに選ばれる 6 ノイズ

Denoising 誤り⽂から正しい⽂を⽣成する l beam searchの各候補のスコアを計算する際、⾔語モデル確率をスコアに加える ./ ℎ = ℎ
+ log ./ ℎ h: 候補, λ: ハイパーパラメータ, s(): スコア関数, pLM : ⾔語モデル確率 l ⾔語モデル: 5-gram LM trained on Common Crawl corpus with KenLM 7

Training data 8 実験する訓練データ base(1.0M) : 学習者コーパス synthesized(1.0M) : 単⾔語コーパスにノイズを与えたデータ
⽐較対象の訓練データ expanded(3.3M) : 学習者コーパス

Result1 CoNLL 2013 dev and CoNLL 2014 test set 9

Result2 JFLEG test set 10

Result3 11 l 実学習者⽂と⽣成した誤り⽂を表⽰し、どちらが⽣成⽂かの2択問題を⼈⼿評価（誤答率）

Conclusion l GECタスクでは⼤量の学習者コーパスが必要となるが、本論⽂では Noising model、Denoising modelを⽤いて正しい⽂から誤り⽂を⽣成する⼿法を提案し、学習者コーパスの不⾜を補った l ⽣成された誤り⽂と学習者⽂を⽐較し、⼈が⾒⽐べても区別が難しいことがわかった
l 実験では、⽣成したデータを加えて訓練した結果が、⼤規模な実学習者コーパスで訓練した結果と同程度の性能を⽰した 12

Examples of nonsynthesized and synthesized sentences 14

Back-translation 15 Style Transfer Through Back-Translation Shrimai Prabhumoye, Yulia Tsvetkov,
Ruslan Salakhutdinov, Alan W Black 2018, ACL, pages 866–876. Figure 1

Beam search 16 https://distill.pub/2017/ctc/から引⽤

Others 17

Noising and Denoising Natural Language: Diverse...

Noising and Denoising Natural Language: Diverse Backtranslation for Grammar Correction

youichiro

More Decks by youichiro

Other Decks in Technology

Featured

Transcript