Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Noising and Denoising Natural Language: Diverse Backtranslation for Grammar Correction

youichiro
August 23, 2018

Noising and Denoising Natural Language: Diverse Backtranslation for Grammar Correction

長岡技術科学大学
自然言語処理研究室
文献紹介 (2018-08-23)

youichiro

August 23, 2018
Tweet

More Decks by youichiro

Other Decks in Technology

Transcript

  1. Noising and Denoising Natural Language: Diverse Backtranslation for Grammar Correction

    Ziang Xie, Guillaume Genthial, Stanley Xie, Andrew Y. Ng, Dan Jurafsky Proceedings of NAACL-HLT 2018, pages 619–628, 2018 ⽂献紹介(2018-08-23) ⻑岡技術科学⼤学 ⾃然⾔語処理研究室 ⼩川 耀⼀朗 1
  2. Noising 正しい⽂から誤り⽂を⽣成する⽅法 ベースライン l appending clean examples Ø ノイズを加えず正しい⽂のまま使う l

    token noising Ø ⽂字/単語の削除・置換をランダムに発⽣させる l reverse noising Ø 学習させたNoising modelの出⼒を使う 5
  3. Noising 正しい⽂から誤り⽂を⽣成する⽅法 提案⼿法: Noisy modelのデコードでbeam searchする時にノイズを加える l rank penalty noising

    Ø 各候補に対して#$%& のペナルティを加える Ø は対数尤度の⼤きい順ランキング、#$%& はハイパーパラメータ l top penalty noising Ø スコアの最も⾼い候補にだけ'() のペナルティを加える l random noising Ø 各候補に対して#$%+(, のペナルティを加える Ø は[0,1]からランダムに選ばれる 6 ノイズ
  4. Denoising 誤り⽂から正しい⽂を⽣成する l beam searchの各候補のスコアを計算する際、⾔語モデル確率をスコ アに加える ./ ℎ = ℎ

    + log ./ ℎ h: 候補, λ: ハイパーパラメータ, s(): スコア関数, pLM : ⾔語モデル確率 l ⾔語モデル: 5-gram LM trained on Common Crawl corpus with KenLM 7
  5. 13

  6. Back-translation 15 Style Transfer Through Back-Translation Shrimai Prabhumoye, Yulia Tsvetkov,

    Ruslan Salakhutdinov, Alan W Black 2018, ACL, pages 866–876. Figure 1