Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Noising and Denoising Natural Language: Diverse Backtranslation for Grammar Correction
Search
youichiro
August 23, 2018
Technology
0
190
Noising and Denoising Natural Language: Diverse Backtranslation for Grammar Correction
長岡技術科学大学
自然言語処理研究室
文献紹介 (2018-08-23)
youichiro
August 23, 2018
Tweet
Share
More Decks by youichiro
See All by youichiro
日本語文法誤り訂正における誤り傾向を考慮した擬似誤り生成
youichiro
0
1.3k
分類モデルを用いた日本語学習者の格助詞誤り訂正
youichiro
0
61
Multi-Agent Dual Learning
youichiro
1
120
Automated Essay Scoring with Discourse-Aware Neural Models
youichiro
0
91
Context is Key- Grammatical Error Detection with Contextual Word Representations
youichiro
1
110
勉強勉強会
youichiro
0
63
Confusionset-guided Pointer Networks for Chinese Spelling Check
youichiro
0
150
A Neural Grammatical Error Correction System Built On Better Pre-training and Sequential Transfer Learning
youichiro
0
110
An Empirical Study of Incorporating Pseudo Data into Grammatical Error Correction
youichiro
0
150
Other Decks in Technology
See All in Technology
OpenTelemetry を使ったトレースエグザンプラーの活用 / otel-trace-exemplar
k6s4i53rx
2
630
WebアプリケーションにおけるPDOの使い方入門 / phpcon odawara 2024
meihei3
2
420
シン・Kafka / shin-kafka
oracle4engineer
PRO
7
2.7k
Databricksを活用してDELISH KITCHENのレシピレコメンドを開発した話
furu8
0
250
入社後初めてのタスクでk8sアップグレードした話.pdf
kkato1
1
380
オーナーシップを持つ領域を明確にする
konifar
10
2.1k
転移学習とドメイン適応の基礎
kmatsui
2
570
キャラクター制御のためのプロンプト術 for LINE Bot
uezo
0
520
AWS パートナー企業でテクニカルサポートに従事して2年経ったので思うところをまとめてみた
kazzpapa3
3
1.3k
スタートアップの技術顧問を3年間続けて発生した事と気付き
biwakonbu
0
150
NgRx Signal Store
rainerhahnekamp
0
110
HEXA OSINT CTF V3 作戦会議
meow_noisy
0
110
Featured
See All Featured
Building Better People: How to give real-time feedback that sticks.
wjessup
354
18k
The Brand Is Dead. Long Live the Brand.
mthomps
48
28k
Building a Modern Day E-commerce SEO Strategy
aleyda
16
6.3k
Raft: Consensus for Rubyists
vanstee
132
6.2k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
20
1.6k
Art, The Web, and Tiny UX
lynnandtonic
288
19k
Fashionably flexible responsive web design (full day workshop)
malarkey
397
65k
The World Runs on Bad Software
bkeepers
PRO
61
6.7k
Producing Creativity
orderedlist
PRO
336
39k
Unsuck your backbone
ammeep
662
57k
Build The Right Thing And Hit Your Dates
maggiecrowley
23
2k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
19
1.9k
Transcript
Noising and Denoising Natural Language: Diverse Backtranslation for Grammar Correction
Ziang Xie, Guillaume Genthial, Stanley Xie, Andrew Y. Ng, Dan Jurafsky Proceedings of NAACL-HLT 2018, pages 619–628, 2018 ⽂献紹介(2018-08-23) ⻑岡技術科学⼤学 ⾃然⾔語処理研究室 ⼩川 耀⼀朗 1
Introduction l 機械翻訳ベースの⽂法誤り訂正(GEC)アプローチでは、学習者の誤り⽂ と正しい⽂の⼤規模なパラレルコーパスが必要になることがボトルネッ クとなっている Ø 正しい⽂にノイズを加えて誤り⽂を⽣成し、学習者作⽂データの不⾜を 補う⼿法を提案 l 単純な⽅法はトークンの削除や置換を⾏うことだが、⾮現実的なノイズ
を⽣成してしまう Ø 提案⼿法では、encoder-decoderとbeam searchを組み合わせて多様 な誤り⽂を⽣成する 2
Method 3 正しい⽂から誤り⽂を⽣成 Noising model seed corpus(学習者コーパス) から正しい⽂→誤り⽂ を学習 Denoising
model 誤り⽂から正しい⽂を⽣成 (back-translation)
Model 4 l convolutional encoder-decoder model l Noising と Denoising
の両⽅でこのモデルを使⽤
Noising 正しい⽂から誤り⽂を⽣成する⽅法 ベースライン l appending clean examples Ø ノイズを加えず正しい⽂のまま使う l
token noising Ø ⽂字/単語の削除・置換をランダムに発⽣させる l reverse noising Ø 学習させたNoising modelの出⼒を使う 5
Noising 正しい⽂から誤り⽂を⽣成する⽅法 提案⼿法: Noisy modelのデコードでbeam searchする時にノイズを加える l rank penalty noising
Ø 各候補に対して#$%& のペナルティを加える Ø は対数尤度の⼤きい順ランキング、#$%& はハイパーパラメータ l top penalty noising Ø スコアの最も⾼い候補にだけ'() のペナルティを加える l random noising Ø 各候補に対して#$%+(, のペナルティを加える Ø は[0,1]からランダムに選ばれる 6 ノイズ
Denoising 誤り⽂から正しい⽂を⽣成する l beam searchの各候補のスコアを計算する際、⾔語モデル確率をスコ アに加える ./ ℎ = ℎ
+ log ./ ℎ h: 候補, λ: ハイパーパラメータ, s(): スコア関数, pLM : ⾔語モデル確率 l ⾔語モデル: 5-gram LM trained on Common Crawl corpus with KenLM 7
Training data 8 実験する訓練データ base(1.0M) : 学習者コーパス synthesized(1.0M) : 単⾔語コーパスにノイズを与えたデータ
⽐較対象の訓練データ expanded(3.3M) : 学習者コーパス
Result1 CoNLL 2013 dev and CoNLL 2014 test set 9
Result2 JFLEG test set 10
Result3 11 l 実学習者⽂と⽣成した誤り⽂を表⽰し、どちらが⽣成⽂かの2択問題を ⼈⼿評価 (誤答率)
Conclusion l GECタスクでは⼤量の学習者コーパスが必要となるが、本論⽂では Noising model、Denoising modelを⽤いて正しい⽂から誤り⽂を⽣成 する⼿法を提案し、学習者コーパスの不⾜を補った l ⽣成された誤り⽂と学習者⽂を⽐較し、⼈が⾒⽐べても区別が難しいこ とがわかった
l 実験では、⽣成したデータを加えて訓練した結果が、⼤規模な実学習者 コーパスで訓練した結果と同程度の性能を⽰した 12
13
Examples of nonsynthesized and synthesized sentences 14
Back-translation 15 Style Transfer Through Back-Translation Shrimai Prabhumoye, Yulia Tsvetkov,
Ruslan Salakhutdinov, Alan W Black 2018, ACL, pages 866–876. Figure 1
Beam search 16 https://distill.pub/2017/ctc/から引⽤
Others 17