Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Speaker Deck
PRO
Sign in
Sign up for free
Systematically Adapting Machine Translation for Grammatical Error Correction
youichiro
March 27, 2018
Technology
0
64
Systematically Adapting Machine Translation for Grammatical Error Correction
文献紹介(2018-03-27)
長岡技術科学大学
自然言語処理研究室
youichiro
March 27, 2018
Tweet
Share
More Decks by youichiro
See All by youichiro
日本語文法誤り訂正における誤り傾向を考慮した擬似誤り生成
youichiro
0
700
分類モデルを用いた日本語学習者の格助詞誤り訂正
youichiro
0
43
Multi-Agent Dual Learning
youichiro
1
69
Automated Essay Scoring with Discourse-Aware Neural Models
youichiro
0
67
Context is Key- Grammatical Error Detection with Contextual Word Representations
youichiro
1
83
勉強勉強会
youichiro
0
44
Confusionset-guided Pointer Networks for Chinese Spelling Check
youichiro
0
110
A Neural Grammatical Error Correction System Built On Better Pre-training and Sequential Transfer Learning
youichiro
0
70
An Empirical Study of Incorporating Pseudo Data into Grammatical Error Correction
youichiro
0
120
Other Decks in Technology
See All in Technology
Stripe Search APIを利用した、LINEとStripeの顧客情報連携/line-dc-202205
stripehideokamoto
0
120
~スタートアップの人たちに捧ぐ~ 監視再入門 in AWS
track3jyo
PRO
30
8.5k
GitHub 엔터프라이즈 어카운트 소개 및 엔터프라이즈 서버 구축 경험
posquit0
1
140
【OCHaCafe#5】その Pod 突然落ちても大丈夫ですか?
k6s4i53rx
1
120
Embedded SRE at Mercari
tcnksm
0
800
tfcon-2022-cpp
cpp
5
4.8k
JAWS-UG 朝会 #33 登壇資料
takakuni
0
370
220428event_overview
caddi_eng
2
210
Research Paper Introduction #98 "NSDI 2022 recap"
cafenero_777
0
200
技術広報の役割を定義してみた 2022年春
afroscript
3
2.4k
様々な現場のPower Platform ~小さなエンジニアの奮闘記~
hyodol2513
0
1.8k
Who owns the Service Level?
chaspy
5
780
Featured
See All Featured
Faster Mobile Websites
deanohume
294
28k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
237
19k
Debugging Ruby Performance
tmm1
65
10k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
224
49k
We Have a Design System, Now What?
morganepeng
35
2.9k
Build The Right Thing And Hit Your Dates
maggiecrowley
19
1.1k
How GitHub Uses GitHub to Build GitHub
holman
465
280k
Java REST API Framework Comparison - PWX 2021
mraible
PRO
11
4.6k
What the flash - Photography Introduction
edds
61
9.9k
Music & Morning Musume
bryan
35
4.1k
KATA
mclloyd
7
8.6k
Documentation Writing (for coders)
carmenhchung
48
2.5k
Transcript
Systematically Adapting Machine Translation for Grammatical Error Correction Courtney Napoles
and Chris Callison-Burch Proceedings of the 12th Workshop on Innovative Use of NLP for Building Educational Applications, pages 345–356, 2017 文献紹介(2018/03/27) 長岡技術科学大学 自然言語処理研究室 小川 耀一朗 1
概要 l 英語学習者作⽂の⽂法誤り訂正⼿法を提案 l 統計的機械翻訳(SMT)を⽂法誤り訂正に適⽤ l 少ない訓練データにおいて最⾼性能のモデルに匹敵する 性能を⽰した 2
誤り訂正のアプローチ ルールベース(rule-based system) 誤りタイプの分類器(classifiers targeting specific error types) 統計的機械翻訳(statistical machine
translation) ニューラル機械翻訳(neural machine translation) 3 ࠷ઌ (Yuan and Briscoe, 2016)
提案手法: SMEC l ⽂法誤り訂正に適した処理をSMTと組み合わせる uスペルミス訂正ルールを追加 u訂正操作のスコア素性 u⽂法誤り訂正の適した評価指標でチューニング を適⽤ 4
提案手法: SMEC uスペルミス訂正ルール *1 u名詞の単数形・複数形の変換*2(singular ⇆ plural) u動詞の基本形、3⼈称単数形、過去形、過去分詞形、進⾏ 形の変換*2(wake, wakes,
woke, woken, waking) *1: PyEnchantを使⽤ *2: RASPʼs morphological generator, morphg (Minnen et al., 2001) を使⽤ 5
提案手法: SMEC u訂正操作のスコアを素性 に⽤いる uSMTの最適化 Ø BLEUではなくGLEU 6
実験設定 l SMT: hierarchical phase-based translation model with Thrax (Weese
et al., 2011) l 訓練データ:Lang-8 corpus(1000kペア) l 開発データ:JFLEG tuning set(751ペア) l テストデータ:JFLEG test set(747ペア) l ⾔語モデル:English Gigaword 5-gram LM 7
訂正実験の結果 • Sp. Baseline: スペルミス訂正モデル • MT baseline: 特別な素性を⽤いずにBLUEで最適化 •
YB16: 最⾼性能のNMTモデル(CLC corpus: 2000kペア) Ø 最⾼性能と同じくらいの性能を⽰す 8
コンポーネントの比較 • SMEC –GLEU: BLEUでSMTを最適化 • SMEC –feats:特別な素性を⽤いない • SMEC
–sp:スペルミス訂正ルールを⽤いない Ø スペル訂正による効果が⼤きい 9
まとめ n 統計的機械翻訳(SMT)を⽂法誤り訂正に適⽤ l スペル訂正ルールの追加 l 訂正操作のスコア素性 l GLEUによるSMTの最適化 を適⽤
n 半分の訓練データで、最⾼性能モデルの性能に達した 10