Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Systematically Adapting Machine Translation for...
Search
youichiro
March 27, 2018
Technology
0
88
Systematically Adapting Machine Translation for Grammatical Error Correction
文献紹介(2018-03-27)
長岡技術科学大学
自然言語処理研究室
youichiro
March 27, 2018
Tweet
Share
More Decks by youichiro
See All by youichiro
日本語文法誤り訂正における誤り傾向を考慮した擬似誤り生成
youichiro
0
1.6k
分類モデルを用いた日本語学習者の格助詞誤り訂正
youichiro
0
130
Multi-Agent Dual Learning
youichiro
1
190
Automated Essay Scoring with Discourse-Aware Neural Models
youichiro
0
140
Context is Key- Grammatical Error Detection with Contextual Word Representations
youichiro
1
160
勉強勉強会
youichiro
0
100
Confusionset-guided Pointer Networks for Chinese Spelling Check
youichiro
0
210
A Neural Grammatical Error Correction System Built On Better Pre-training and Sequential Transfer Learning
youichiro
0
190
An Empirical Study of Incorporating Pseudo Data into Grammatical Error Correction
youichiro
0
230
Other Decks in Technology
See All in Technology
Lambda Web AdapterでLambdaをWEBフレームワーク利用する
sahou909
0
170
楽しく学ぼう!ネットワーク入門
shotashiratori
1
460
コンテキスト・ハーネスエンジニアリングの現在
hirosatogamo
PRO
3
460
Claude Code 2026年 最新アップデート
oikon48
13
11k
Claude Code のコード品質がばらつくので AI に品質保証させる仕組みを作った話 / A story about building a mechanism to have AI ensure quality, because the code quality from Claude Code was inconsistent
nrslib
13
8.6k
PMとしての意思決定とAI活用状況について
lycorptech_jp
PRO
0
140
It’s “Time” to use Temporal
sajikix
3
210
社内レビューは機能しているのか
matsuba
0
140
ReactのdangerouslySetInnerHTMLは“dangerously”だから危険 / Security.any #09 卒業したいセキュリティLT
flatt_security
0
310
ソフトバンク流!プラットフォームエンジニアリング実現へのアプローチ
sbtechnight
1
190
Goのerror型がシンプルであることの恩恵について理解する
yamatai1212
1
200
(Test) ai-meetup slide creation
oikon48
3
440
Featured
See All Featured
HDC tutorial
michielstock
1
550
Noah Learner - AI + Me: how we built a GSC Bulk Export data pipeline
techseoconnect
PRO
0
140
The B2B funnel & how to create a winning content strategy
katarinadahlin
PRO
1
300
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
118
110k
Breaking role norms: Why Content Design is so much more than writing copy - Taylor Woolridge
uxyall
0
210
Agile that works and the tools we love
rasmusluckow
331
21k
It's Worth the Effort
3n
188
29k
Avoiding the “Bad Training, Faster” Trap in the Age of AI
tmiket
0
100
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
1.9k
The browser strikes back
jonoalderson
0
810
Max Prin - Stacking Signals: How International SEO Comes Together (And Falls Apart)
techseoconnect
PRO
0
120
How People are Using Generative and Agentic AI to Supercharge Their Products, Projects, Services and Value Streams Today
helenjbeal
1
140
Transcript
Systematically Adapting Machine Translation for Grammatical Error Correction Courtney Napoles
and Chris Callison-Burch Proceedings of the 12th Workshop on Innovative Use of NLP for Building Educational Applications, pages 345–356, 2017 文献紹介(2018/03/27) 長岡技術科学大学 自然言語処理研究室 小川 耀一朗 1
概要 l 英語学習者作⽂の⽂法誤り訂正⼿法を提案 l 統計的機械翻訳(SMT)を⽂法誤り訂正に適⽤ l 少ない訓練データにおいて最⾼性能のモデルに匹敵する 性能を⽰した 2
誤り訂正のアプローチ ルールベース(rule-based system) 誤りタイプの分類器(classifiers targeting specific error types) 統計的機械翻訳(statistical machine
translation) ニューラル機械翻訳(neural machine translation) 3 ࠷ઌ (Yuan and Briscoe, 2016)
提案手法: SMEC l ⽂法誤り訂正に適した処理をSMTと組み合わせる uスペルミス訂正ルールを追加 u訂正操作のスコア素性 u⽂法誤り訂正の適した評価指標でチューニング を適⽤ 4
提案手法: SMEC uスペルミス訂正ルール *1 u名詞の単数形・複数形の変換*2(singular ⇆ plural) u動詞の基本形、3⼈称単数形、過去形、過去分詞形、進⾏ 形の変換*2(wake, wakes,
woke, woken, waking) *1: PyEnchantを使⽤ *2: RASPʼs morphological generator, morphg (Minnen et al., 2001) を使⽤ 5
提案手法: SMEC u訂正操作のスコアを素性 に⽤いる uSMTの最適化 Ø BLEUではなくGLEU 6
実験設定 l SMT: hierarchical phase-based translation model with Thrax (Weese
et al., 2011) l 訓練データ:Lang-8 corpus(1000kペア) l 開発データ:JFLEG tuning set(751ペア) l テストデータ:JFLEG test set(747ペア) l ⾔語モデル:English Gigaword 5-gram LM 7
訂正実験の結果 • Sp. Baseline: スペルミス訂正モデル • MT baseline: 特別な素性を⽤いずにBLUEで最適化 •
YB16: 最⾼性能のNMTモデル(CLC corpus: 2000kペア) Ø 最⾼性能と同じくらいの性能を⽰す 8
コンポーネントの比較 • SMEC –GLEU: BLEUでSMTを最適化 • SMEC –feats:特別な素性を⽤いない • SMEC
–sp:スペルミス訂正ルールを⽤いない Ø スペル訂正による効果が⼤きい 9
まとめ n 統計的機械翻訳(SMT)を⽂法誤り訂正に適⽤ l スペル訂正ルールの追加 l 訂正操作のスコア素性 l GLEUによるSMTの最適化 を適⽤
n 半分の訓練データで、最⾼性能モデルの性能に達した 10