Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Systematically Adapting Machine Translation for...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
youichiro
March 27, 2018
Technology
89
0
Share
Systematically Adapting Machine Translation for Grammatical Error Correction
文献紹介(2018-03-27)
長岡技術科学大学
自然言語処理研究室
youichiro
March 27, 2018
More Decks by youichiro
See All by youichiro
日本語文法誤り訂正における誤り傾向を考慮した擬似誤り生成
youichiro
0
1.6k
分類モデルを用いた日本語学習者の格助詞誤り訂正
youichiro
0
130
Multi-Agent Dual Learning
youichiro
1
200
Automated Essay Scoring with Discourse-Aware Neural Models
youichiro
0
140
Context is Key- Grammatical Error Detection with Contextual Word Representations
youichiro
1
160
勉強勉強会
youichiro
0
100
Confusionset-guided Pointer Networks for Chinese Spelling Check
youichiro
0
210
A Neural Grammatical Error Correction System Built On Better Pre-training and Sequential Transfer Learning
youichiro
0
190
An Empirical Study of Incorporating Pseudo Data into Grammatical Error Correction
youichiro
0
230
Other Decks in Technology
See All in Technology
小さいVue.jsを30分で作る
hal_spidernight
0
130
[Oracle TechNight#99] 生成AI時代のAI/ML入門 ~ AIとオラクルデータベースの関係 (前半)
oracle4engineer
PRO
1
210
フロントエンドの相手が変わった - AIが加わったWebの新しいインターフェース設計
azukiazusa1
31
9.5k
需要創出(Chatwork)×供給(BPaaS) フライホイールとMoat 実行能力の最適配置とAI戦略
kubell_hr
0
1.9k
Fabric MCPの紹介と使い分け
ryomaru0825
1
110
Building Production-Ready Agents Microsoft Agent Framework
_mertmetin
0
140
Agent の「自由」と「安全」〜未来に向けて今できること〜
katayan
0
170
生成AIはソフトウェア開発の革命か、ソフトウェア工学の宿題再提出なのか -ソフトウェア品質特性の追加提案-
kyonmm
PRO
2
810
試作とデモンストレーション / Prototyping and Demonstrations
ks91
PRO
0
160
Oracle Cloud Infrastructure:2026年4月度サービス・アップデート
oracle4engineer
PRO
0
290
知ってた?JavaScriptの"正しさ"を検証するテストが5万以上もあること(Test262)
riyaamemiya
1
130
「誰一人取り残されない」 AIエージェント時代のプロダクト設計思想 Product Management Summit 2026
mizushimac
1
2.7k
Featured
See All Featured
The Director’s Chair: Orchestrating AI for Truly Effective Learning
tmiket
1
160
Building Adaptive Systems
keathley
44
3k
Leo the Paperboy
mayatellez
7
1.7k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
128
55k
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
510
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
1k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3.4k
sira's awesome portfolio website redesign presentation
elsirapls
0
230
The Cost Of JavaScript in 2023
addyosmani
55
9.9k
Music & Morning Musume
bryan
47
7.2k
How Fast Is Fast Enough? [PerfNow 2025]
tammyeverts
3
550
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
35k
Transcript
Systematically Adapting Machine Translation for Grammatical Error Correction Courtney Napoles
and Chris Callison-Burch Proceedings of the 12th Workshop on Innovative Use of NLP for Building Educational Applications, pages 345–356, 2017 文献紹介(2018/03/27) 長岡技術科学大学 自然言語処理研究室 小川 耀一朗 1
概要 l 英語学習者作⽂の⽂法誤り訂正⼿法を提案 l 統計的機械翻訳(SMT)を⽂法誤り訂正に適⽤ l 少ない訓練データにおいて最⾼性能のモデルに匹敵する 性能を⽰した 2
誤り訂正のアプローチ ルールベース(rule-based system) 誤りタイプの分類器(classifiers targeting specific error types) 統計的機械翻訳(statistical machine
translation) ニューラル機械翻訳(neural machine translation) 3 ࠷ઌ (Yuan and Briscoe, 2016)
提案手法: SMEC l ⽂法誤り訂正に適した処理をSMTと組み合わせる uスペルミス訂正ルールを追加 u訂正操作のスコア素性 u⽂法誤り訂正の適した評価指標でチューニング を適⽤ 4
提案手法: SMEC uスペルミス訂正ルール *1 u名詞の単数形・複数形の変換*2(singular ⇆ plural) u動詞の基本形、3⼈称単数形、過去形、過去分詞形、進⾏ 形の変換*2(wake, wakes,
woke, woken, waking) *1: PyEnchantを使⽤ *2: RASPʼs morphological generator, morphg (Minnen et al., 2001) を使⽤ 5
提案手法: SMEC u訂正操作のスコアを素性 に⽤いる uSMTの最適化 Ø BLEUではなくGLEU 6
実験設定 l SMT: hierarchical phase-based translation model with Thrax (Weese
et al., 2011) l 訓練データ:Lang-8 corpus(1000kペア) l 開発データ:JFLEG tuning set(751ペア) l テストデータ:JFLEG test set(747ペア) l ⾔語モデル:English Gigaword 5-gram LM 7
訂正実験の結果 • Sp. Baseline: スペルミス訂正モデル • MT baseline: 特別な素性を⽤いずにBLUEで最適化 •
YB16: 最⾼性能のNMTモデル(CLC corpus: 2000kペア) Ø 最⾼性能と同じくらいの性能を⽰す 8
コンポーネントの比較 • SMEC –GLEU: BLEUでSMTを最適化 • SMEC –feats:特別な素性を⽤いない • SMEC
–sp:スペルミス訂正ルールを⽤いない Ø スペル訂正による効果が⼤きい 9
まとめ n 統計的機械翻訳(SMT)を⽂法誤り訂正に適⽤ l スペル訂正ルールの追加 l 訂正操作のスコア素性 l GLEUによるSMTの最適化 を適⽤
n 半分の訓練データで、最⾼性能モデルの性能に達した 10