Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Language Model Based Grammatical Error Correcti...
Search
youichiro
July 25, 2018
Technology
190
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Language Model Based Grammatical Error Correction without Annotated Training Data
長岡技術科学大学
自然言語処理研究室
文献紹介(2018-07-25)
youichiro
July 25, 2018
More Decks by youichiro
See All by youichiro
日本語文法誤り訂正における誤り傾向を考慮した擬似誤り生成
youichiro
0
1.6k
分類モデルを用いた日本語学習者の格助詞誤り訂正
youichiro
0
140
Multi-Agent Dual Learning
youichiro
1
200
Automated Essay Scoring with Discourse-Aware Neural Models
youichiro
0
150
Context is Key- Grammatical Error Detection with Contextual Word Representations
youichiro
1
170
勉強勉強会
youichiro
0
100
Confusionset-guided Pointer Networks for Chinese Spelling Check
youichiro
0
220
A Neural Grammatical Error Correction System Built On Better Pre-training and Sequential Transfer Learning
youichiro
0
200
An Empirical Study of Incorporating Pseudo Data into Grammatical Error Correction
youichiro
0
230
Other Decks in Technology
See All in Technology
AIっぽい文章を採点して人間らしく直すアプリを作ってみた
yama3133
2
210
SteampipeとExcel Power QueryでAWS構成定義書の作成を自動化する
jhashimoto
0
130
When Platform Engineering Meets GenAI
sucitw
0
110
エラーバジェットのアラートのタイミングを考える.pdf
kairim0
0
160
気づかぬうちにセキュリティ負債を生むAPIキー運用
sgwrmctk
0
170
LayerX コーポレートエンジニアリング室におけるサプライチェーンセキュリティへの取り組み / Supply Chain Security at LayerX Corporate Engineering
yuyatakeyama
2
660
SONiC Scale-Up Working Group から探る Scale-UpやUltraEthernet機能の実装方法
ebiken
PRO
2
370
いまさら聞けない「仕様駆動開発入門」 〜AI活用時代の開発プロセスを考える〜
findy_eventslides
2
160
ACE-Step-1.5で見る 音楽生成AIのしくみと“破綻だけ直す”Retake機能の開発【zennfes spring 2026 登壇資料】
personabb
1
530
機械学習を「社会実装」するということ 2026年夏版 / Social Implementation of Machine Learning June 2026 Version
moepy_stats
6
2.5k
AIAU_UMEMOGU_ninomiya_slide
ninomiya_ii
0
210
日本 Fintech 未来予測レポート 2027〜2028年(手動編集版)
8maki
0
2.4k
Featured
See All Featured
BBQ
matthewcrist
89
10k
Navigating Weather and Climate Data
rabernat
0
220
Done Done
chrislema
186
16k
Dominate Local Search Results - an insider guide to GBP, reviews, and Local SEO
greggifford
PRO
0
190
Building Applications with DynamoDB
mza
96
7.1k
Utilizing Notion as your number one productivity tool
mfonobong
4
320
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.5k
Fashionably flexible responsive web design (full day workshop)
malarkey
408
66k
How to Ace a Technical Interview
jacobian
281
24k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
AI Search: Implications for SEO and How to Move Forward - #ShenzhenSEOConference
aleyda
1
1.3k
We Have a Design System, Now What?
morganepeng
55
8.2k
Transcript
Language Model Based Grammatical Error Correction without Annotated Training Data
Christopher Bryant and Ted Briscoe Proceedings of the Thirteenth Workshop on Innovative Use of NLP for Building Educational Applications, pages 247–253, 2018 ⽂献紹介(2018-07-25) ⻑岡技術科学⼤学 ⾃然⾔語処理研究室 ⼩川 耀⼀朗 1
Abstract l ⾔語モデルを⽤いた⽂法誤り訂正アプローチ l シンプルかつ少量のアノテーションデータしか⽤いない⾔ 語モデルアプローチが、⼤量のアノテーションデータで訓 練されたモデルと競争できる性能を⽰した 2
Introduction l CoNNL-2014 shared taskではTop3のチーム全てがSMTあ るいはclassifier-baseのシステムを⽤いた l これ以降、SMTやSMTとclassifierの混同、NMTのアプロー チにフォーカスした研究が進んでいる l
⾔語モデルを⽤いた⼿法に関する研究は⼤きく停滞した Ø GECにおける⾔語モデルアプローチを再調査する 3
Method l ⾔語モデル確率の低い⽂は、⾔語モデル確率の⾼い⽂よ りも⽂法誤りを含んでいるであろうというアイデア 1. ⼊⼒⽂の⾔語モデルスコアを計算する 2. ⽂中の各単語において、訂正候補セットを作る 3. 各単語における各訂正候補で置換した⽂を⽣成し、
再び⽂のスコアを計算する 4. 訂正候補の中から、スコアが閾値よりもが⾼くなる 1⽂を選ぶ 5. ステップ1~4を繰り返す 4
Method l 訂正時にスコアの閾値を設定しておき、その閾値を超える 候補にのみ訂正する 5
Method 訂正候補セット l 以下の英語のエラータイプを対象とする non-words, morphology, article and prepositions l
Non-words(⾮単語) ex) [freind → friend] CyHunspell*1を使⽤し、訂正候補を⽣成する *1 https://pypi.org/project/CyHunspell/ 6
Method 訂正候補セット l Morphology(語形) - noun number: [cat → cats]
- verb tense: [eat → ate] - adjective form: [big → bigger] など Automatically Generated Inflection Database(AGID)*2から、訂正 候補を⽣成する l Articles and Prepositions(冠詞と前置詞) article: {φ, a, an, the} preposition: {φ, about, at, by, for, from, in, of, on, to, with} *2 http://wordlist.aspell.net/other/ 7
Experiment l ⾔語モデルの構築 5-gram language model trained on the One
Billion Word Benchmark dataset*3 with KenLM l 開発セットとテストセット CoNLL-2013, CoNLL-2014, FCE, JFLEGを使⽤ 8 *3 https://arxiv.org/pdf/1312.3005.pdf
Experiment ⾔語モデルスコアの 閾値のチューニング - CoNNL-2013: 2% - FCE-dev: 4% -
JFLEG-dev: 5% 9
Result 10
Result 11
Conclusion 12 l ⽂法誤り訂正のためのシンプルで少量のアノテーションデータしか使わ ない⾔語モデルアプローチを提案し、⼤量のアノテーションデータを必 要とする機械翻訳アプローチと競争できることを⽰した l このシステムは特定のエラータイプしか訂正できない制限があるため、 missing words(単語の不⾜)など他のエラータイプも訂正可能にするが
課題に挙げられる