Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Language Model Based Grammatical Error Correction without Annotated Training Data
Search
youichiro
July 25, 2018
Technology
0
150
Language Model Based Grammatical Error Correction without Annotated Training Data
長岡技術科学大学
自然言語処理研究室
文献紹介(2018-07-25)
youichiro
July 25, 2018
Tweet
Share
More Decks by youichiro
See All by youichiro
日本語文法誤り訂正における誤り傾向を考慮した擬似誤り生成
youichiro
0
1.3k
分類モデルを用いた日本語学習者の格助詞誤り訂正
youichiro
0
63
Multi-Agent Dual Learning
youichiro
1
130
Automated Essay Scoring with Discourse-Aware Neural Models
youichiro
0
91
Context is Key- Grammatical Error Detection with Contextual Word Representations
youichiro
1
110
勉強勉強会
youichiro
0
65
Confusionset-guided Pointer Networks for Chinese Spelling Check
youichiro
0
160
A Neural Grammatical Error Correction System Built On Better Pre-training and Sequential Transfer Learning
youichiro
0
120
An Empirical Study of Incorporating Pseudo Data into Grammatical Error Correction
youichiro
0
170
Other Decks in Technology
See All in Technology
Classmethod流のPlatform Engineering / classmethod-platform-engineering-devio2024
tomoki10
0
470
累計ダウンロード数1億8000万を超えるアプリケーションプラットフォームのレガシーシステム脱却とモダン化への道
kmitsuhashi
0
120
20240724_cm_odyssey_hibiyatech
hiashisan
0
110
Luupの開発組織におけるインシデントマネジメントの変遷 ver.RoadtoSRENEXT2024
grimoh
1
270
サーバーレスAPI(API Gateway+Lambda)とNext.jsで 個人ブログを作ろう!
shuntaka
PRO
0
560
Datadog Cloud SIEMを使ってAWS環境の脅威を可視化した話/lifeistech-datadog-cloud-siem
gidajun
0
480
スレットハンティングについて知っておきたいこと
hacket
0
130
LINE WORKSへ簡単通知!Incoming Webhookアプリの紹介
mmclsntr
0
110
【基調講演】変える、今ここから ― IoTとAIで紡ぐ未来
soracom
PRO
0
310
データベース研修 DB基礎【MIXI 24新卒技術研修】
mixi_engineers
PRO
0
210
VPoEの視点から見た、ヘンリーがサーバーサイドKotlinを使う理由 / Why Server-side Kotlin 2024
cho0o0
1
420
サービスの持続的な成長と技術負債について
siva_official
PRO
10
4.4k
Featured
See All Featured
Web development in the modern age
philhawksworth
203
10k
Building Your Own Lightsaber
phodgson
101
5.9k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
129
32k
Making Projects Easy
brettharned
111
5.7k
The Cost Of JavaScript in 2023
addyosmani
31
4.7k
Git: the NoSQL Database
bkeepers
PRO
423
64k
Into the Great Unknown - MozCon
thekraken
20
1.3k
Web Components: a chance to create the future
zenorocha
307
41k
The MySQL Ecosystem @ GitHub 2015
samlambert
248
12k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
228
16k
Why You Should Never Use an ORM
jnunemaker
PRO
51
8.9k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
29
2.5k
Transcript
Language Model Based Grammatical Error Correction without Annotated Training Data
Christopher Bryant and Ted Briscoe Proceedings of the Thirteenth Workshop on Innovative Use of NLP for Building Educational Applications, pages 247–253, 2018 ⽂献紹介(2018-07-25) ⻑岡技術科学⼤学 ⾃然⾔語処理研究室 ⼩川 耀⼀朗 1
Abstract l ⾔語モデルを⽤いた⽂法誤り訂正アプローチ l シンプルかつ少量のアノテーションデータしか⽤いない⾔ 語モデルアプローチが、⼤量のアノテーションデータで訓 練されたモデルと競争できる性能を⽰した 2
Introduction l CoNNL-2014 shared taskではTop3のチーム全てがSMTあ るいはclassifier-baseのシステムを⽤いた l これ以降、SMTやSMTとclassifierの混同、NMTのアプロー チにフォーカスした研究が進んでいる l
⾔語モデルを⽤いた⼿法に関する研究は⼤きく停滞した Ø GECにおける⾔語モデルアプローチを再調査する 3
Method l ⾔語モデル確率の低い⽂は、⾔語モデル確率の⾼い⽂よ りも⽂法誤りを含んでいるであろうというアイデア 1. ⼊⼒⽂の⾔語モデルスコアを計算する 2. ⽂中の各単語において、訂正候補セットを作る 3. 各単語における各訂正候補で置換した⽂を⽣成し、
再び⽂のスコアを計算する 4. 訂正候補の中から、スコアが閾値よりもが⾼くなる 1⽂を選ぶ 5. ステップ1~4を繰り返す 4
Method l 訂正時にスコアの閾値を設定しておき、その閾値を超える 候補にのみ訂正する 5
Method 訂正候補セット l 以下の英語のエラータイプを対象とする non-words, morphology, article and prepositions l
Non-words(⾮単語) ex) [freind → friend] CyHunspell*1を使⽤し、訂正候補を⽣成する *1 https://pypi.org/project/CyHunspell/ 6
Method 訂正候補セット l Morphology(語形) - noun number: [cat → cats]
- verb tense: [eat → ate] - adjective form: [big → bigger] など Automatically Generated Inflection Database(AGID)*2から、訂正 候補を⽣成する l Articles and Prepositions(冠詞と前置詞) article: {φ, a, an, the} preposition: {φ, about, at, by, for, from, in, of, on, to, with} *2 http://wordlist.aspell.net/other/ 7
Experiment l ⾔語モデルの構築 5-gram language model trained on the One
Billion Word Benchmark dataset*3 with KenLM l 開発セットとテストセット CoNLL-2013, CoNLL-2014, FCE, JFLEGを使⽤ 8 *3 https://arxiv.org/pdf/1312.3005.pdf
Experiment ⾔語モデルスコアの 閾値のチューニング - CoNNL-2013: 2% - FCE-dev: 4% -
JFLEG-dev: 5% 9
Result 10
Result 11
Conclusion 12 l ⽂法誤り訂正のためのシンプルで少量のアノテーションデータしか使わ ない⾔語モデルアプローチを提案し、⼤量のアノテーションデータを必 要とする機械翻訳アプローチと競争できることを⽰した l このシステムは特定のエラータイプしか訂正できない制限があるため、 missing words(単語の不⾜)など他のエラータイプも訂正可能にするが
課題に挙げられる