Grammar Error Correction in Morphologically Rich Languages: The Case of Russian

Grammar Error Correction in Morphologically Rich Languages: The Case of
Russian Alla Rozovskaya and Dan Roth Transactions of the Association for Computational Linguistics, vol. 7, pp. 1–17, 2019 長岡技術科学大学自然言語処理研究室小川耀一朗文献紹介（2019-06-19） 1

• 文法誤り訂正(GEC)の研究の多くは英語を対象にしており，他の言語での研究は少ない • 英語GECは大規模アノテーションコーパスのおかげで，機械翻訳手法を用いて高い性能を示すことができるが，他の言語では資源が乏しく困難である Introduction 2 この論文では ★
資源の乏しいロシア語を対象としたGECを行う ★ ロシア語の学習者アノテーションコーパスを作成・分析した ★ “Minimal supervision classification”を用いて小規模データでの訂正結果を示した

ロシア語の特徴 • 語順が自由 ◦ 日本語と似ている • 活用が多い ◦ 名詞は男性，女性，中性の3通りに変化し，さらに主格、生格、与格、対格、造格、前置格の6種類の格に応じて変化する
◦ 動詞は一人称・二人称・三人称，それぞれ単数・複数の 6通りに変化する • 単語の形によって構文情報を表現する ◦ “Morphologically Rich Language”と呼ばれる [Tsarfaty 2010] • 使用人口は2億6千万人以上，うち47%が非母語話者 About Russian 3

RULEC-GECを作成 • ロシア語学習者コーパスRULECをアノテーションしたコーパス • 12,480文 4 RULEC-GEC: Russian Learner
Corpus ➔ 全23のエラータイプに分類 ➔ Table3: エラータイプのtop13 ➔ top10までで全体の80%をカバー

• 学習者コーパスのエラー率を他言語と比較 • RULEC-GECはエラー率が低い．学習者の熟練度が高く，多様な誤りが含まれる． 5 RULEC-GEC: Russian Learner Corpus

Minimal supervision classifiers • Naive Bayes分類器を [preposition, noun case, verb
aspect, verb agreement] のそれぞれのエラータイプで構築 • 素性は[Word n-gram, POS n-gram, lemma n-gram, 形態素情報] 6

Minimal supervision classifiers 7 ネイティブデータから擬似誤り文を生成 • RULEC-GECから誤り/正解のconfusion matrixを作る • 誤り発生確率を逆に利用し，ネイティブデータから擬似誤りを生成

Experiments • Learner data ◦ RULEC-GECをtrain/dev/test=4,980/2,500/5,000(文)に分割 • Native data ◦
Yandex corpus (18M words) • MT ◦ Phrase-based SMT 8

Comparison of training data 9 ➡ 擬似誤り文を追加することでスコアが向上する

Comparison of systems 10 ➡ MTはデータが少ないとスコアが低い

Comparison of systems 11 誤りに対する添削は，1つだけとは限らない． ➡ False positive error を見て，それが許容可能かどうかを再評価
False positiveの15%が実際はtrue positiveだった．

Conclusion • 資源の乏しいロシア語を対象とした文法誤り訂正手法を提案 • Minimal supervision classificationを用いて小規模のアノテーションデータから各エラータイプの分類器を構築し，訂正を行った． • アノテーションデータでのエラーパターンを利用して擬似誤り文を生成し，訓練
データに加えることで性能が向上した． • 小規模データではMTのスコアは低く，Minimal supervision classificationの有効性を示した． 12

References Statistical Parsing of Morphologically Rich Languages (SPMRL) What, How
and Whither • Reut Tsarfaty, Djamé Seddah, Yoav Goldberg, Sandra Kuebler, Yannick Versley, Marie Candito, Jennifer Foster, Ines Rehbein, Lamia Tounsi • ACL 2010 Adapting to Learner Errors with Minimal Supervision • Alla Rozovskaya, Dan Roth, Mark Sammons • ACL 2017 13

Grammar Error Correction in Morphologically Ric...

Grammar Error Correction in Morphologically Rich Languages: The Case of Russian

youichiro

More Decks by youichiro

Other Decks in Research

Featured

Transcript