Grammar Error Correction in Morphologically Rich Languages: The Case of Russian

Grammar Error Correction in Morphologically Rich Languages: The Case of Russian

長岡技術科学大学
自然言語処理研究室
文献紹介(2019-06-19)
Grammar Error Correction in Morphologically Rich Languages: The Case of Russian
https://www.aclweb.org/anthology/Q19-1001

66cc992074ab4522374e429c11fef225?s=128

youichiro

June 19, 2019
Tweet

Transcript

  1. Grammar Error Correction in Morphologically Rich Languages: The Case of

    Russian Alla Rozovskaya and Dan Roth Transactions of the Association for Computational Linguistics, vol. 7, pp. 1–17, 2019 長岡技術科学大学 自然言語処理研究室 小川耀一朗 文献紹介(2019-06-19) 1
  2. • 文法誤り訂正(GEC)の研究の多くは英語を対象にしており,他の言語での研究は 少ない • 英語GECは大規模アノテーションコーパスのおかげで,機械翻訳手法を用いて高 い性能を示すことができるが,他の言語では資源が乏しく困難である Introduction 2 この論文では ★

    資源の乏しいロシア語を対象としたGECを行う ★ ロシア語の学習者アノテーションコーパスを作成・分析した ★ “Minimal supervision classification”を用いて小規模データでの訂正結果を示し た
  3. ロシア語の特徴 • 語順が自由 ◦ 日本語と似ている • 活用が多い ◦ 名詞は男性,女性,中性の3通りに変化し,さらに主格、生格、与格、対格、造格、前置 格の6種類の格に応じて変化する

    ◦ 動詞は一人称・二人称・三人称,それぞれ単数・複数の 6通りに変化する • 単語の形によって構文情報を表現する ◦ “Morphologically Rich Language”と呼ばれる [Tsarfaty 2010] • 使用人口は2億6千万人以上,うち47%が非母語話者 About Russian 3
  4. RULEC-GECを作成 • ロシア語学習者コーパスRULECをアノ テーションしたコーパス • 12,480文 4 RULEC-GEC: Russian Learner

    Corpus ➔ 全23のエラータイプに分類 ➔ Table3: エラータイプのtop13 ➔ top10までで全体の80%をカバー
  5. • 学習者コーパスのエラー率を他言語と比較 • RULEC-GECはエラー率が低い.学習者の熟練度が高く,多様な誤りが含ま れる. 5 RULEC-GEC: Russian Learner Corpus

  6. Minimal supervision classifiers • Naive Bayes分類器を [preposition, noun case, verb

    aspect, verb agreement] のそれぞれのエラータイプで構築 • 素性は[Word n-gram, POS n-gram, lemma n-gram, 形態素情報] 6
  7. Minimal supervision classifiers 7 ネイティブデータから擬似誤り文を生成 • RULEC-GECから誤り/正解のconfusion matrixを作る • 誤り発生確率を逆に利用し,ネイティブデータから擬似誤りを生成

  8. Experiments • Learner data ◦ RULEC-GECをtrain/dev/test=4,980/2,500/5,000(文)に分割 • Native data ◦

    Yandex corpus (18M words) • MT ◦ Phrase-based SMT 8
  9. Comparison of training data 9 ➡ 擬似誤り文を追加することでスコアが向上する

  10. Comparison of systems 10 ➡ MTはデータが少ないとスコアが低い

  11. Comparison of systems 11 誤りに対する添削は,1つだけとは限らない. ➡ False positive error を見て,それが許容可能かどうかを再評価

    False positiveの15%が実際はtrue positiveだった.
  12. Conclusion • 資源の乏しいロシア語を対象とした文法誤り訂正手法を提案 • Minimal supervision classificationを用いて小規模のアノテーションデータから各 エラータイプの分類器を構築し,訂正を行った. • アノテーションデータでのエラーパターンを利用して擬似誤り文を生成し,訓練

    データに加えることで性能が向上した. • 小規模データではMTのスコアは低く,Minimal supervision classificationの有効 性を示した. 12
  13. References Statistical Parsing of Morphologically Rich Languages (SPMRL) What, How

    and Whither • Reut Tsarfaty, Djamé Seddah, Yoav Goldberg, Sandra Kuebler, Yannick Versley, Marie Candito, Jennifer Foster, Ines Rehbein, Lamia Tounsi • ACL 2010 Adapting to Learner Errors with Minimal Supervision • Alla Rozovskaya, Dan Roth, Mark Sammons • ACL 2017 13