Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Grammar Error Correction in Morphologically Rich Languages: The Case of Russian

Grammar Error Correction in Morphologically Rich Languages: The Case of Russian

長岡技術科学大学
自然言語処理研究室
文献紹介(2019-06-19)
Grammar Error Correction in Morphologically Rich Languages: The Case of Russian
https://www.aclweb.org/anthology/Q19-1001

youichiro

June 19, 2019
Tweet

More Decks by youichiro

Other Decks in Research

Transcript

  1. Grammar Error Correction in Morphologically Rich Languages: The Case of

    Russian Alla Rozovskaya and Dan Roth Transactions of the Association for Computational Linguistics, vol. 7, pp. 1–17, 2019 長岡技術科学大学 自然言語処理研究室 小川耀一朗 文献紹介(2019-06-19) 1
  2. • 文法誤り訂正(GEC)の研究の多くは英語を対象にしており,他の言語での研究は 少ない • 英語GECは大規模アノテーションコーパスのおかげで,機械翻訳手法を用いて高 い性能を示すことができるが,他の言語では資源が乏しく困難である Introduction 2 この論文では ★

    資源の乏しいロシア語を対象としたGECを行う ★ ロシア語の学習者アノテーションコーパスを作成・分析した ★ “Minimal supervision classification”を用いて小規模データでの訂正結果を示し た
  3. ロシア語の特徴 • 語順が自由 ◦ 日本語と似ている • 活用が多い ◦ 名詞は男性,女性,中性の3通りに変化し,さらに主格、生格、与格、対格、造格、前置 格の6種類の格に応じて変化する

    ◦ 動詞は一人称・二人称・三人称,それぞれ単数・複数の 6通りに変化する • 単語の形によって構文情報を表現する ◦ “Morphologically Rich Language”と呼ばれる [Tsarfaty 2010] • 使用人口は2億6千万人以上,うち47%が非母語話者 About Russian 3
  4. RULEC-GECを作成 • ロシア語学習者コーパスRULECをアノ テーションしたコーパス • 12,480文 4 RULEC-GEC: Russian Learner

    Corpus ➔ 全23のエラータイプに分類 ➔ Table3: エラータイプのtop13 ➔ top10までで全体の80%をカバー
  5. Minimal supervision classifiers • Naive Bayes分類器を [preposition, noun case, verb

    aspect, verb agreement] のそれぞれのエラータイプで構築 • 素性は[Word n-gram, POS n-gram, lemma n-gram, 形態素情報] 6
  6. References Statistical Parsing of Morphologically Rich Languages (SPMRL) What, How

    and Whither • Reut Tsarfaty, Djamé Seddah, Yoav Goldberg, Sandra Kuebler, Yannick Versley, Marie Candito, Jennifer Foster, Ines Rehbein, Lamia Tounsi • ACL 2010 Adapting to Learner Errors with Minimal Supervision • Alla Rozovskaya, Dan Roth, Mark Sammons • ACL 2017 13