Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Grammatical error correction using hybrid systems and type filtering

Grammatical error correction using hybrid systems and type filtering

2017年5月31日
文献紹介
長岡技術科学大学 自然言語処理研究室

youichiro

May 31, 2017
Tweet

More Decks by youichiro

Other Decks in Technology

Transcript

  1. Grammatical error correction using hybrid systems and type filtering Mariano

    Felice, Zheng Yuan, Øistein E. Andersen, Helen Yannakoudakis, and Ekaterina Kochmar Proceedings of the 18th Conference on Computational Natural Language Learning: Shared Task, pages 15–24, 2014 自然言語処理研究室 小川 耀一朗 0
  2. 概要 • 英語の⽂法誤り訂正タスクに取り組む • ルールベースとSMTの誤り訂正システムを組み合わせた ハイブリッドシステムを提案 • CoNLL-2014 shared task

    において、オリジナルのテ ストセットでは1位、アノテーションを修正したテスト セットでは2位の成績 1 /12
  3. 背景 現在の⽂法誤り訂正⼿法は多くのエラータイプにおいて⾼ 性能を達成していない[1] CoNLL-2014 shared task: Grammatical Error Correction[1] •

    英語以外のネイティブスピーカーが作成した短い⽂章に存在する全 ての⽂法誤りを訂正する • 参加チームには⽂法誤りがアノテーションされた共通の訓練データ を配布 • 未知のテストデータを共有の評価基準で評価 • 14チームが参加 Shared task に提出した⼿法を紹介 2 /12
  4. 実験 フィルタリング 訂正の精度が0のタイプを除外 ・Reordering: 並べ替え you also can → you

    can also ・Srun: カンマ区切り The issue is highly [debatable, a → debatable. A] genetic risk could come from either side of the family.[1] ・Wa: 頭字語 After [WOWII → World War II], the population of China decreased rapidly.[1] 10 /12
  5. 参考文献 [1]Hwee Tou Ng, Siew Mei Wu, Ted Briscoe, Christian

    Hadiwinoto, Raymond Hendy Susanto, and Christopher Bryant. 2014. The CoNLL- 2014 Shared Task on Grammatical Error Correction. In Proceedings of the Eighteenth Conference on Computational Natu- ral Language Learning: Shared Task (CoNLL-2014 Shared Task), Baltimore, Maryland, USA, June. Association for Computational Linguistics. To appear. [2]Diane Nicholls. 2003. The Cambridge Learner Corpus: Error coding and analysis for lexicography and ELT. In Dawn Archer, Paul Rayson, Andrew Wilson, and Tony McEnery, editors, Proceedings of the Corpus Linguistics 2003 conference, pages 572– 581, Lancaster, UK. University Centre for Computer Corpus Research on Language, Lancaster University. 13