Grammatical Error Correction: Machine Translation and Classifier

Grammatical Error Correction: Machine Translation and Classifier Alla Rozovskaya, Dan
Roth Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, pages 2205–2215, 2016 自然言語処理研究室小川耀一朗 0

概要⽂法誤り訂正タスク(GEC)に対して・機械学習分類システム(Classifier) ・機械翻訳システム(MT) のそれぞれのシステムの特徴を活かし、それらを組み合わせた⼿法を提案以前の state-of-the-art なシステムよりも⾼いスコア 1
/13

背景 CoNLL-2014 shared task やそれ以降の研究で様々な⼿法が提案された最近のGECの研究は機械学習分類システム(Classifier)と機械翻訳システム(MT)の2つのアプローチが主に貢献している 2
/13

背景 u各アプローチの特徴を活かし、さらに優れたシステムを提案 u各システムの組み合わせにより、既存の⼿法の改善をもたらす 3 /13

GECの主な手法機械翻訳システム（MT）機械学習分類システム（Classifier） 4 /13

GECの主な手法間違った⽂を正しい⽂に”翻訳”する翻訳モデル：パラレルコーパス(学習者作⽂+修正⽂)を使⽤⾔語モデル：⽬的⾔語の⾔語コーパスを学習特徴：・様々なエラーの種類を識別して訂正・複数のエラーが相互作⽤するような複雑なエラーにも対処 5 Ø 機械翻訳システム（MT）
/13

GECの主な手法訂正する単語を”分類予測” ⽂中のエラータイプに対して、訂正可能な単語のリストアップ (冠詞,前置詞,数名詞,動詞の調和,動詞の形式,動詞の時制,単語の形式[4]) 訂正可能な単語のうちどれに訂正すれば良いかを分類予測特徴：⼤量に⼊⼿可能なネイティブデータを使って訂正が可能 6 Ø 機械学習分類システム（Classifier）
/13

MT システム実験1：学習者データの⽐較 CoNLL-2014 訓練データ vs Lang-8 MTシステム: Moses ⾔語モデル:
English Wikipedia + CoNLL訓練データの修正⽂ 7 /13

Classifier システム実験2：訓練データの⽐較学習者データ(CoNLL-train)[1] vs ネイティブデータ(Web1T)[2] 学習者データ：⾮ネイティブのエラーパターン情報を保持ネイティブデータ：安価で⼤量に⼊⼿可能 8 /13

Classifier システム実験3：学習者情報の追加(Tailored) 学習者のエラーパターンをネイティブモデルに適合するとパフォーマンスが向上[3] ネイティブデータで訓練したモデルと学習者データで訓練したモデルをフューチャーして分類ネイティブデータ→⽂脈情報を付与学習者データ→⾮ネイティブ特有の書き⽅とエラーパターン情報を付与 9
/13

Classifier システム実験4：機械的エラーを区別するコンポーネントを追加 (句読点, ⼤⽂字, スペル) 10 /13

パイプライン実験5：ClassifierとMTの組み合わせ MTよりも⾼い精度で訂正できるエラータイプをClassifierで訂正 11 /13

パイプライン Best classifier + MT 12 /13

まとめ • 最近のGECの研究は機械学習分類システム(Classifier)と機械翻訳システム(MT)の2つの⼿法が主に貢献している • それぞれのシステムの特徴を活かし、パイプラインによって最良の結果を得た 13 /13

参考文献 Classifier:学習者データのトレーニング [1] N. Rizzolo and D. Roth. 2010. Learning
Based Java for Rapid Development of NLP Systems. In Proceedings of LREC. Classifier:ネイティブデータのトレーニング [2] A. Rozovskaya and D. Roth. 2014. Building a State-of-the-Art Grammatical Error Correction System. In Transactions of ACL. Classifierに⾔語リソースの追加 [3] Rozovskaya and D. Roth. 2011. Algorithm selection and model adaptation for ESL correction tasks. In Proceed- ings of ACL.A. CoNLL-2014 shared task [4]H. T. Ng, S. M. Wu, T. Briscoe, C. Hadiwinoto, R. H. Su- santo, and C. Bryant. 2014. The CoNLL-2014 shared task on grammatical error correction. In Proceedings of CoNLL: Shared Task. SMTの構築 [5] M. Junczys-Dowmunt and R. Grundkiewicz. 2014. The AMUsystem in the CoNLL- 2014 shared task: Grammatical error correction by data-intensive and feature-rich statistical machine translation. In Proceedings of the Eighteenth Conference on Computational Natural Language Learning: Shared Task.

各手法の性質 ੑ࣭ MT Classifier Error coverage: さまざまな種類のエラーを識別し修正する能⼒＋リコール⼤
ーリコール⼩ Error complexity: 複数のエラーが相互作⽤するような複雑なエラーに対処する能⼒＋フレーズテーブルを介して複雑なエラーを学習ー Generalizability: 訓練データで観測されたものを超えた訂正を提案する能⼒ー訓練データの語彙以外の単語へは修正不可＋可能 Supervision/Annotation: システムの訓練における学習者データの役割ー必須＋不要 System flexibility: 様々な現象を修正するために知識情報を結合ー難しい＋容易

エラータイプ[4]

Grammatical Error Correction: Machine Translat...

Grammatical Error Correction: Machine Translation and Classifier

youichiro

More Decks by youichiro

Other Decks in Technology

Featured

Transcript