Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Grammatical Error Correction: Machine Translation and Classifier

Grammatical Error Correction: Machine Translation and Classifier

長岡技術科学大学
自然言語処理研究室
文献紹介(2017/6/28)

66cc992074ab4522374e429c11fef225?s=128

youichiro

June 28, 2017
Tweet

More Decks by youichiro

Other Decks in Technology

Transcript

  1. Grammatical Error Correction: Machine Translation and Classifier Alla Rozovskaya, Dan

    Roth Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, pages 2205–2215, 2016 自然言語処理研究室 小川 耀一朗 0
  2. 概要 ⽂法誤り訂正タスク(GEC)に対して ・機械学習分類システム(Classifier) ・機械翻訳システム(MT) のそれぞれのシステムの特徴を活かし、 それらを組み合わせた⼿法を提案 以前の state-of-the-art なシステムよりも⾼いスコア 1

    /13
  3. 背景 CoNLL-2014 shared task やそれ以降の研究で様々な⼿ 法が提案された 最近のGECの研究は機械学習分類システム(Classifier)と 機械翻訳システム(MT)の2つのアプローチが主に貢献して いる 2

    /13
  4. 背景 u各アプローチの特徴を活かし、さらに優れたシステムを 提案 u各システムの組み合わせにより、既存の⼿法の改善をも たらす 3 /13

  5. GECの主な手法 機械翻訳システム(MT) 機械学習分類システム(Classifier) 4 /13

  6. GECの主な手法 間違った⽂を正しい⽂に”翻訳”する 翻訳モデル:パラレルコーパス(学習者作⽂+修正⽂)を使⽤ ⾔語モデル:⽬的⾔語の⾔語コーパスを学習 特徴: ・様々なエラーの種類を識別して訂正 ・複数のエラーが相互作⽤するような複雑なエラーにも対処 5 Ø 機械翻訳システム(MT)

    /13
  7. GECの主な手法 訂正する単語を”分類予測” ⽂中のエラータイプに対して、訂正可能な単語のリストアップ (冠詞,前置詞,数名詞,動詞の調和,動詞の形式,動詞の時制,単語の形式[4]) 訂正可能な単語のうちどれに訂正すれば良いかを分類予測 特徴: ⼤量に⼊⼿可能なネイティブデータを使って訂正が可能 6 Ø 機械学習分類システム(Classifier)

    /13
  8. MT システム 実験1:学習者データの⽐較 CoNLL-2014 訓練データ vs Lang-8 MTシステム: Moses ⾔語モデル:

    English Wikipedia + CoNLL訓練データの修正⽂ 7 /13
  9. Classifier システム 実験2:訓練データの⽐較 学習者データ(CoNLL-train)[1] vs ネイティブデータ(Web1T)[2] 学習者データ:⾮ネイティブのエラーパターン情報を保持 ネイティブデータ:安価で⼤量に⼊⼿可能 8 /13

  10. Classifier システム 実験3:学習者情報の追加(Tailored) 学習者のエラーパターンをネイティブモデルに適合するとパフォーマン スが向上[3] ネイティブデータで訓練したモデルと学習者データで訓練したモデルを フューチャーして分類 ネイティブデータ→⽂脈情報を付与 学習者データ→⾮ネイティブ特有の書き⽅とエラーパターン情報を付与 9

    /13
  11. Classifier システム 実験4:機械的エラーを区別するコンポーネントを追加 (句読点, ⼤⽂字, スペル) 10 /13

  12. パイプライン 実験5:ClassifierとMTの組み合わせ MTよりも⾼い精度で訂正できるエラータイプをClassifierで訂正 11 /13

  13. パイプライン Best classifier + MT 12 /13

  14. まとめ • 最近のGECの研究は機械学習分類システム(Classifier)と 機械翻訳システム(MT)の2つの⼿法が主に貢献している • それぞれのシステムの特徴を活かし、パイプラインに よって最良の結果を得た 13 /13

  15. 参考文献 Classifier:学習者データのトレーニング [1] N. Rizzolo and D. Roth. 2010. Learning

    Based Java for Rapid Development of NLP Systems. In Proceedings of LREC. Classifier:ネイティブデータのトレーニング [2] A. Rozovskaya and D. Roth. 2014. Building a State-of-the-Art Grammatical Error Correction System. In Transactions of ACL. Classifierに⾔語リソースの追加 [3] Rozovskaya and D. Roth. 2011. Algorithm selection and model adaptation for ESL correction tasks. In Proceed- ings of ACL.A. CoNLL-2014 shared task [4]H. T. Ng, S. M. Wu, T. Briscoe, C. Hadiwinoto, R. H. Su- santo, and C. Bryant. 2014. The CoNLL-2014 shared task on grammatical error correction. In Proceedings of CoNLL: Shared Task. SMTの構築 [5] M. Junczys-Dowmunt and R. Grundkiewicz. 2014. The AMUsystem in the CoNLL- 2014 shared task: Grammatical error correction by data-intensive and feature-rich statistical machine translation. In Proceedings of the Eighteenth Conference on Computational Natural Language Learning: Shared Task.
  16. 各手法の性質 ੑ࣭ MT Classifier Error coverage: さまざまな種類のエラーを識別し 修正する能⼒ + リコール⼤

    ー リコール⼩ Error complexity: 複数のエラーが相互作⽤するよう な複雑なエラーに対処する能⼒ + フレーズテーブル を介して複雑なエラー を学習 ー Generalizability: 訓練データで観測されたものを超 えた訂正を提案する能⼒ ー 訓練データの語彙 以外の単語へは修正不 可 +可能 Supervision/Annotation: システムの訓練における学習者 データの役割 ー 必須 + 不要 System flexibility: 様々な現象を修正するために知識 情報を結合 ー 難しい + 容易
  17. エラータイプ[4]