Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Grammatical Error Correction: Machine Translation and Classifier

Grammatical Error Correction: Machine Translation and Classifier

長岡技術科学大学
自然言語処理研究室
文献紹介(2017/6/28)

youichiro

June 28, 2017
Tweet

More Decks by youichiro

Other Decks in Technology

Transcript

  1. Grammatical Error Correction:
    Machine Translation and Classifier
    Alla Rozovskaya, Dan Roth
    Proceedings of the 54th Annual Meeting of the
    Association for Computational Linguistics,
    pages 2205–2215, 2016
    自然言語処理研究室 小川 耀一朗
    0

    View Slide

  2. 概要
    ⽂法誤り訂正タスク(GEC)に対して
    ・機械学習分類システム(Classifier)
    ・機械翻訳システム(MT)
    のそれぞれのシステムの特徴を活かし、
    それらを組み合わせた⼿法を提案
    以前の state-of-the-art なシステムよりも⾼いスコア
    1 /13

    View Slide

  3. 背景
    CoNLL-2014 shared task やそれ以降の研究で様々な⼿
    法が提案された
    最近のGECの研究は機械学習分類システム(Classifier)と
    機械翻訳システム(MT)の2つのアプローチが主に貢献して
    いる
    2 /13

    View Slide

  4. 背景
    u各アプローチの特徴を活かし、さらに優れたシステムを
    提案
    u各システムの組み合わせにより、既存の⼿法の改善をも
    たらす
    3 /13

    View Slide

  5. GECの主な手法
    機械翻訳システム(MT)
    機械学習分類システム(Classifier)
    4 /13

    View Slide

  6. GECの主な手法
    間違った⽂を正しい⽂に”翻訳”する
    翻訳モデル:パラレルコーパス(学習者作⽂+修正⽂)を使⽤
    ⾔語モデル:⽬的⾔語の⾔語コーパスを学習
    特徴:
    ・様々なエラーの種類を識別して訂正
    ・複数のエラーが相互作⽤するような複雑なエラーにも対処
    5
    Ø 機械翻訳システム(MT)
    /13

    View Slide

  7. GECの主な手法
    訂正する単語を”分類予測”
    ⽂中のエラータイプに対して、訂正可能な単語のリストアップ
    (冠詞,前置詞,数名詞,動詞の調和,動詞の形式,動詞の時制,単語の形式[4])
    訂正可能な単語のうちどれに訂正すれば良いかを分類予測
    特徴:
    ⼤量に⼊⼿可能なネイティブデータを使って訂正が可能
    6
    Ø 機械学習分類システム(Classifier)
    /13

    View Slide

  8. MT システム
    実験1:学習者データの⽐較
    CoNLL-2014 訓練データ vs Lang-8
    MTシステム: Moses
    ⾔語モデル: English Wikipedia + CoNLL訓練データの修正⽂
    7 /13

    View Slide

  9. Classifier システム
    実験2:訓練データの⽐較
    学習者データ(CoNLL-train)[1] vs ネイティブデータ(Web1T)[2]
    学習者データ:⾮ネイティブのエラーパターン情報を保持
    ネイティブデータ:安価で⼤量に⼊⼿可能
    8 /13

    View Slide

  10. Classifier システム
    実験3:学習者情報の追加(Tailored)
    学習者のエラーパターンをネイティブモデルに適合するとパフォーマン
    スが向上[3]
    ネイティブデータで訓練したモデルと学習者データで訓練したモデルを
    フューチャーして分類
    ネイティブデータ→⽂脈情報を付与
    学習者データ→⾮ネイティブ特有の書き⽅とエラーパターン情報を付与
    9 /13

    View Slide

  11. Classifier システム
    実験4:機械的エラーを区別するコンポーネントを追加
    (句読点, ⼤⽂字, スペル)
    10 /13

    View Slide

  12. パイプライン
    実験5:ClassifierとMTの組み合わせ
    MTよりも⾼い精度で訂正できるエラータイプをClassifierで訂正
    11 /13

    View Slide

  13. パイプライン
    Best classifier + MT
    12 /13

    View Slide

  14. まとめ
    • 最近のGECの研究は機械学習分類システム(Classifier)と
    機械翻訳システム(MT)の2つの⼿法が主に貢献している
    • それぞれのシステムの特徴を活かし、パイプラインに
    よって最良の結果を得た
    13 /13

    View Slide

  15. 参考文献
    Classifier:学習者データのトレーニング
    [1] N. Rizzolo and D. Roth. 2010. Learning Based Java for Rapid Development of
    NLP Systems. In Proceedings of LREC.
    Classifier:ネイティブデータのトレーニング
    [2] A. Rozovskaya and D. Roth. 2014. Building a State-of-the-Art Grammatical Error
    Correction System. In Transactions of ACL.
    Classifierに⾔語リソースの追加
    [3] Rozovskaya and D. Roth. 2011. Algorithm selection and model adaptation for
    ESL correction tasks. In Proceed- ings of ACL.A.
    CoNLL-2014 shared task
    [4]H. T. Ng, S. M. Wu, T. Briscoe, C. Hadiwinoto, R. H. Su- santo, and C. Bryant.
    2014. The CoNLL-2014 shared task on grammatical error correction. In Proceedings
    of CoNLL: Shared Task.
    SMTの構築
    [5] M. Junczys-Dowmunt and R. Grundkiewicz. 2014. The AMUsystem in the CoNLL-
    2014 shared task: Grammatical error correction by data-intensive and feature-rich
    statistical machine translation. In Proceedings of the Eighteenth Conference on
    Computational Natural Language Learning: Shared Task.

    View Slide

  16. 各手法の性質
    ੑ࣭ MT Classifier
    Error coverage:
    さまざまな種類のエラーを識別し
    修正する能⼒
    + リコール⼤ ー リコール⼩
    Error complexity:
    複数のエラーが相互作⽤するよう
    な複雑なエラーに対処する能⼒
    + フレーズテーブル
    を介して複雑なエラー
    を学習

    Generalizability:
    訓練データで観測されたものを超
    えた訂正を提案する能⼒
    ー 訓練データの語彙
    以外の単語へは修正不

    +可能
    Supervision/Annotation:
    システムの訓練における学習者
    データの役割
    ー 必須 + 不要
    System flexibility:
    様々な現象を修正するために知識
    情報を結合
    ー 難しい + 容易

    View Slide

  17. エラータイプ[4]

    View Slide