Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Adapting Grammatical Error Correction Based on the Native Language of Writers with Neural Network Joint Models

Atom
August 05, 2019
57

Adapting Grammatical Error Correction Based on the Native Language of Writers with Neural Network Joint Models

Atom

August 05, 2019
Tweet

More Decks by Atom

Transcript

  1. Adapting Grammatical Error Correction Based on the Native Language of

    Writers with Neural Network Joint Models Shamil Chollampatt and Duc Tam Hoang and Hwee Tou Ng 文献紹介 2019/8/5 長岡技術科学大学 自然言語処理研究室 吉澤 亜斗武 Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 1901–1911, Austin, Texas, November 1-5, 2016.
  2. 2. Related Work 5 ・Yu et al. (2013)はKL正則化項を用いた話者適応を行なった. ・Joty et

    al. (2015)はNNJMとSMTに統合し,翻訳のタスクで BLEUを向上させた. ・Yuan and Briscoe(2016)はNMTベースのGECシステムを 提案し, SMTベースと競う結果を示している. ・本研究では, KL正則化項を用いたNNJMをSMTに統合する ことで,両方の利点を活用する.
  3. 3. A Machine Translation Framework for Grammatical Error Correction 6

    ℎ: context of ( − 1 previous target words and source words) : target word ℎ : unnormalized output score 0 : output vocabulary : number of training instance : self − normalization coefficient (we set to 0.1)
  4. 5. Other Adaptation Methods 9 ・Translation Model Interpolation(TMINT ) Sennrich

    (2012)の手法で,L1固有のデータで学習した フレーズテーブルとL1固有でないデータで学習したフレーズ テーブルを線形補間する. ・Neural Domain Adaptation Model(NDAM) Joty et al. (2015) の手法で,L1固有のデータを最初にNNJMで 学習し,目的関数に正則化項を追加して,L1固有でない データを学習し,SMTに統合
  5. 7.1 Baseline SMT-based GEC system 12 ・SMTはMoses(Version 3)を用いる SIN :L1固有のデータのみでフレーズテーブルを学習

    SOUT :L1固有のデータ以外でフレーズテーブルを学習 SCONCAT :L1固有でないデータでフレーズテーブルを学習 ・NNJMは192次元,512の隠れユニットで構成, = 0.5 NNJMBASELINE :L1固有のデータをまとめてNNJMを学習 NNJMADAPTED :各L1固有のデータごとにNNJMを学習
  6. 7.3 Comparison to Other Adaptation Techniques 14 ・TMINT +NNJMADAPTED が

    SCONCAT +NNJMADAPTED よりも悪い: NNJMADAPTED でソースとターゲットのコンテキストを考慮する ため,TMINT と併用して新たな情報が得られず,スペイン語の ようなL1固有データが少ない場合,パフォーマンスが低下 ・ SCONCAT +NNJMADAPTED と SCONCAT +NNJMSMALL−ADAPTED より スペイン語のようにL1固有データが少ない場合でも, general- domain data を縮小すると,L1を考慮した訂正が可能
  7. 7.6 Evaluation on Benchmark Dataset 16 ・ SCONCAT +NNJMBASELINE よりもF0.5値が

    高くなっているのはL1中国語のみ ・テストセットの大部分が中国人の 学習者であることが原因 ・STにおいて, 47.40に達しないが, SMT単体での39.48より上回っている.
  8. 8. Discussion and Error Analysis 17 ・ SCONCAT +NNJMBASELINE に比べ,

    L1学習者が誤りやすい種類の 訂正が向上していることが 確認できる. ・NNJMの適応は,小数(50~ 100)のエッセイを使用し, 短時間(20~30分)で可能で あり実用的に運用できる.