Adapting Grammatical Error Correction Based on the Native Language of Writers with Neural Network Joint Models

7b478cab8e68f81b1f6830077b6649ca?s=47 Atom
August 05, 2019
26

Adapting Grammatical Error Correction Based on the Native Language of Writers with Neural Network Joint Models

7b478cab8e68f81b1f6830077b6649ca?s=128

Atom

August 05, 2019
Tweet

Transcript

  1. Adapting Grammatical Error Correction Based on the Native Language of

    Writers with Neural Network Joint Models Shamil Chollampatt and Duc Tam Hoang and Hwee Tou Ng 文献紹介 2019/8/5 長岡技術科学大学 自然言語処理研究室 吉澤 亜斗武 Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 1901–1911, Austin, Texas, November 1-5, 2016.
  2. Abstract ・学習者の母国語(L1)を踏まえたGECは重要なタスクの一つ ・モデルの一般化を維持するためにKL正則化項を目的関数に 加えたNNJM(Neural Network Joint Models)をSMTベース の英語GECシステムに組み込んだ ・中国語,ロシア語,スペイン語のL1書き手によって書かれた 英語のテキストに適用し,F0.5値の大幅な向上がみられた

    2
  3. 1. Introduction ・フィンランド人の英語学習者は前置詞「in」を多く用いたり, 中国人の英語学習者は動詞の活用形の誤りが多い. ・本研究では,これを考慮したGECシステムを提案 ・NNJMはウィンドウ幅を固定であるためSMTのデコーダー フレームワークに統合するのは簡単 ・先行研究よりNNJMをSMTに統合してGECのシステムを 改善している. 3

  4. 1. Introduction ・対数尤度目的関数を使用してL1固有ではないデータを用いて 学習し,KL正則化項を含むように修正された目的関数を使用して L1固有のデータを用いて学習させる. ・修正された目的関数は,L1固有のデータへの過学習を防ぎ, NNJMの汎用性を維持する. ・小規模(50~100のエッセイ)で高品質なL1固有のデータを 用いて有効に作用することを示す. 4

  5. 2. Related Work 5 ・Yu et al. (2013)はKL正則化項を用いた話者適応を行なった. ・Joty et

    al. (2015)はNNJMとSMTに統合し,翻訳のタスクで BLEUを向上させた. ・Yuan and Briscoe(2016)はNMTベースのGECシステムを 提案し, SMTベースと競う結果を示している. ・本研究では, KL正則化項を用いたNNJMをSMTに統合する ことで,両方の利点を活用する.
  6. 3. A Machine Translation Framework for Grammatical Error Correction 6

    ℎ: context of ( − 1 previous target words and source words) : target word ℎ : unnormalized output score 0 : output vocabulary : number of training instance : self − normalization coefficient (we set to 0.1)
  7. 4. KL Divergence Regularized Adaptation 7 ・NNJMをgeneral-domain data(L1固有でないデータ)で トレーニングし,推定された確率分布を(|ℎ)とする ・次のようなKL正則化項を考え,目的関数に組み込む

  8. 4. KL Divergence Regularized Adaptation 8 ・L1固有のデータを用いて,を最小化 ・(|ℎ) から過度に逸脱した確率分布を推定するのを防ぐ ・SMTのデコーダーとして統合

  9. 5. Other Adaptation Methods 9 ・Translation Model Interpolation(TMINT ) Sennrich

    (2012)の手法で,L1固有のデータで学習した フレーズテーブルとL1固有でないデータで学習したフレーズ テーブルを線形補間する. ・Neural Domain Adaptation Model(NDAM) Joty et al. (2015) の手法で,L1固有のデータを最初にNNJMで 学習し,目的関数に正則化項を追加して,L1固有でない データを学習し,SMTに統合
  10. 6. Data and Evaluation 10 L1固有でない訓練データ ( general-domain data )

    L1固有の訓練データ (in-domain data)
  11. 6. Data and Evaluation 11

  12. 7.1 Baseline SMT-based GEC system 12 ・SMTはMoses(Version 3)を用いる SIN :L1固有のデータのみでフレーズテーブルを学習

    SOUT :L1固有のデータ以外でフレーズテーブルを学習 SCONCAT :L1固有でないデータでフレーズテーブルを学習 ・NNJMは192次元,512の隠れユニットで構成, = 0.5 NNJMBASELINE :L1固有のデータをまとめてNNJMを学習 NNJMADAPTED :各L1固有のデータごとにNNJMを学習
  13. 7.2 NNJM Adaptation 13 SMALL:general data を CONCATから無作為抽出された30万文に縮小

  14. 7.3 Comparison to Other Adaptation Techniques 14 ・TMINT +NNJMADAPTED が

    SCONCAT +NNJMADAPTED よりも悪い: NNJMADAPTED でソースとターゲットのコンテキストを考慮する ため,TMINT と併用して新たな情報が得られず,スペイン語の ようなL1固有データが少ない場合,パフォーマンスが低下 ・ SCONCAT +NNJMADAPTED と SCONCAT +NNJMSMALL−ADAPTED より スペイン語のようにL1固有データが少ない場合でも, general- domain data を縮小すると,L1を考慮した訂正が可能
  15. 7.5 Effect of Regularization 15 ・ = 0ではL1固有データへの 過適合が生じる ・中国語のようにL1固有データ

    が多い場合,を変更しても 変化が少ない.
  16. 7.6 Evaluation on Benchmark Dataset 16 ・ SCONCAT +NNJMBASELINE よりもF0.5値が

    高くなっているのはL1中国語のみ ・テストセットの大部分が中国人の 学習者であることが原因 ・STにおいて, 47.40に達しないが, SMT単体での39.48より上回っている.
  17. 8. Discussion and Error Analysis 17 ・ SCONCAT +NNJMBASELINE に比べ,

    L1学習者が誤りやすい種類の 訂正が向上していることが 確認できる. ・NNJMの適応は,小数(50~ 100)のエッセイを使用し, 短時間(20~30分)で可能で あり実用的に運用できる.
  18. 9. Conclusions 18 ・L1固有の学習者テキストを用いてKL正則化項を用いた 目的関数をNNJMに適応し,SMTベースのGECシステムに 統合した. ・L1固有のデータが少ない場合でも,他の手法よりも優れた F0.5スコアをだすことを示した. ・英語学習者のためにGECシステムを改善し,実用的であること を示した.