Adapting Grammatical Error Correction Based on the Native Language of Writers with Neural Network Joint Models

Slide 1

Slide 1 text

Adapting Grammatical Error Correction Based on the Native Language of Writers with Neural Network Joint Models Shamil Chollampatt and Duc Tam Hoang and Hwee Tou Ng 文献紹介 2019/8/5 長岡技術科学大学自然言語処理研究室吉澤亜斗武 Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 1901–1911, Austin, Texas, November 1-5, 2016.

Slide 2

Slide 2 text

Abstract ・学習者の母国語（L1）を踏まえたGECは重要なタスクの一つ・モデルの一般化を維持するためにKL正則化項を目的関数に加えたNNJM（Neural Network Joint Models）をSMTベースの英語GECシステムに組み込んだ・中国語，ロシア語，スペイン語のL1書き手によって書かれた英語のテキストに適用し，F0.5値の大幅な向上がみられた 2

Slide 3

Slide 3 text

1. Introduction ・フィンランド人の英語学習者は前置詞「in」を多く用いたり，中国人の英語学習者は動詞の活用形の誤りが多い．・本研究では，これを考慮したGECシステムを提案・NNJMはウィンドウ幅を固定であるためSMTのデコーダーフレームワークに統合するのは簡単・先行研究よりNNJMをSMTに統合してGECのシステムを改善している． 3

Slide 4

Slide 4 text

1. Introduction ・対数尤度目的関数を使用してL1固有ではないデータを用いて学習し，KL正則化項を含むように修正された目的関数を使用して L1固有のデータを用いて学習させる．・修正された目的関数は，L1固有のデータへの過学習を防ぎ， NNJMの汎用性を維持する．・小規模（50～100のエッセイ）で高品質なL1固有のデータを用いて有効に作用することを示す． 4

Slide 5

Slide 5 text

2. Related Work 5 ・Yu et al. (2013)はKL正則化項を用いた話者適応を行なった．・Joty et al. (2015)はNNJMとSMTに統合し，翻訳のタスクで BLEUを向上させた．・Yuan and Briscoe（2016）はNMTベースのGECシステムを提案し， SMTベースと競う結果を示している．・本研究では， KL正則化項を用いたNNJMをSMTに統合することで，両方の利点を活用する．

Slide 6

Slide 6 text

3. A Machine Translation Framework for Grammatical Error Correction 6 ℎ: context of ( − 1 previous target words and source words) : target word ℎ : unnormalized output score 0 : output vocabulary : number of training instance : self − normalization coefficient (we set to 0.1)

Slide 7

Slide 7 text

4. KL Divergence Regularized Adaptation 7 ・NNJMをgeneral-domain data（L1固有でないデータ）でトレーニングし，推定された確率分布を(|ℎ)とする・次のようなKL正則化項を考え，目的関数に組み込む

Slide 8

Slide 8 text

4. KL Divergence Regularized Adaptation 8 ・L1固有のデータを用いて，を最小化・(|ℎ) から過度に逸脱した確率分布を推定するのを防ぐ・SMTのデコーダーとして統合

Slide 9

Slide 9 text

5. Other Adaptation Methods 9 ・Translation Model Interpolation（TMINT ） Sennrich (2012)の手法で，L1固有のデータで学習したフレーズテーブルとL1固有でないデータで学習したフレーズテーブルを線形補間する．・Neural Domain Adaptation Model（NDAM） Joty et al. (2015) の手法で，L1固有のデータを最初にNNJMで学習し，目的関数に正則化項を追加して，L1固有でないデータを学習し，SMTに統合

Slide 10

Slide 10 text

6. Data and Evaluation 10 L1固有でない訓練データ（ general-domain data ） L1固有の訓練データ（in-domain data）

Slide 11

Slide 11 text

6. Data and Evaluation 11

Slide 12

Slide 12 text

7.1 Baseline SMT-based GEC system 12 ・SMTはMoses(Version 3)を用いる SIN ：L1固有のデータのみでフレーズテーブルを学習 SOUT ：L1固有のデータ以外でフレーズテーブルを学習 SCONCAT ：L1固有でないデータでフレーズテーブルを学習・NNJMは192次元，512の隠れユニットで構成， = 0.5 NNJMBASELINE ：L1固有のデータをまとめてNNJMを学習 NNJMADAPTED ：各L1固有のデータごとにNNJMを学習

Slide 13

Slide 13 text

7.2 NNJM Adaptation 13 SMALL：general data を CONCATから無作為抽出された30万文に縮小

Slide 14

Slide 14 text

7.3 Comparison to Other Adaptation Techniques 14 ・TMINT +NNJMADAPTED が SCONCAT +NNJMADAPTED よりも悪い： NNJMADAPTED でソースとターゲットのコンテキストを考慮するため，TMINT と併用して新たな情報が得られず，スペイン語のようなL1固有データが少ない場合，パフォーマンスが低下・ SCONCAT +NNJMADAPTED と SCONCAT +NNJMSMALL−ADAPTED よりスペイン語のようにL1固有データが少ない場合でも， general- domain data を縮小すると，L1を考慮した訂正が可能

Slide 15

Slide 15 text

7.5 Effect of Regularization 15 ・ = 0ではL1固有データへの過適合が生じる・中国語のようにL1固有データが多い場合，を変更しても変化が少ない．

Slide 16

Slide 16 text

7.6 Evaluation on Benchmark Dataset 16 ・ SCONCAT +NNJMBASELINE よりもF0.5値が高くなっているのはL1中国語のみ・テストセットの大部分が中国人の学習者であることが原因・STにおいて， 47.40に達しないが， SMT単体での39.48より上回っている．

Slide 17

Slide 17 text

8. Discussion and Error Analysis 17 ・ SCONCAT +NNJMBASELINE に比べ， L1学習者が誤りやすい種類の訂正が向上していることが確認できる．・NNJMの適応は，小数（50～ 100）のエッセイを使用し，短時間（20～30分）で可能であり実用的に運用できる．

Slide 18

Slide 18 text

9. Conclusions 18 ・L1固有の学習者テキストを用いてKL正則化項を用いた目的関数をNNJMに適応し，SMTベースのGECシステムに統合した．・L1固有のデータが少ない場合でも，他の手法よりも優れた F0.5スコアをだすことを示した．・英語学習者のためにGECシステムを改善し，実用的であることを示した．