Slide 1

Slide 1 text

Adapting Grammatical Error Correction Based on the Native Language of Writers with Neural Network Joint Models Shamil Chollampatt and Duc Tam Hoang and Hwee Tou Ng 文献紹介 2019/8/5 長岡技術科学大学 自然言語処理研究室 吉澤 亜斗武 Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 1901–1911, Austin, Texas, November 1-5, 2016.

Slide 2

Slide 2 text

Abstract ・学習者の母国語(L1)を踏まえたGECは重要なタスクの一つ ・モデルの一般化を維持するためにKL正則化項を目的関数に 加えたNNJM(Neural Network Joint Models)をSMTベース の英語GECシステムに組み込んだ ・中国語,ロシア語,スペイン語のL1書き手によって書かれた 英語のテキストに適用し,F0.5値の大幅な向上がみられた 2

Slide 3

Slide 3 text

1. Introduction ・フィンランド人の英語学習者は前置詞「in」を多く用いたり, 中国人の英語学習者は動詞の活用形の誤りが多い. ・本研究では,これを考慮したGECシステムを提案 ・NNJMはウィンドウ幅を固定であるためSMTのデコーダー フレームワークに統合するのは簡単 ・先行研究よりNNJMをSMTに統合してGECのシステムを 改善している. 3

Slide 4

Slide 4 text

1. Introduction ・対数尤度目的関数を使用してL1固有ではないデータを用いて 学習し,KL正則化項を含むように修正された目的関数を使用して L1固有のデータを用いて学習させる. ・修正された目的関数は,L1固有のデータへの過学習を防ぎ, NNJMの汎用性を維持する. ・小規模(50~100のエッセイ)で高品質なL1固有のデータを 用いて有効に作用することを示す. 4

Slide 5

Slide 5 text

2. Related Work 5 ・Yu et al. (2013)はKL正則化項を用いた話者適応を行なった. ・Joty et al. (2015)はNNJMとSMTに統合し,翻訳のタスクで BLEUを向上させた. ・Yuan and Briscoe(2016)はNMTベースのGECシステムを 提案し, SMTベースと競う結果を示している. ・本研究では, KL正則化項を用いたNNJMをSMTに統合する ことで,両方の利点を活用する.

Slide 6

Slide 6 text

3. A Machine Translation Framework for Grammatical Error Correction 6 ℎ: context of ( − 1 previous target words and source words) : target word ℎ : unnormalized output score 0 : output vocabulary : number of training instance : self − normalization coefficient (we set to 0.1)

Slide 7

Slide 7 text

4. KL Divergence Regularized Adaptation 7 ・NNJMをgeneral-domain data(L1固有でないデータ)で トレーニングし,推定された確率分布を(|ℎ)とする ・次のようなKL正則化項を考え,目的関数に組み込む

Slide 8

Slide 8 text

4. KL Divergence Regularized Adaptation 8 ・L1固有のデータを用いて,を最小化 ・(|ℎ) から過度に逸脱した確率分布を推定するのを防ぐ ・SMTのデコーダーとして統合

Slide 9

Slide 9 text

5. Other Adaptation Methods 9 ・Translation Model Interpolation(TMINT ) Sennrich (2012)の手法で,L1固有のデータで学習した フレーズテーブルとL1固有でないデータで学習したフレーズ テーブルを線形補間する. ・Neural Domain Adaptation Model(NDAM) Joty et al. (2015) の手法で,L1固有のデータを最初にNNJMで 学習し,目的関数に正則化項を追加して,L1固有でない データを学習し,SMTに統合

Slide 10

Slide 10 text

6. Data and Evaluation 10 L1固有でない訓練データ ( general-domain data ) L1固有の訓練データ (in-domain data)

Slide 11

Slide 11 text

6. Data and Evaluation 11

Slide 12

Slide 12 text

7.1 Baseline SMT-based GEC system 12 ・SMTはMoses(Version 3)を用いる SIN :L1固有のデータのみでフレーズテーブルを学習 SOUT :L1固有のデータ以外でフレーズテーブルを学習 SCONCAT :L1固有でないデータでフレーズテーブルを学習 ・NNJMは192次元,512の隠れユニットで構成, = 0.5 NNJMBASELINE :L1固有のデータをまとめてNNJMを学習 NNJMADAPTED :各L1固有のデータごとにNNJMを学習

Slide 13

Slide 13 text

7.2 NNJM Adaptation 13 SMALL:general data を CONCATから無作為抽出された30万文に縮小

Slide 14

Slide 14 text

7.3 Comparison to Other Adaptation Techniques 14 ・TMINT +NNJMADAPTED が SCONCAT +NNJMADAPTED よりも悪い: NNJMADAPTED でソースとターゲットのコンテキストを考慮する ため,TMINT と併用して新たな情報が得られず,スペイン語の ようなL1固有データが少ない場合,パフォーマンスが低下 ・ SCONCAT +NNJMADAPTED と SCONCAT +NNJMSMALL−ADAPTED より スペイン語のようにL1固有データが少ない場合でも, general- domain data を縮小すると,L1を考慮した訂正が可能

Slide 15

Slide 15 text

7.5 Effect of Regularization 15 ・ = 0ではL1固有データへの 過適合が生じる ・中国語のようにL1固有データ が多い場合,を変更しても 変化が少ない.

Slide 16

Slide 16 text

7.6 Evaluation on Benchmark Dataset 16 ・ SCONCAT +NNJMBASELINE よりもF0.5値が 高くなっているのはL1中国語のみ ・テストセットの大部分が中国人の 学習者であることが原因 ・STにおいて, 47.40に達しないが, SMT単体での39.48より上回っている.

Slide 17

Slide 17 text

8. Discussion and Error Analysis 17 ・ SCONCAT +NNJMBASELINE に比べ, L1学習者が誤りやすい種類の 訂正が向上していることが 確認できる. ・NNJMの適応は,小数(50~ 100)のエッセイを使用し, 短時間(20~30分)で可能で あり実用的に運用できる.

Slide 18

Slide 18 text

9. Conclusions 18 ・L1固有の学習者テキストを用いてKL正則化項を用いた 目的関数をNNJMに適応し,SMTベースのGECシステムに 統合した. ・L1固有のデータが少ない場合でも,他の手法よりも優れた F0.5スコアをだすことを示した. ・英語学習者のためにGECシステムを改善し,実用的であること を示した.