Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Adapting Grammatical Error Correction Based on the Native Language of Writers with Neural Network Joint Models

Atom
August 05, 2019
52

Adapting Grammatical Error Correction Based on the Native Language of Writers with Neural Network Joint Models

Atom

August 05, 2019
Tweet

More Decks by Atom

Transcript

  1. Adapting Grammatical Error Correction
    Based on the Native Language of Writers
    with Neural Network Joint Models
    Shamil Chollampatt and Duc Tam Hoang and Hwee Tou Ng
    文献紹介
    2019/8/5
    長岡技術科学大学
    自然言語処理研究室 吉澤 亜斗武
    Proceedings of the 2016 Conference on Empirical Methods in Natural Language
    Processing, pages 1901–1911, Austin, Texas, November 1-5, 2016.

    View full-size slide

  2. Abstract
    ・学習者の母国語(L1)を踏まえたGECは重要なタスクの一つ
    ・モデルの一般化を維持するためにKL正則化項を目的関数に
    加えたNNJM(Neural Network Joint Models)をSMTベース
    の英語GECシステムに組み込んだ
    ・中国語,ロシア語,スペイン語のL1書き手によって書かれた
    英語のテキストに適用し,F0.5値の大幅な向上がみられた
    2

    View full-size slide

  3. 1. Introduction
    ・フィンランド人の英語学習者は前置詞「in」を多く用いたり,
    中国人の英語学習者は動詞の活用形の誤りが多い.
    ・本研究では,これを考慮したGECシステムを提案
    ・NNJMはウィンドウ幅を固定であるためSMTのデコーダー
    フレームワークに統合するのは簡単
    ・先行研究よりNNJMをSMTに統合してGECのシステムを
    改善している.
    3

    View full-size slide

  4. 1. Introduction
    ・対数尤度目的関数を使用してL1固有ではないデータを用いて
    学習し,KL正則化項を含むように修正された目的関数を使用して
    L1固有のデータを用いて学習させる.
    ・修正された目的関数は,L1固有のデータへの過学習を防ぎ,
    NNJMの汎用性を維持する.
    ・小規模(50~100のエッセイ)で高品質なL1固有のデータを
    用いて有効に作用することを示す.
    4

    View full-size slide

  5. 2. Related Work
    5
    ・Yu et al. (2013)はKL正則化項を用いた話者適応を行なった.
    ・Joty et al. (2015)はNNJMとSMTに統合し,翻訳のタスクで
    BLEUを向上させた.
    ・Yuan and Briscoe(2016)はNMTベースのGECシステムを
    提案し, SMTベースと競う結果を示している.
    ・本研究では, KL正則化項を用いたNNJMをSMTに統合する
    ことで,両方の利点を活用する.

    View full-size slide

  6. 3. A Machine Translation Framework for Grammatical Error Correction
    6
    ℎ: context of ( − 1 previous target words and source words)
    : target word
    ℎ : unnormalized output score 0
    : output vocabulary
    : number of training instance : self − normalization coefficient (we set to 0.1)

    View full-size slide

  7. 4. KL Divergence Regularized Adaptation
    7
    ・NNJMをgeneral-domain data(L1固有でないデータ)で
    トレーニングし,推定された確率分布を(|ℎ)とする
    ・次のようなKL正則化項を考え,目的関数に組み込む

    View full-size slide

  8. 4. KL Divergence Regularized Adaptation
    8
    ・L1固有のデータを用いて,を最小化
    ・(|ℎ) から過度に逸脱した確率分布を推定するのを防ぐ
    ・SMTのデコーダーとして統合

    View full-size slide

  9. 5. Other Adaptation Methods
    9
    ・Translation Model Interpolation(TMINT

    Sennrich (2012)の手法で,L1固有のデータで学習した
    フレーズテーブルとL1固有でないデータで学習したフレーズ
    テーブルを線形補間する.
    ・Neural Domain Adaptation Model(NDAM)
    Joty et al. (2015) の手法で,L1固有のデータを最初にNNJMで
    学習し,目的関数に正則化項を追加して,L1固有でない
    データを学習し,SMTに統合

    View full-size slide

  10. 6. Data and Evaluation
    10
    L1固有でない訓練データ
    ( general-domain data )
    L1固有の訓練データ
    (in-domain data)

    View full-size slide

  11. 6. Data and Evaluation
    11

    View full-size slide

  12. 7.1 Baseline SMT-based GEC system
    12
    ・SMTはMoses(Version 3)を用いる
    SIN
    :L1固有のデータのみでフレーズテーブルを学習
    SOUT
    :L1固有のデータ以外でフレーズテーブルを学習
    SCONCAT
    :L1固有でないデータでフレーズテーブルを学習
    ・NNJMは192次元,512の隠れユニットで構成, = 0.5
    NNJMBASELINE
    :L1固有のデータをまとめてNNJMを学習
    NNJMADAPTED
    :各L1固有のデータごとにNNJMを学習

    View full-size slide

  13. 7.2 NNJM Adaptation
    13
    SMALL:general data を CONCATから無作為抽出された30万文に縮小

    View full-size slide

  14. 7.3 Comparison to Other Adaptation Techniques
    14
    ・TMINT
    +NNJMADAPTED
    が SCONCAT
    +NNJMADAPTED
    よりも悪い:
    NNJMADAPTED
    でソースとターゲットのコンテキストを考慮する
    ため,TMINT
    と併用して新たな情報が得られず,スペイン語の
    ようなL1固有データが少ない場合,パフォーマンスが低下
    ・ SCONCAT
    +NNJMADAPTED
    と SCONCAT
    +NNJMSMALL−ADAPTED
    より
    スペイン語のようにL1固有データが少ない場合でも, general-
    domain data を縮小すると,L1を考慮した訂正が可能

    View full-size slide

  15. 7.5 Effect of Regularization
    15
    ・ = 0ではL1固有データへの
    過適合が生じる
    ・中国語のようにL1固有データ
    が多い場合,を変更しても
    変化が少ない.

    View full-size slide

  16. 7.6 Evaluation on Benchmark Dataset
    16
    ・ SCONCAT
    +NNJMBASELINE
    よりもF0.5値が
    高くなっているのはL1中国語のみ
    ・テストセットの大部分が中国人の
    学習者であることが原因
    ・STにおいて, 47.40に達しないが,
    SMT単体での39.48より上回っている.

    View full-size slide

  17. 8. Discussion and Error Analysis
    17
    ・ SCONCAT
    +NNJMBASELINE
    に比べ,
    L1学習者が誤りやすい種類の
    訂正が向上していることが
    確認できる.
    ・NNJMの適応は,小数(50~
    100)のエッセイを使用し,
    短時間(20~30分)で可能で
    あり実用的に運用できる.

    View full-size slide

  18. 9. Conclusions
    18
    ・L1固有の学習者テキストを用いてKL正則化項を用いた
    目的関数をNNJMに適応し,SMTベースのGECシステムに
    統合した.
    ・L1固有のデータが少ない場合でも,他の手法よりも優れた
    F0.5スコアをだすことを示した.
    ・英語学習者のためにGECシステムを改善し,実用的であること
    を示した.

    View full-size slide