Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Language Model Based Grammatical Error Correction without Annotated Training Data

Language Model Based Grammatical Error Correction without Annotated Training Data

長岡技術科学大学
自然言語処理研究室
文献紹介(2018-07-25)

youichiro

July 25, 2018
Tweet

More Decks by youichiro

Other Decks in Technology

Transcript

  1. Language Model Based Grammatical Error
    Correction without Annotated Training Data
    Christopher Bryant and Ted Briscoe
    Proceedings of the Thirteenth Workshop on Innovative Use of NLP for Building
    Educational Applications, pages 247–253, 2018
    ⽂献紹介(2018-07-25)
    ⻑岡技術科学⼤学 ⾃然⾔語処理研究室 ⼩川 耀⼀朗
    1

    View Slide

  2. Abstract
    l ⾔語モデルを⽤いた⽂法誤り訂正アプローチ
    l シンプルかつ少量のアノテーションデータしか⽤いない⾔
    語モデルアプローチが、⼤量のアノテーションデータで訓
    練されたモデルと競争できる性能を⽰した
    2

    View Slide

  3. Introduction
    l CoNNL-2014 shared taskではTop3のチーム全てがSMTあ
    るいはclassifier-baseのシステムを⽤いた
    l これ以降、SMTやSMTとclassifierの混同、NMTのアプロー
    チにフォーカスした研究が進んでいる
    l ⾔語モデルを⽤いた⼿法に関する研究は⼤きく停滞した
    Ø GECにおける⾔語モデルアプローチを再調査する
    3

    View Slide

  4. Method
    l ⾔語モデル確率の低い⽂は、⾔語モデル確率の⾼い⽂よ
    りも⽂法誤りを含んでいるであろうというアイデア
    1. ⼊⼒⽂の⾔語モデルスコアを計算する
    2. ⽂中の各単語において、訂正候補セットを作る
    3. 各単語における各訂正候補で置換した⽂を⽣成し、
    再び⽂のスコアを計算する
    4. 訂正候補の中から、スコアが閾値よりもが⾼くなる
    1⽂を選ぶ
    5. ステップ1~4を繰り返す
    4

    View Slide

  5. Method
    l 訂正時にスコアの閾値を設定しておき、その閾値を超える
    候補にのみ訂正する
    5

    View Slide

  6. Method
    訂正候補セット
    l 以下の英語のエラータイプを対象とする
    non-words, morphology, article and prepositions
    l Non-words(⾮単語)
    ex) [freind → friend]
    CyHunspell*1を使⽤し、訂正候補を⽣成する
    *1 https://pypi.org/project/CyHunspell/
    6

    View Slide

  7. Method
    訂正候補セット
    l Morphology(語形)
    - noun number: [cat → cats]
    - verb tense: [eat → ate]
    - adjective form: [big → bigger] など
    Automatically Generated Inflection Database(AGID)*2から、訂正
    候補を⽣成する
    l Articles and Prepositions(冠詞と前置詞)
    article: {φ, a, an, the}
    preposition: {φ, about, at, by, for, from, in, of, on, to, with}
    *2 http://wordlist.aspell.net/other/ 7

    View Slide

  8. Experiment
    l ⾔語モデルの構築
    5-gram language model trained on the One Billion Word
    Benchmark dataset*3 with KenLM
    l 開発セットとテストセット
    CoNLL-2013, CoNLL-2014, FCE, JFLEGを使⽤
    8
    *3 https://arxiv.org/pdf/1312.3005.pdf

    View Slide

  9. Experiment
    ⾔語モデルスコアの
    閾値のチューニング
    - CoNNL-2013: 2%
    - FCE-dev: 4%
    - JFLEG-dev: 5%
    9

    View Slide

  10. Result
    10

    View Slide

  11. Result
    11

    View Slide

  12. Conclusion
    12
    l ⽂法誤り訂正のためのシンプルで少量のアノテーションデータしか使わ
    ない⾔語モデルアプローチを提案し、⼤量のアノテーションデータを必
    要とする機械翻訳アプローチと競争できることを⽰した
    l このシステムは特定のエラータイプしか訂正できない制限があるため、
    missing words(単語の不⾜)など他のエラータイプも訂正可能にするが
    課題に挙げられる

    View Slide