Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Context is Key- Grammatical Error Detection with Contextual Word Representations

youichiro
December 16, 2019

Context is Key- Grammatical Error Detection with Contextual Word Representations

長岡技術科学大学
自然言語処理研究室
文献紹介(2019-12-16)
Context is Key- Grammatical Error Detection with Contextual Word Representations
https://www.aclweb.org/anthology/W19-4410/

youichiro

December 16, 2019
Tweet

More Decks by youichiro

Other Decks in Research

Transcript

  1. 長岡技術科学大学 自然言語処理研究室 小川耀一朗
    文献紹介(2019-12-16)
    Context is Key- Grammatical Error Detection
    with Contextual Word Representations

    View full-size slide

  2. 3
    Abstract
    ● 誤り検出 (Grammatical Error Detection: GED) タスクの研究
    ● 既存のモデルに文脈を考慮した単語埋め込み (contextualized
    embeddings) を組み込むことでスコアの向上を確認した
    ● ELMo, BERT, Flair を比較し、それぞれの傾向を調査した

    View full-size slide

  3. 4
    Error Detection Model
    ベースモデル (Rei 2017)
    ● bi-LSTMを用いて各トークンに対して correct / incorrect ラベルを予測す
    る、sequence labelingタスクとして解く
    ● Language modelを同時にマルチタスク学習する
    ○ forward LSTMは次のトークンを予測するLM
    ○ backward LSTMは前のトークンを予測するLM
    ● character-level LSTMの出力を結合してword embeddingsとする

    View full-size slide

  4. 5
    Error Detection Model
    提案モデル
    word embeddingsにcontextualized embeddingsを結合して入力する

    View full-size slide

  5. 6
    Contextualized word embeddings
    ● BERT, ELMo, Flairの公開されている学習済みのモデルを使う
    ● Flair: Contextual String Embeddings for Sequence Labeling (Akbik et
    al., 2018)

    View full-size slide

  6. BERT
    ● masked LM と next sentence predictionを学習
    ● BooksCorpus (0.8 billion words) + English Wikipedia (2.5 billion words)
    ELMo
    ● 3つのlayerの出力を合計したembeddings
    ● One Billion Word Benchmark corpus (0.8 billion words)
    Flair
    ● One Billion Word Benchmark corpus (0.8 billion words)
    7
    Contextualized word embeddings

    View full-size slide

  7. 8
    Results
    Rei (2017): ベースモデルを提案
    Rei et al. (2017), Kasewa et al. (2018) : 擬似データを使用
    提案手法は擬似データ未使用だが、 contextualized emneddingsを使うことで高いスコア
    BERTが最も高い

    View full-size slide

  8. 9
    Integration method
    contextualized embeddingsをbi-LSTMの
    (左)入力に結合するか (右)出力に結合するか を比較

    View full-size slide

  9. 10
    Integration method
    ベストスコアはデータセットによって異なるが、全体的には入力に結合
    する方がいい

    View full-size slide

  10. 11
    Error type performance
    各エラータイプでのRecallをベースラインと比較(全データセットの平均スコア)

    View full-size slide

  11. 12
    Error type performance
    各エラータイプでのRecallをベースラインと比較(全データセットの平均スコア)
    conjugation, spellingは向上が小さい
    →これらのエラーは単言語コーパスでは未知語になる

    View full-size slide

  12. 13
    Conclusion
    ● 文脈を考慮した単語の埋め込み (contextual embeddings) を使うことで誤
    り検出タスクの性能を向上させることができた
    ● contextual embeddingsは学習者コーパスを必要としないため実用的であ

    ● ELMo, Flair, BERT(base/large) の各エラータイプにおける長所と短所を
    分析した

    View full-size slide