Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Context is Key- Grammatical Error Detection with Contextual Word Representations

youichiro
December 16, 2019

Context is Key- Grammatical Error Detection with Contextual Word Representations

長岡技術科学大学
自然言語処理研究室
文献紹介(2019-12-16)
Context is Key- Grammatical Error Detection with Contextual Word Representations
https://www.aclweb.org/anthology/W19-4410/

youichiro

December 16, 2019
Tweet

More Decks by youichiro

Other Decks in Research

Transcript

  1. 3 Abstract • 誤り検出 (Grammatical Error Detection: GED) タスクの研究 •

    既存のモデルに文脈を考慮した単語埋め込み (contextualized embeddings) を組み込むことでスコアの向上を確認した • ELMo, BERT, Flair を比較し、それぞれの傾向を調査した
  2. 4 Error Detection Model ベースモデル (Rei 2017) • bi-LSTMを用いて各トークンに対して correct

    / incorrect ラベルを予測す る、sequence labelingタスクとして解く • Language modelを同時にマルチタスク学習する ◦ forward LSTMは次のトークンを予測するLM ◦ backward LSTMは前のトークンを予測するLM • character-level LSTMの出力を結合してword embeddingsとする
  3. BERT • masked LM と next sentence predictionを学習 • BooksCorpus

    (0.8 billion words) + English Wikipedia (2.5 billion words) ELMo • 3つのlayerの出力を合計したembeddings • One Billion Word Benchmark corpus (0.8 billion words) Flair • One Billion Word Benchmark corpus (0.8 billion words) 7 Contextualized word embeddings
  4. 8 Results Rei (2017): ベースモデルを提案 Rei et al. (2017), Kasewa

    et al. (2018) : 擬似データを使用 提案手法は擬似データ未使用だが、 contextualized emneddingsを使うことで高いスコア BERTが最も高い
  5. 13 Conclusion • 文脈を考慮した単語の埋め込み (contextual embeddings) を使うことで誤 り検出タスクの性能を向上させることができた • contextual

    embeddingsは学習者コーパスを必要としないため実用的であ る • ELMo, Flair, BERT(base/large) の各エラータイプにおける長所と短所を 分析した