Slide 1

Slide 1 text

長岡技術科学大学 自然言語処理研究室 小川耀一朗 文献紹介(2019-12-16) Context is Key- Grammatical Error Detection with Contextual Word Representations

Slide 2

Slide 2 text

Paper 2

Slide 3

Slide 3 text

3 Abstract ● 誤り検出 (Grammatical Error Detection: GED) タスクの研究 ● 既存のモデルに文脈を考慮した単語埋め込み (contextualized embeddings) を組み込むことでスコアの向上を確認した ● ELMo, BERT, Flair を比較し、それぞれの傾向を調査した

Slide 4

Slide 4 text

4 Error Detection Model ベースモデル (Rei 2017) ● bi-LSTMを用いて各トークンに対して correct / incorrect ラベルを予測す る、sequence labelingタスクとして解く ● Language modelを同時にマルチタスク学習する ○ forward LSTMは次のトークンを予測するLM ○ backward LSTMは前のトークンを予測するLM ● character-level LSTMの出力を結合してword embeddingsとする

Slide 5

Slide 5 text

5 Error Detection Model 提案モデル word embeddingsにcontextualized embeddingsを結合して入力する

Slide 6

Slide 6 text

6 Contextualized word embeddings ● BERT, ELMo, Flairの公開されている学習済みのモデルを使う ● Flair: Contextual String Embeddings for Sequence Labeling (Akbik et al., 2018)

Slide 7

Slide 7 text

BERT ● masked LM と next sentence predictionを学習 ● BooksCorpus (0.8 billion words) + English Wikipedia (2.5 billion words) ELMo ● 3つのlayerの出力を合計したembeddings ● One Billion Word Benchmark corpus (0.8 billion words) Flair ● One Billion Word Benchmark corpus (0.8 billion words) 7 Contextualized word embeddings

Slide 8

Slide 8 text

8 Results Rei (2017): ベースモデルを提案 Rei et al. (2017), Kasewa et al. (2018) : 擬似データを使用 提案手法は擬似データ未使用だが、 contextualized emneddingsを使うことで高いスコア BERTが最も高い

Slide 9

Slide 9 text

9 Integration method contextualized embeddingsをbi-LSTMの (左)入力に結合するか (右)出力に結合するか を比較

Slide 10

Slide 10 text

10 Integration method ベストスコアはデータセットによって異なるが、全体的には入力に結合 する方がいい

Slide 11

Slide 11 text

11 Error type performance 各エラータイプでのRecallをベースラインと比較(全データセットの平均スコア)

Slide 12

Slide 12 text

12 Error type performance 各エラータイプでのRecallをベースラインと比較(全データセットの平均スコア) conjugation, spellingは向上が小さい →これらのエラーは単言語コーパスでは未知語になる

Slide 13

Slide 13 text

13 Conclusion ● 文脈を考慮した単語の埋め込み (contextual embeddings) を使うことで誤 り検出タスクの性能を向上させることができた ● contextual embeddingsは学習者コーパスを必要としないため実用的であ る ● ELMo, Flair, BERT(base/large) の各エラータイプにおける長所と短所を 分析した