Contextual String Embeddings for Sequence Labeling

66cc992074ab4522374e429c11fef225?s=47 youichiro
July 16, 2019

Contextual String Embeddings for Sequence Labeling

長岡技術科学大学
自然言語処理研究室
文献紹介(2019-07-16)
Contextual String Embeddings for Sequence Labeling
https://www.aclweb.org/anthology/C18-1139

66cc992074ab4522374e429c11fef225?s=128

youichiro

July 16, 2019
Tweet

Transcript

  1. Contextual String Embeddings for Sequence Labeling Alan Akbik, Duncan Blythe,

    and Roland Vollgraf Proceedings of the 27th International Conference on Computational Linguistics, pages 1638–1649, 2018 長岡技術科学大学 自然言語処理研究室 小川耀一朗 文献紹介(2019-07-17) 1
  2. • 新しいword embeddingである contextual string embeddings を提案 ➡ character-levelの入力からword embeddingを生成する

    ➡ 文脈を考慮できる(同じ単語でも文脈によって違うベクトルになる) • NER, Chunking, POS tagging タスクにおいて,モデルの入力として提案 手法を用いることで高い性能を示した Abstract 2
  3. sequence labelingタスクでのSoTAモデルは,入力として以下の3つのいずれかを用い ている ◼ Classical word embeddings 大規模コーパスで構築したpre-trained word embeddings

    ◼ Character-level features characterを素性として入力し,タスク特有のサブワードを学習する ◼ Contextualized word embeddings 文脈を考慮したword embeddings (ELMO)  提案手法ではこれらを組み合わせたword embeddingsを提案 Introduction 3
  4. Sequence Labeling Architecture 4 standard proposed

  5. Contextual String Embeddings 5 {順方向, 逆方向}LMから単語の{最後, 最初}の文字でのoutput hidden stateを取得こ の2つを結合して,word

    embeddingとする その単語自身とそれより前/後の “文脈”情報を含むembeddingができる
  6. • PROPOSED ◦ contextual string embedding ( ➡ BiLSTM-CRF )

    • PROPOSED+word ◦ contextual string embedding + pre-trained word embedding (GloVe) • PROPOSED+char ◦ contextual string embedding + character-level BiLSTM から得たword embedding • PROPOSED+word+char ◦ contextual string embedding + “word” + “char” • PROPOSED+all ◦ contextual string embedding + “word” + “char” + contextualized word embedding Proposed Approach 6 input
  7. • HUANG [1] ◦ pre-trained word embeddings ➡ BiLSTM-CRF •

    LAMPLE [2] ◦ pre-trained word embeddings + character-level embeddings ➡ BiLSTM-CRF • PETERS [3] ◦ contextualized word embeddings (ELMo) ➡ BiLSTM-CRF Baselines 7
  8. Results 8

  9. Results 9 pre-trained word embeddings を 結合して入力することで大きく向上

  10. Results 10 state-of-the-art を達成 “+char”の貢献は小さい

  11. Results 11 state-of-the-art を達成したが,変化は微小

  12. Nearest Neighbors 12 異なる文脈の中にある “Washington” のそれぞれのcontextual string embeddingか ら,コサイン類似度の高いベクトルを表示

  13. 13 人名 地名 チーム名 機関 文脈による語義の違いを捉えている Nearest Neighbors

  14. Nearest Neighbors 14 文脈から語義を判定できない例もあり

  15. • Neural character LMを使った新しいcontextual string embeddingsを提案 Conclusion 15 • NER,

    Chunking, POS tagging においてSoTAの性能を示した • その他のタスクにも容易に適用可能である • フレームワークとして公開している https://github.com/zalandoresearch/flair • character-levelの入力なので未知語に対応でき,サブワードを学習できる.また語 彙数の制限がいらない. • Gloveなどのpre-trained word embeddingsを利用することで大規模な単語間の 類似性を取り入れることができる • 文脈を考慮できるので単語の多義性を扱うことができる
  16. [1] Bidirectional LSTM-CRF Models for Sequence Tagging • Huang et

    al. (2015) • https://arxiv.org/pdf/1508.01991.pdf [2] Lample et al. (2016) • Neural Architectures for Named Entity Recognition • https://www.aclweb.org/anthology/N16-1030 [3] Peters et al. (2018) • Deep contextualized word representations • https://aclweb.org/anthology/N18-1202 References 16 [2] より