Contextual String Embeddings for Sequence Labeling

Slide 1

Slide 1 text

Contextual String Embeddings for Sequence Labeling Alan Akbik, Duncan Blythe, and Roland Vollgraf Proceedings of the 27th International Conference on Computational Linguistics, pages 1638–1649, 2018 長岡技術科学大学自然言語処理研究室小川耀一朗文献紹介（2019-07-17） 1

Slide 2

Slide 2 text

● 新しいword embeddingである contextual string embeddings を提案 ➡ character-levelの入力からword embeddingを生成する ➡ 文脈を考慮できる(同じ単語でも文脈によって違うベクトルになる) ● NER, Chunking, POS tagging タスクにおいて，モデルの入力として提案手法を用いることで高い性能を示した Abstract 2

Slide 3

Slide 3 text

sequence labelingタスクでのSoTAモデルは，入力として以下の3つのいずれかを用いている ◼ Classical word embeddings 大規模コーパスで構築したpre-trained word embeddings ◼ Character-level features characterを素性として入力し，タスク特有のサブワードを学習する ◼ Contextualized word embeddings 文脈を考慮したword embeddings (ELMO) 　提案手法ではこれらを組み合わせたword embeddingsを提案 Introduction 3

Slide 4

Slide 4 text

Sequence Labeling Architecture 4 standard proposed

Slide 5

Slide 5 text

Contextual String Embeddings 5 {順方向, 逆方向}LMから単語の{最後, 最初}の文字でのoutput hidden stateを取得この2つを結合して，word embeddingとするその単語自身とそれより前/後の “文脈”情報を含むembeddingができる

Slide 6

Slide 6 text

● PROPOSED ○ contextual string embedding ( ➡ BiLSTM-CRF ) ● PROPOSED+word ○ contextual string embedding + pre-trained word embedding (GloVe) ● PROPOSED+char ○ contextual string embedding + character-level BiLSTM から得たword embedding ● PROPOSED+word+char ○ contextual string embedding + “word” + “char” ● PROPOSED+all ○ contextual string embedding + “word” + “char” + contextualized word embedding Proposed Approach 6 input

Slide 7

Slide 7 text

● HUANG [1] ○ pre-trained word embeddings ➡ BiLSTM-CRF ● LAMPLE [2] ○ pre-trained word embeddings + character-level embeddings ➡ BiLSTM-CRF ● PETERS [3] ○ contextualized word embeddings (ELMo) ➡ BiLSTM-CRF Baselines 7

Slide 8

Slide 8 text

Results 8

Slide 9

Slide 9 text

Results 9 pre-trained word embeddings を結合して入力することで大きく向上

Slide 10

Slide 10 text

Results 10 state-of-the-art を達成 “+char”の貢献は小さい

Slide 11

Slide 11 text

Results 11 state-of-the-art を達成したが，変化は微小

Slide 12

Slide 12 text

Nearest Neighbors 12 異なる文脈の中にある “Washington” のそれぞれのcontextual string embeddingから，コサイン類似度の高いベクトルを表示

Slide 13

Slide 13 text

13 人名地名チーム名機関文脈による語義の違いを捉えている Nearest Neighbors

Slide 14

Slide 14 text

Nearest Neighbors 14 文脈から語義を判定できない例もあり

Slide 15

Slide 15 text

● Neural character LMを使った新しいcontextual string embeddingsを提案 Conclusion 15 ● NER, Chunking, POS tagging においてSoTAの性能を示した ● その他のタスクにも容易に適用可能である ● フレームワークとして公開している https://github.com/zalandoresearch/flair ● character-levelの入力なので未知語に対応でき，サブワードを学習できる．また語彙数の制限がいらない． ● Gloveなどのpre-trained word embeddingsを利用することで大規模な単語間の類似性を取り入れることができる ● 文脈を考慮できるので単語の多義性を扱うことができる

Slide 16

Slide 16 text

[1] Bidirectional LSTM-CRF Models for Sequence Tagging ● Huang et al. (2015) ● https://arxiv.org/pdf/1508.01991.pdf [2] Lample et al. (2016) ● Neural Architectures for Named Entity Recognition ● https://www.aclweb.org/anthology/N16-1030 [3] Peters et al. (2018) ● Deep contextualized word representations ● https://aclweb.org/anthology/N18-1202 References 16 [2] より