Slide 1

Slide 1 text

Generalizing Word Embeddings using Bag of Subwords 文献紹介 ( 2018 / 09 / 26 ) 長岡技術科学大学 自然言語処理研究室 稲岡 夢人

Slide 2

Slide 2 text

Literature Jinman Zhao and Sidharth Mudgal and Yingyu Liang. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. https://arxiv.org/abs/1809.04259 2

Slide 3

Slide 3 text

Abstract ● 文脈情報を用いずに語彙を超えて事前学習済みの Word Embeddingを汎化 ● 単語をBag-of-Substringsと見做して subwordレベルの単語ベクトル生成モデルを提案 ● 英単語類似度タスクでSOTAを達成 3

Slide 4

Slide 4 text

Word Embeddings in OOV ➔ 従来のWord Embeddingsは高頻度な単語にのみ 単語ベクトルを生成し、低頻度語をOOVとする ➔ 低頻度語には単語ベクトルを生成できない ➔ 下流のタスクで特徴が補足できず困難 4

Slide 5

Slide 5 text

Word Vectors for OOV words ● 単語は語幹, 接辞, 修飾語など形態素に分割できる ● 人間は例えば“preEMNLP”の意味を推察できる ➔ 形態素からベクトルを推測できる可能性を示唆 ➔ OOV wordsでも単語以下の単位で解析すれば 単語ベクトルを推測できる可能性がある 5

Slide 6

Slide 6 text

Related Works ● fastText char n-gramを用いてOOVの単語のベクトルを生成 学習には大規模なコーパスが必要 (今回はenwiki) ● Mimick Char-level Bi-LSTMでChar Embeddingから Word Embeddingを推測 6

Slide 7

Slide 7 text

Proposed Model ● 単語をBag-of-Substringsとみなす ● 単語ベクトルは全部分文字列のベクトルの平均 ● それを事前学習されたベクトルと一致させる学習 ➔ 文脈予測を介さずにsubwordsを学習させる fastTextと似ているようで異なる 7

Slide 8

Slide 8 text

Substring Σ is the finite set of characters in the language. 8

Slide 9

Slide 9 text

“” = ‘<’ + s + ‘>’ Substring 9 are hyperparameters.

Slide 10

Slide 10 text

Substring (example) 10 { , ix> }

Slide 11

Slide 11 text

Bag-of-Substring 11

Slide 12

Slide 12 text

Target vectors Training 12

Slide 13

Slide 13 text

Experiment (Word Similarity) ● 単語ベクトルの類似度と、ラベル付けされた 単語類似度の相関によって評価 ● 類似度は単語ベクトル間のコサイン類似度で計算 ● 相関はスピアマンの順位相関係数ρで計算 13

Slide 14

Slide 14 text

Datasets (Word Similarity) ● Polyglot, Googleは学習済み単語ベクトル ● Stanford RareWord(RW)とWordSim353(WS)で評価 RWは低頻度語が多く、WSは一般的な語が多い 14

Slide 15

Slide 15 text

Results (Word Similarity) ● BoSはEditDist, MIMICKよりも相関が強い ● Googleのベクトルを用いたときにfastTextと同等 15

Slide 16

Slide 16 text

BoS vs. fastText ● BoSの方が少ないデータ、訓練で実現 ● Intel Core i7-6700 (3.4GHz) において、 BoSはシングルスレッドのPythonで352秒 fastTextはマルチスレッドのC++で数時間 16

Slide 17

Slide 17 text

Expt. (syntax, semantics) ● POS tags, Morphosyntactic Attributesを予測するタ スクでベクトルを評価 → 構文的、意味的特徴の補足を確認 ● データセットはUniversal Dependencies (UD) ● Bi-LSTMで予測 17

Slide 18

Slide 18 text

Result (syntax, semantics) ● すべての言語で 安定して有意な 結果 ● 膠着語で特に 差が大きい 18

Slide 19

Slide 19 text

Conclusion ● 事前学習済みのWord Embeddingを拡張してOOV単 語のWord Embeddingを推定するモデルを提案 ● 単語類似度タスクとPOSタグ付けタスクによって形態 論的知識の補足、より良いOOV単語の単語 ベクトルの生成を確認 19