2018/09/26の文献紹介で発表
Generalizing Word Embeddingsusing Bag of Subwords文献紹介 ( 2018 / 09 / 26 )長岡技術科学大学 自然言語処理研究室稲岡 夢人
View Slide
LiteratureJinman Zhao and Sidharth Mudgal and Yingyu Liang.Proceedings of the 2018 Conference onEmpirical Methods in Natural Language Processing.https://arxiv.org/abs/1809.042592
Abstract● 文脈情報を用いずに語彙を超えて事前学習済みのWord Embeddingを汎化● 単語をBag-of-Substringsと見做してsubwordレベルの単語ベクトル生成モデルを提案● 英単語類似度タスクでSOTAを達成3
Word Embeddings in OOV➔ 従来のWord Embeddingsは高頻度な単語にのみ単語ベクトルを生成し、低頻度語をOOVとする➔ 低頻度語には単語ベクトルを生成できない➔ 下流のタスクで特徴が補足できず困難4
Word Vectors for OOV words● 単語は語幹, 接辞, 修飾語など形態素に分割できる● 人間は例えば“preEMNLP”の意味を推察できる➔ 形態素からベクトルを推測できる可能性を示唆➔ OOV wordsでも単語以下の単位で解析すれば単語ベクトルを推測できる可能性がある5
Related Works● fastTextchar n-gramを用いてOOVの単語のベクトルを生成学習には大規模なコーパスが必要 (今回はenwiki)● MimickChar-level Bi-LSTMでChar EmbeddingからWord Embeddingを推測6
Proposed Model● 単語をBag-of-Substringsとみなす● 単語ベクトルは全部分文字列のベクトルの平均● それを事前学習されたベクトルと一致させる学習➔ 文脈予測を介さずにsubwordsを学習させるfastTextと似ているようで異なる7
SubstringΣ is the finite set of characters in the language.8
“” = ‘<’ + s + ‘>’Substring9are hyperparameters.
Substring (example)10{ , ix> }
Bag-of-Substring11
Target vectorsTraining12
Experiment (Word Similarity)● 単語ベクトルの類似度と、ラベル付けされた単語類似度の相関によって評価● 類似度は単語ベクトル間のコサイン類似度で計算● 相関はスピアマンの順位相関係数ρで計算13
Datasets (Word Similarity)● Polyglot, Googleは学習済み単語ベクトル● Stanford RareWord(RW)とWordSim353(WS)で評価RWは低頻度語が多く、WSは一般的な語が多い14
Results (Word Similarity)● BoSはEditDist, MIMICKよりも相関が強い● Googleのベクトルを用いたときにfastTextと同等15
BoS vs. fastText● BoSの方が少ないデータ、訓練で実現● Intel Core i7-6700 (3.4GHz) において、BoSはシングルスレッドのPythonで352秒fastTextはマルチスレッドのC++で数時間16
Expt. (syntax, semantics)● POS tags, Morphosyntactic Attributesを予測するタスクでベクトルを評価→ 構文的、意味的特徴の補足を確認● データセットはUniversal Dependencies (UD)● Bi-LSTMで予測17
Result (syntax, semantics)● すべての言語で安定して有意な結果● 膠着語で特に差が大きい18
Conclusion● 事前学習済みのWord Embeddingを拡張してOOV単語のWord Embeddingを推定するモデルを提案● 単語類似度タスクとPOSタグ付けタスクによって形態論的知識の補足、より良いOOV単語の単語ベクトルの生成を確認19