文献紹介: Generalizing Word Embeddings using Bag of Subwords

Generalizing Word Embeddings using Bag of Subwords 文献紹介 ( 2018
/ 09 / 26 ) 長岡技術科学大学自然言語処理研究室稲岡夢人

Literature Jinman Zhao and Sidharth Mudgal and Yingyu Liang. Proceedings
of the 2018 Conference on Empirical Methods in Natural Language Processing. https://arxiv.org/abs/1809.04259 2

Abstract • 文脈情報を用いずに語彙を超えて事前学習済みの Word Embeddingを汎化 • 単語をBag-of-Substringsと見做して subwordレベルの単語ベクトル生成モデルを提案 • 英単語類似度タスクでSOTAを達成
3

Word Embeddings in OOV ➔ 従来のWord Embeddingsは高頻度な単語にのみ単語ベクトルを生成し、低頻度語をOOVとする ➔ 低頻度語には単語ベクトルを生成できない
➔ 下流のタスクで特徴が補足できず困難 4

Word Vectors for OOV words • 単語は語幹, 接辞, 修飾語など形態素に分割できる •
人間は例えば“preEMNLP”の意味を推察できる ➔ 形態素からベクトルを推測できる可能性を示唆 ➔ OOV wordsでも単語以下の単位で解析すれば単語ベクトルを推測できる可能性がある 5

Related Works • fastText char n-gramを用いてOOVの単語のベクトルを生成学習には大規模なコーパスが必要 (今回はenwiki) • Mimick
Char-level Bi-LSTMでChar Embeddingから Word Embeddingを推測 6

Proposed Model • 単語をBag-of-Substringsとみなす • 単語ベクトルは全部分文字列のベクトルの平均 • それを事前学習されたベクトルと一致させる学習 ➔ 文脈予測を介さずにsubwordsを学習させる
fastTextと似ているようで異なる 7

Substring Σ is the finite set of characters in the
language. 8

“<s>” = ‘<’ + s + ‘>’ Substring 9 are
hyperparameters.

Substring (example) 10 { <in, <inf, inf, infi, nfi, nfix,
fix, fix>, ix> }

Bag-of-Substring 11

Target vectors Training 12

Experiment (Word Similarity) • 単語ベクトルの類似度と、ラベル付けされた単語類似度の相関によって評価 • 類似度は単語ベクトル間のコサイン類似度で計算 • 相関はスピアマンの順位相関係数ρで計算
13

Datasets (Word Similarity) • Polyglot, Googleは学習済み単語ベクトル • Stanford RareWord(RW)とWordSim353(WS)で評価 RWは低頻度語が多く、WSは一般的な語が多い
14

Results (Word Similarity) • BoSはEditDist, MIMICKよりも相関が強い • Googleのベクトルを用いたときにfastTextと同等 15

BoS vs. fastText • BoSの方が少ないデータ、訓練で実現 • Intel Core i7-6700 (3.4GHz)
において、 BoSはシングルスレッドのPythonで352秒 fastTextはマルチスレッドのC++で数時間 16

Expt. (syntax, semantics) • POS tags, Morphosyntactic Attributesを予測するタスクでベクトルを評価 →
構文的、意味的特徴の補足を確認 • データセットはUniversal Dependencies (UD) • Bi-LSTMで予測 17

Result (syntax, semantics) • すべての言語で安定して有意な結果 • 膠着語で特に差が大きい
18

Conclusion • 事前学習済みのWord Embeddingを拡張してOOV単語のWord Embeddingを推定するモデルを提案 • 単語類似度タスクとPOSタグ付けタスクによって形態論的知識の補足、より良いOOV単語の単語ベクトルの生成を確認
19

文献紹介: Generalizing Word Embeddings using Bag of...

文献紹介: Generalizing Word Embeddings using Bag of Subwords

Yumeto Inaoka

More Decks by Yumeto Inaoka

Other Decks in Research

Featured

Transcript

Generalizing Word Embeddings using Bag of Subwords 文献紹介 ( 2018

Literature Jinman Zhao and Sidharth Mudgal and Yingyu Liang. Proceedings

Abstract • 文脈情報を用いずに語彙を超えて事前学習済みの Word Embeddingを汎化 • 単語をBag-of-Substringsと見做して subwordレベルの単語ベクトル生成モデルを提案 • 英単語類似度タスクでSOTAを達成

Word Embeddings in OOV ➔ 従来のWord Embeddingsは高頻度な単語にのみ単語ベクトルを生成し、低頻度語をOOVとする ➔ 低頻度語には単語ベクトルを生成できない

Word Vectors for OOV words • 単語は語幹, 接辞, 修飾語など形態素に分割できる •

Related Works • fastText char n-gramを用いてOOVの単語のベクトルを生成学習には大規模なコーパスが必要 (今回はenwiki) • Mimick

Proposed Model • 単語をBag-of-Substringsとみなす • 単語ベクトルは全部分文字列のベクトルの平均 • それを事前学習されたベクトルと一致させる学習 ➔ 文脈予測を介さずにsubwordsを学習させる

Substring Σ is the finite set of characters in the

“<s>” = ‘<’ + s + ‘>’ Substring 9 are

Substring (example) 10 { <in, <inf, inf, infi, nfi, nfix,

Bag-of-Substring 11

Target vectors Training 12

Experiment (Word Similarity) • 単語ベクトルの類似度と、ラベル付けされた単語類似度の相関によって評価 • 類似度は単語ベクトル間のコサイン類似度で計算 • 相関はスピアマンの順位相関係数ρで計算

Datasets (Word Similarity) • Polyglot, Googleは学習済み単語ベクトル • Stanford RareWord(RW)とWordSim353(WS)で評価 RWは低頻度語が多く、WSは一般的な語が多い

Results (Word Similarity) • BoSはEditDist, MIMICKよりも相関が強い • Googleのベクトルを用いたときにfastTextと同等 15

BoS vs. fastText • BoSの方が少ないデータ、訓練で実現 • Intel Core i7-6700 (3.4GHz)

Expt. (syntax, semantics) • POS tags, Morphosyntactic Attributesを予測するタスクでベクトルを評価 →

Result (syntax, semantics) • すべての言語で安定して有意な結果 • 膠着語で特に差が大きい

Conclusion • 事前学習済みのWord Embeddingを拡張してOOV単語のWord Embeddingを推定するモデルを提案 • 単語類似度タスクとPOSタグ付けタスクによって形態論的知識の補足、より良いOOV単語の単語ベクトルの生成を確認