$30 off During Our Annual Pro Sale. View Details »

文献紹介: Generalizing Word Embeddings using Bag of Subwords

Yumeto Inaoka
September 26, 2018

文献紹介: Generalizing Word Embeddings using Bag of Subwords

2018/09/26の文献紹介で発表

Yumeto Inaoka

September 26, 2018
Tweet

More Decks by Yumeto Inaoka

Other Decks in Research

Transcript

  1. Generalizing Word Embeddings
    using Bag of Subwords
    文献紹介 ( 2018 / 09 / 26 )
    長岡技術科学大学 自然言語処理研究室
    稲岡 夢人

    View Slide

  2. Literature
    Jinman Zhao and Sidharth Mudgal and Yingyu Liang.
    Proceedings of the 2018 Conference on
    Empirical Methods in Natural Language Processing.
    https://arxiv.org/abs/1809.04259
    2

    View Slide

  3. Abstract
    ● 文脈情報を用いずに語彙を超えて事前学習済みの
    Word Embeddingを汎化
    ● 単語をBag-of-Substringsと見做して
    subwordレベルの単語ベクトル生成モデルを提案
    ● 英単語類似度タスクでSOTAを達成
    3

    View Slide

  4. Word Embeddings in OOV
    ➔ 従来のWord Embeddingsは高頻度な単語にのみ
    単語ベクトルを生成し、低頻度語をOOVとする
    ➔ 低頻度語には単語ベクトルを生成できない
    ➔ 下流のタスクで特徴が補足できず困難
    4

    View Slide

  5. Word Vectors for OOV words
    ● 単語は語幹, 接辞, 修飾語など形態素に分割できる
    ● 人間は例えば“preEMNLP”の意味を推察できる
    ➔ 形態素からベクトルを推測できる可能性を示唆
    ➔ OOV wordsでも単語以下の単位で解析すれば
    単語ベクトルを推測できる可能性がある
    5

    View Slide

  6. Related Works
    ● fastText
    char n-gramを用いてOOVの単語のベクトルを生成
    学習には大規模なコーパスが必要 (今回はenwiki)
    ● Mimick
    Char-level Bi-LSTMでChar Embeddingから
    Word Embeddingを推測
    6

    View Slide

  7. Proposed Model
    ● 単語をBag-of-Substringsとみなす
    ● 単語ベクトルは全部分文字列のベクトルの平均
    ● それを事前学習されたベクトルと一致させる学習
    ➔ 文脈予測を介さずにsubwordsを学習させる
    fastTextと似ているようで異なる
    7

    View Slide

  8. Substring
    Σ is the finite set of characters in the language.
    8

    View Slide

  9. “” = ‘<’ + s + ‘>’
    Substring
    9
    are hyperparameters.

    View Slide

  10. Substring (example)
    10
    { , ix> }

    View Slide

  11. Bag-of-Substring
    11

    View Slide

  12. Target vectors
    Training
    12

    View Slide

  13. Experiment (Word Similarity)
    ● 単語ベクトルの類似度と、ラベル付けされた
    単語類似度の相関によって評価
    ● 類似度は単語ベクトル間のコサイン類似度で計算
    ● 相関はスピアマンの順位相関係数ρで計算
    13

    View Slide

  14. Datasets (Word Similarity)
    ● Polyglot, Googleは学習済み単語ベクトル
    ● Stanford RareWord(RW)とWordSim353(WS)で評価
    RWは低頻度語が多く、WSは一般的な語が多い
    14

    View Slide

  15. Results (Word Similarity)
    ● BoSはEditDist, MIMICKよりも相関が強い
    ● Googleのベクトルを用いたときにfastTextと同等
    15

    View Slide

  16. BoS vs. fastText
    ● BoSの方が少ないデータ、訓練で実現
    ● Intel Core i7-6700 (3.4GHz) において、
    BoSはシングルスレッドのPythonで352秒
    fastTextはマルチスレッドのC++で数時間
    16

    View Slide

  17. Expt. (syntax, semantics)
    ● POS tags, Morphosyntactic Attributesを予測するタ
    スクでベクトルを評価
    → 構文的、意味的特徴の補足を確認
    ● データセットはUniversal Dependencies (UD)
    ● Bi-LSTMで予測
    17

    View Slide

  18. Result (syntax, semantics)
    ● すべての言語で
    安定して有意な
    結果
    ● 膠着語で特に
    差が大きい
    18

    View Slide

  19. Conclusion
    ● 事前学習済みのWord Embeddingを拡張してOOV単
    語のWord Embeddingを推定するモデルを提案
    ● 単語類似度タスクとPOSタグ付けタスクによって形態
    論的知識の補足、より良いOOV単語の単語
    ベクトルの生成を確認
    19

    View Slide