Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Dict2vec : Learning Word Embeddings using Lexical Dictionaries

Dict2vec : Learning Word Embeddings using Lexical Dictionaries

文献紹介

長岡技術科学大学
勝田哲弘

19861bbc3b8d3ef89df5400d1e2c529a?s=128

katsutan

May 28, 2018
Tweet

More Decks by katsutan

Other Decks in Technology

Transcript

  1. 文献紹介 Dict2vec: Learning Word Embeddings using Lexical Dictionaries Julien Tissier

    and Christophe Gravier and Amaury Habrard Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, pages 254–263 長岡技術科学大学 自然言語処理研究室 勝田 哲弘
  2. Abstract • 単語の分散表現は多くの自然言語処理タスクの 改善に繋がっている • 外部リソース(辞書)を使用して新しい表現を 学習する手法 – Dict2vec –

    辞書で語彙の一部をカバーすることでより優れたもの になった – 意味の近いものはより近くに移動するように再構築
  3. Introduction • 単語の分散表現 – 類似する文脈に出現する単語は、同様の意味ま たは近い表現をする • 欠点 – 教師なし学習であるため、似た文脈のいくつか

    の単語は関連性がない可能性が高い – 似た文脈がないことが単語の関連性がないこと を保証するものではない
  4. Introduction • 主な貢献 – Wikipediaで学習された分散表現を用いて、 類義 語タスクにおいて一般的な評価用データセットで 12.5%の改善 – この手法は、トレーニングデータが少ない場合に おいても効果的である。

    – 次元の圧縮ができる[20,100]でも大幅な改善が見ら れた – 他のテキスト分類においてもベースラインと同様 のパフォーマンスを発揮する
  5. Global objective function • 目的関数を以下のように定義 • コーパス全体を合計

  6. Dict2vec • 辞書は(単語、定義文)のセット – car: A road vehicle, typically with

    four wheels, powered by an internal combustion engine and able to carry a small number of people. – 関連を抽出:“vehicle”, “road” or “engine” • 強い関連:お互いが定義文中に現れる場合 • 弱い関連:片方にしか現れない場合
  7. Strong pairs, weak pairs • Strong pairs:お互いが定義文中に現れる場合 • weak pairs:片方にしか現れない場合

    • weak pairsで2つの単語間に最も近い同じ5つ の単語が存在するとき、Strong pairsとする – 事前に学習された分散表現からコサイン類似 度を計算
  8. Positive sampling • 強弱ペアをもとにベクトルを移動する – Jpos:コストの計算 – コストの最小化を目的とする • 基本的にはskip-gramモデルと同じ

    – Mikolov et al. (2013) S(w):strong pair W(w):weak pair
  9. Controlled negative sampling • 語彙Vの中からランダムな対を無関係とみなす • 以下のコストを最小にする

  10. Global objective function • 目的関数を以下のように定義 • コーパス全体を合計

  11. Experimental setup • Wikipediaから5回以上出現する単語を抽出 – 約2.2M • 複数の英語辞書を結合し、ペアの取得 – Cambridge,

    Oxford, Collins and dictionary.com – 全ての定義文を連結 • 多義性を考慮していない – 200Kの定義文を取得 – Strong pairs: 417K, weak pairs: 3.9M
  12. Training settings • コーパスの規模 – #Token: 50M, 200M, full •

    外部リソースの有無 – Wikipediaのみ: corpus A – Wikipedia + 定義文: corpus B
  13. Results and model analysis

  14. Dictionaries vs. WordNet

  15. Positive and negative sampling • βsとβwの比は 1/2が良い – 経験則 •

    低すぎる(βs ≤ 0.5 and βw ≤ 0.2) – 情報が考慮されない • 高すぎる(βs ≥ 1.2 and βw ≥ 0.6) – 文脈が無視されやすい
  16. Vector size

  17. Conclusion • 語彙辞書を用いた単語分散表現学習の提案 • 目的関数を拡張することで外部リソースを用い た、従来手法よりも良い結果を得ることができ た。 • ソースは公開している