Dict2vec : Learning Word Embeddings using Lexical Dictionaries

文献紹介 Dict2vec: Learning Word Embeddings using Lexical Dictionaries Julien Tissier
and Christophe Gravier and Amaury Habrard Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, pages 254–263 長岡技術科学大学　自然言語処理研究室勝田哲弘

Abstract • 単語の分散表現は多くの自然言語処理タスクの改善に繋がっている • 外部リソース（辞書）を使用して新しい表現を学習する手法 – Dict2vec –
辞書で語彙の一部をカバーすることでより優れたものになった – 意味の近いものはより近くに移動するように再構築

Introduction • 単語の分散表現 – 類似する文脈に出現する単語は、同様の意味または近い表現をする • 欠点 – 教師なし学習であるため、似た文脈のいくつか
の単語は関連性がない可能性が高い – 似た文脈がないことが単語の関連性がないことを保証するものではない

Introduction • 主な貢献 – Wikipediaで学習された分散表現を用いて、　類義語タスクにおいて一般的な評価用データセットで 12.5%の改善 – この手法は、トレーニングデータが少ない場合においても効果的である。
– 次元の圧縮ができる[20,100]でも大幅な改善が見られた – 他のテキスト分類においてもベースラインと同様のパフォーマンスを発揮する

Global objective function • 目的関数を以下のように定義 • コーパス全体を合計

Dict2vec • 辞書は（単語、定義文）のセット – car: A road vehicle, typically with
four wheels, powered by an internal combustion engine and able to carry a small number of people. – 関連を抽出：“vehicle”, “road” or “engine” • 強い関連：お互いが定義文中に現れる場合 • 弱い関連：片方にしか現れない場合

Strong pairs, weak pairs • Strong pairs：お互いが定義文中に現れる場合 • weak pairs：片方にしか現れない場合
• weak pairsで２つの単語間に最も近い同じ５つの単語が存在するとき、Strong pairsとする – 事前に学習された分散表現からコサイン類似度を計算

Positive sampling • 強弱ペアをもとにベクトルを移動する – Jpos：コストの計算 – コストの最小化を目的とする • 基本的にはskip-gramモデルと同じ
– Mikolov et al. (2013) S(w):strong pair W(w):weak pair

Controlled negative sampling • 語彙Vの中からランダムな対を無関係とみなす • 以下のコストを最小にする

Global objective function • 目的関数を以下のように定義 • コーパス全体を合計

Experimental setup • Wikipediaから５回以上出現する単語を抽出 – 約2.2M • 複数の英語辞書を結合し、ペアの取得 – Cambridge,
Oxford, Collins and dictionary.com – 全ての定義文を連結 • 多義性を考慮していない – 200Kの定義文を取得 – Strong pairs: 417K, weak pairs: 3.9M

Training settings • コーパスの規模 – #Token: 50M, 200M, full •
外部リソースの有無 – Wikipediaのみ: corpus A – Wikipedia + 定義文: corpus B

Results and model analysis

Dictionaries vs. WordNet

Positive and negative sampling • βsとβwの比は 1/2が良い – 経験則 •
低すぎる(βs ≤ 0.5 and βw ≤ 0.2) – 情報が考慮されない • 高すぎる(βs ≥ 1.2 and βw ≥ 0.6) – 文脈が無視されやすい

Vector size

Conclusion • 語彙辞書を用いた単語分散表現学習の提案 • 目的関数を拡張することで外部リソースを用いた、従来手法よりも良い結果を得ることができた。 • ソースは公開している

Dict2vec : Learning Word Embeddings using Lexic...

Dict2vec : Learning Word Embeddings using Lexical Dictionaries

katsutan

More Decks by katsutan

Other Decks in Technology

Featured

Transcript

文献紹介 Dict2vec: Learning Word Embeddings using Lexical Dictionaries Julien Tissier

Abstract • 単語の分散表現は多くの自然言語処理タスクの改善に繋がっている • 外部リソース（辞書）を使用して新しい表現を学習する手法 – Dict2vec –

Introduction • 単語の分散表現 – 類似する文脈に出現する単語は、同様の意味または近い表現をする • 欠点 – 教師なし学習であるため、似た文脈のいくつか

Introduction • 主な貢献 – Wikipediaで学習された分散表現を用いて、　類義語タスクにおいて一般的な評価用データセットで 12.5%の改善 – この手法は、トレーニングデータが少ない場合においても効果的である。

Global objective function • 目的関数を以下のように定義 • コーパス全体を合計

Dict2vec • 辞書は（単語、定義文）のセット – car: A road vehicle, typically with

Strong pairs, weak pairs • Strong pairs：お互いが定義文中に現れる場合 • weak pairs：片方にしか現れない場合

Positive sampling • 強弱ペアをもとにベクトルを移動する – Jpos：コストの計算 – コストの最小化を目的とする • 基本的にはskip-gramモデルと同じ

Controlled negative sampling • 語彙Vの中からランダムな対を無関係とみなす • 以下のコストを最小にする

Global objective function • 目的関数を以下のように定義 • コーパス全体を合計

Experimental setup • Wikipediaから５回以上出現する単語を抽出 – 約2.2M • 複数の英語辞書を結合し、ペアの取得 – Cambridge,

Training settings • コーパスの規模 – #Token: 50M, 200M, full •

Results and model analysis

Dictionaries vs. WordNet

Positive and negative sampling • βsとβwの比は 1/2が良い – 経験則 •

Vector size

Conclusion • 語彙辞書を用いた単語分散表現学習の提案 • 目的関数を拡張することで外部リソースを用いた、従来手法よりも良い結果を得ることができた。 • ソースは公開している