文献紹介：Learning Lexical Subspaces in a Distributional Vector Space

Learning Lexical Subspaces in a Distributional Vector Space Kushal Arora,
Aishik Chakraborty, Jackie C. K. Cheung TACL2020 相田太一東京都立大学小町研究室最先端NLP

概要 - 単語の語彙・意味的な関係（類義語、上位語など）を単語ベクトル空間から変換した subspace で表現 - 元のベクトル空間の情報を保持したまま内在・外因的評価で既存の手法を上回る 2

導入 - 問題点：分布仮説は対義語を扱えない →制約を加えて単語ベクトルを修正する研究 ✅ 指定した意味的関係を扱えるようになる ❌ 元のベクトルが持つ情報が失われる（→下流タスクでの性能低下） ❌
複数の関係を扱うのが困難（対義語：対称, 上位概念：非対称） 3

提案手法：LexSub - 解決方法：扱う情報ごとに空間を分ける - 分布の情報：元のベクトル空間 - 各意味的関係（対義語, 上位語, 部分）：元のベクトル空間から線形変換した
subspace 4

- 学習： - 変換行列 W を使い、各 subspace に変換 - 各関係を持つ単語セット
R で学習 - 類義語：単語ペアを近づける - 対義語：単語ペアを離す negative sampling 提案手法：各意味関係の subspace を学習 5 cos 距離同じ subspace なので、同じ変換行列 W syn を使う

- 上位語：非対称（✅ 🍎→果物, ❌ 果物→🍎） - 部分関係：非対称（✅ 🍁→🌲, ❌ 🌲→🍁）
negative sampling 片方 i は j に近づける（類義語 L syn ）他方 j は i から離す（対義語 L ant ）提案手法：各意味関係の subspace を学習 6

- 最終的な損失関数各 subspace の損失関数提案手法：各意味関係の subspace を学習 7
事前訓練済み単語ベクトル行列 X と学習過程の単語ベクトル行列 X’ の二乗ノルム

実験：設定 - 内在的評価・外因的評価を行った - 内在的評価： - 類似度タスク（men3k, WS-353R） - 類義語・対義語（Simlex,
Simverb） - 上位語・下位語（Hyperlex, WBLESS, BIBLESS, BLESS, LEDS, EVAL, WEEDS） - 外因的評価：AllenNLP toolkit での入力層の埋め込みを置き換える - 固有名詞抽出（NER） - 感情分類（SST） - 含意関係（SNLI） - 質問応答（SQuAD） - 言い換え検出（QQP） 8

実験：比較手法 - ベースライン：元のベクトルを直接調整 - Vanilla：GloVe - Wikipedia, Gigaword で事前訓練済み -
Retrofitting：近い単語を近づける訓練 - Counterfitting：Retrofitting + 対義語 - LEAR：上位語・下位語に対応 - 提案手法と共に以下の単語セットで調整 9

結果：内在的評価（類似度） - LexSub は元のベクトル空間を使用 - subspace を学習しつつ、訓練時の情報を保持 10

結果：内在的評価（類似度） - LexSub は元のベクトル空間を使用 - subspace を学習しつつ、訓練時の情報を保持 11 Counterfitting は対義語、LEAR
は上位語に対応した制約を加えているのが悪影響だった？

結果：内在的評価（上位語） - LexSub は上位語の subspace を使用 - 上位語特化の LEAR の性能を上回る
12

結果：外因的評価微調整あり（Setup 1）、なし（Setup 2） - LexSub は元のベクトル空間を使用 - 多くのタスクでベースラインを上回る 13

結果：外因的評価微調整あり（Setup 1）、なし（Setup 2） - 他の手法は Vanilla を下回る→ベクトル空間を分けて意味関係を学習するのが効果的？ 14

分析：3つの疑問について 1. LexSub の各 subspace は対応する意味関係をどの程度捉えているか？ 2. LexSub の各
subspace は下流タスクにおけるニューラルなモデルで再現できるか？ 3. LexSub の元の埋め込み空間は情報をどれだけ保持しているか？ 15

分析：各 subspace が捉えている意味関係 - 各 query に対するそれぞれの周辺語 - それぞれの関係を捉えている？
16

分析：各 subspace が捉えている意味関係 - Hyperlex, Simlex999 で対義語、上位語、部分関係を捉えるタスク
- LexSub の各 subspace がそれぞれ高性能 17

分析：各 subspace を下流タスクのモデルで再現 - 類義語・対義語・上位語・部分関係を予測 - LexSub がベースラインを上回る→各subspace への線形変換をニューラルが再現？
18

分析：元々のベクトル空間 - 元のベクトルは情報を保持できているか？ - Vanilla との二乗ノルム（＝情報損失）を計算 - LexSub の損失はベースラインの 1/30
程度 →事前学習の情報を保持したまま各関係を学習 19

結論 - 単語の語彙・意味的な関係（類義語、上位語など）を単語ベクトル空間から変換した subspace で表現 - 元のベクトル空間の情報を保持したまま内在・外因的評価で既存の手法を上回る 20

文献紹介：Learning Lexical Subspaces in a Distributi...

文献紹介：Learning Lexical Subspaces in a Distributional Vector Space

Taichi Aida

More Decks by Taichi Aida

Other Decks in Research

Featured

Transcript

Learning Lexical Subspaces in a Distributional Vector Space Kushal Arora,

概要 - 単語の語彙・意味的な関係（類義語、上位語など）を単語ベクトル空間から変換した subspace で表現 - 元のベクトル空間の情報を保持したまま内在・外因的評価で既存の手法を上回る 2

導入 - 問題点：分布仮説は対義語を扱えない →制約を加えて単語ベクトルを修正する研究 ✅ 指定した意味的関係を扱えるようになる ❌ 元のベクトルが持つ情報が失われる（→下流タスクでの性能低下） ❌

提案手法：LexSub - 解決方法：扱う情報ごとに空間を分ける - 分布の情報：元のベクトル空間 - 各意味的関係（対義語, 上位語, 部分）：元のベクトル空間から線形変換した

- 学習： - 変換行列 W を使い、各 subspace に変換 - 各関係を持つ単語セット

- 上位語：非対称（✅ 🍎→果物, ❌ 果物→🍎） - 部分関係：非対称（✅ 🍁→🌲, ❌ 🌲→🍁）

- 最終的な損失関数各 subspace の損失関数提案手法：各意味関係の subspace を学習 7

実験：設定 - 内在的評価・外因的評価を行った - 内在的評価： - 類似度タスク（men3k, WS-353R） - 類義語・対義語（Simlex,

実験：比較手法 - ベースライン：元のベクトルを直接調整 - Vanilla：GloVe - Wikipedia, Gigaword で事前訓練済み -

結果：内在的評価（類似度） - LexSub は元のベクトル空間を使用 - subspace を学習しつつ、訓練時の情報を保持 10

結果：内在的評価（類似度） - LexSub は元のベクトル空間を使用 - subspace を学習しつつ、訓練時の情報を保持 11 Counterfitting は対義語、LEAR

結果：内在的評価（上位語） - LexSub は上位語の subspace を使用 - 上位語特化の LEAR の性能を上回る

結果：外因的評価微調整あり（Setup 1）、なし（Setup 2） - LexSub は元のベクトル空間を使用 - 多くのタスクでベースラインを上回る 13

結果：外因的評価微調整あり（Setup 1）、なし（Setup 2） - 他の手法は Vanilla を下回る→ベクトル空間を分けて意味関係を学習するのが効果的？ 14

分析：3つの疑問について 1. LexSub の各 subspace は対応する意味関係をどの程度捉えているか？ 2. LexSub の各

分析：各 subspace が捉えている意味関係 - 各 query に対するそれぞれの周辺語 - それぞれの関係を捉えている？

分析：各 subspace が捉えている意味関係 - Hyperlex, Simlex999 で対義語、上位語、部分関係を捉えるタスク

分析：各 subspace を下流タスクのモデルで再現 - 類義語・対義語・上位語・部分関係を予測 - LexSub がベースラインを上回る→各subspace への線形変換をニューラルが再現？

分析：元々のベクトル空間 - 元のベクトルは情報を保持できているか？ - Vanilla との二乗ノルム（＝情報損失）を計算 - LexSub の損失はベースラインの 1/30

結論 - 単語の語彙・意味的な関係（類義語、上位語など）を単語ベクトル空間から変換した subspace で表現 - 元のベクトル空間の情報を保持したまま内在・外因的評価で既存の手法を上回る 20