[論文解説] Sentence Representations via Gaussian Embedding

Sentence Representations via Gaussian Embedding Shohei Yoda, Hayato Tsukagoshi, Ryohei
Sasano, Koichi Takeda EACL 2024 発表者：B4 梶川怜恩

• 文をガウス分布として埋め込む手法（GaussCSE） • 意味の広がりや包含関係を表現実験の結果 • NLIタスクにおいて従来手法と同等の性能 • 点表現では困難な包含関係の向きを推定可能 1
概要

文埋め込みとは • 文の意味を多次元ベクトルで表現する手法既存手法 • 文を空間上の点で表現 • 類似度指標にコサイン類似度を採用 → 引数を入れ替えても値が変化しない対称的な指標
→ 包含関係などの非対称的な関係を捉えられない 2 導入：文埋め込みと課題

g ガウス埋め込み • 単語をガウス分布で表現 [1] • 平均：従来の点表現、分散：意味の広がり 3 導入：Gaussian Embedding
[1] Vilnis and McCallum.:Word Representations via Gaussian Embedding（ICLR’15）

ガウス埋め込み • 単語をガウス分布で表現 [1] • 2つの単語間の類似度（KLダイバージェンス） • 非対称的な指標（引数を替えると値が変わる） • 包含関係などの非対称な関係を捉えられる
4 導入：Gaussian Embedding [1] Vilnis and McCallum.:Word Representations via Gaussian Embedding（ICLR’15）

教師ありSimCSE • NLIデータセットを用いた対照学習 • 正例：含意ラベルの文ペア • 負例：矛盾ラベルの文ペア • STSタスクにおいて高い性能 5
導入：Supervised SimCSE [2] Gao et al.:SimCSE: Simple Contrastive Learning of Sentence Embeddings（EMNLP’21）

提案手法 / GaussCSE 6

GaussCSE • 文をガウス分布で表現（既存研究では単語） • NLIデータセットを用いた対照学習（教師ありSimCSE） → 文の包含関係を表現する 7 GaussCSE

手順 1. 文𝑠𝑘 をBERTに入力、文の埋め込み𝑣𝑘 を得る 2. vk を線形層に通し、平均𝜇𝑘 と分散𝜎𝑘 を得る
3. 平均𝜇𝑘 と分散𝜎𝑘 でガウス分布𝑁𝑘 を得る 8 GaussCSE：概要

提案手法 • KLダイバージェンスを利用した評価指標 → 引数を入れ替えると値が変化する非対称的な指標 • KLダイバージェンスの値域が[0,∞)であるため、𝑠𝑖𝑚(𝑠𝑖 ||𝑠𝑗 )の値域は(0,1] •
文𝑠同士の意味が似ているほど値が大きくなる（性質 ①） → 意味関係の学習の実現 9 GaussCSE：類似度指標

類似度指標の性質文𝒔𝟏 の分散 > 文𝒔𝟐 の分散であるとき、 𝒔𝒊𝒎(𝒔𝟏 ||𝒔𝟐 )＜ 𝒔𝒊𝒎(𝒔𝟐
||𝒔𝟏 )となる傾向（性質 ②） 𝑠1 が𝑠2 を包含している際… • 𝒔𝒊𝒎(𝒔𝟏 ||𝒔𝟐 )を小さく、 𝒔𝒊𝒎(𝒔𝟐 ||𝒔𝟏 )を大きくするよう学習 → 文𝑠1 の分散が大きく、文𝑠2 の分散が小さくなることが期待される → 包含関係の学習の実現 10 GaussCSE：類似度指標の性質

学習手法 • 教師あり対照学習 • NLIデータセットを訓練データとする正例と負例の選定法 • 含意集合（正例） • 含意ラベルの文ペアの集合
• 意味的に類似しているので、simを大きくなるように学習 • 矛盾集合（負例） • 矛盾ラベルの文ペアの集合 • 意味的に非類似なので、simを小さくなるように学習 • 逆向き集合（負例） • 含意集合の文ペアを入れ替えた集合 • simの性質上、simを小さくなるように学習 11 GaussCSE：学習手法 sim(含意*||前提)を大きく sim(前提||含意)を小さくして包含関係を学習 *含意=仮説

実験 12

文埋め込みの評価 • NLI分類タスク • 包含の向き推定タスクデータセット • SNLIデータセット＋MNLIデータセット比較実験 •
教師ありSimCSE • 3つの集合のうち一部を除いて学習したモデルでも評価 13 評価実験

NLI分類タスク • 文の含意の識別能力を評価 • 前提文と仮説文が与えられ、前提文が仮説文を含意するか推定 • sim(仮説文||前提文)の値が閾値以上なら含意、未満なら含意でないの2値分類データセット • SNLIとSICK
評価指標 • ACCとAUC 14 評価実験1：NLI分類タスク

• 教師ありSimCSEでの組み合わせと同じ、「含意＋矛盾」の性能が最高 • 矛盾集合を加えることで性能が向上 • 逆向き集合を加えることで性能が低下 → 意味的に類似した文ペア（負例として扱うと不利に） 15 実験結果1：NLI分類タスク
文のガウス埋め込み

包含の向き推定 • 包含関係を捉えているかを評価 • 含意関係にある文ペアに対して、どちらが含意する文なのか推定推定方法 • 類似度ベース： 𝒔𝒊𝒎(𝒔𝟏 |
𝒔𝟐 < 𝒔𝒊𝒎(𝒔𝟐 ||𝒔𝟏 )ならば、𝑠1 を包含する側とする • 分類ベース：det(𝜎1 ) > det(𝜎2 )ならば、 𝑠1 を包含する側とするデータセット • SNLIとSICK 16 評価実験2：包含の向き推定

• 逆向き集合を含めることで性能が向上 • データセット間で平均的な性能に大きな差 → 特性の違い（文ペアの長さの分布など） 17 実験結果2：包含の向き推定

まとめ 18

• 文をガウス分布として埋め込む手法（GaussCSE） • 意味の広がりや包含関係を表現実験の結果 • NLIタスクにおいて従来手法と同様の性能 • 点表現では困難な包含関係の向きを推定可能今後
• 他タスクにおけるGaussCSEの性能を評価 19 まとめ

[論文解説] Sentence Representations via Gaussian Em...

[論文解説] Sentence Representations via Gaussian Embedding

Reon Kajikawa

More Decks by Reon Kajikawa

Featured

Transcript

Sentence Representations via Gaussian Embedding Shohei Yoda, Hayato Tsukagoshi, Ryohei

• 文をガウス分布として埋め込む手法（GaussCSE） • 意味の広がりや包含関係を表現実験の結果 • NLIタスクにおいて従来手法と同等の性能 • 点表現では困難な包含関係の向きを推定可能 1

文埋め込みとは • 文の意味を多次元ベクトルで表現する手法既存手法 • 文を空間上の点で表現 • 類似度指標にコサイン類似度を採用 → 引数を入れ替えても値が変化しない対称的な指標

g ガウス埋め込み • 単語をガウス分布で表現 [1] • 平均：従来の点表現、分散：意味の広がり 3 導入：Gaussian Embedding

ガウス埋め込み • 単語をガウス分布で表現 [1] • 2つの単語間の類似度（KLダイバージェンス） • 非対称的な指標（引数を替えると値が変わる） • 包含関係などの非対称な関係を捉えられる

教師ありSimCSE • NLIデータセットを用いた対照学習 • 正例：含意ラベルの文ペア • 負例：矛盾ラベルの文ペア • STSタスクにおいて高い性能 5

提案手法 / GaussCSE 6

GaussCSE • 文をガウス分布で表現（既存研究では単語） • NLIデータセットを用いた対照学習（教師ありSimCSE） → 文の包含関係を表現する 7 GaussCSE

手順 1. 文𝑠𝑘 をBERTに入力、文の埋め込み𝑣𝑘 を得る 2. vk を線形層に通し、平均𝜇𝑘 と分散𝜎𝑘 を得る

提案手法 • KLダイバージェンスを利用した評価指標 → 引数を入れ替えると値が変化する非対称的な指標 • KLダイバージェンスの値域が[0,∞)であるため、𝑠𝑖𝑚(𝑠𝑖 ||𝑠𝑗 )の値域は(0,1] •

類似度指標の性質文𝒔𝟏 の分散 > 文𝒔𝟐 の分散であるとき、 𝒔𝒊𝒎(𝒔𝟏 ||𝒔𝟐 )＜ 𝒔𝒊𝒎(𝒔𝟐

学習手法 • 教師あり対照学習 • NLIデータセットを訓練データとする正例と負例の選定法 • 含意集合（正例） • 含意ラベルの文ペアの集合

実験 12

文埋め込みの評価 • NLI分類タスク • 包含の向き推定タスクデータセット • SNLIデータセット＋MNLIデータセット比較実験 •

NLI分類タスク • 文の含意の識別能力を評価 • 前提文と仮説文が与えられ、前提文が仮説文を含意するか推定 • sim(仮説文||前提文)の値が閾値以上なら含意、未満なら含意でないの2値分類データセット • SNLIとSICK

包含の向き推定 • 包含関係を捉えているかを評価 • 含意関係にある文ペアに対して、どちらが含意する文なのか推定推定方法 • 類似度ベース： 𝒔𝒊𝒎(𝒔𝟏 |

• 逆向き集合を含めることで性能が向上 • データセット間で平均的な性能に大きな差 → 特性の違い（文ペアの長さの分布など） 17 実験結果2：包含の向き推定

まとめ 18

• 文をガウス分布として埋め込む手法（GaussCSE） • 意味の広がりや包含関係を表現実験の結果 • NLIタスクにおいて従来手法と同様の性能 • 点表現では困難な包含関係の向きを推定可能今後