Slide 1

Slide 1 text

Sentence Representations via Gaussian Embedding Shohei Yoda, Hayato Tsukagoshi, Ryohei Sasano, Koichi Takeda EACL 2024 発表者:B4 梶川 怜恩

Slide 2

Slide 2 text

• 文をガウス分布として埋め込む手法(GaussCSE) • 意味の広がりや包含関係を表現 実験の結果 • NLIタスクにおいて従来手法と同等の性能 • 点表現では困難な包含関係の向きを推定可能 1 概要

Slide 3

Slide 3 text

文埋め込みとは • 文の意味を多次元ベクトルで表現する手法 既存手法 • 文を空間上の点で表現 • 類似度指標にコサイン類似度を採用 → 引数を入れ替えても値が変化しない対称的な指標 → 包含関係などの非対称的な関係を捉えられない 2 導入:文埋め込みと課題

Slide 4

Slide 4 text

g ガウス埋め込み • 単語をガウス分布で表現 [1] • 平均:従来の点表現、分散:意味の広がり 3 導入:Gaussian Embedding [1] Vilnis and McCallum.:Word Representations via Gaussian Embedding(ICLR’15)

Slide 5

Slide 5 text

ガウス埋め込み • 単語をガウス分布で表現 [1] • 2つの単語間の類似度(KLダイバージェンス) • 非対称的な指標(引数を替えると値が変わる) • 包含関係などの非対称な関係を捉えられる 4 導入:Gaussian Embedding [1] Vilnis and McCallum.:Word Representations via Gaussian Embedding(ICLR’15)

Slide 6

Slide 6 text

教師ありSimCSE • NLIデータセットを用いた対照学習 • 正例:含意ラベルの文ペア • 負例:矛盾ラベルの文ペア • STSタスクにおいて高い性能 5 導入:Supervised SimCSE [2] Gao et al.:SimCSE: Simple Contrastive Learning of Sentence Embeddings(EMNLP’21)

Slide 7

Slide 7 text

提案手法 / GaussCSE 6

Slide 8

Slide 8 text

GaussCSE • 文をガウス分布で表現(既存研究では単語) • NLIデータセットを用いた対照学習(教師ありSimCSE) → 文の包含関係を表現する 7 GaussCSE

Slide 9

Slide 9 text

手順 1. 文𝑠𝑘 をBERTに入力、文の埋め込み𝑣𝑘 を得る 2. vk を線形層に通し、平均𝜇𝑘 と分散𝜎𝑘 を得る 3. 平均𝜇𝑘 と分散𝜎𝑘 でガウス分布𝑁𝑘 を得る 8 GaussCSE:概要

Slide 10

Slide 10 text

提案手法 • KLダイバージェンスを利用した評価指標 → 引数を入れ替えると値が変化する非対称的な指標 • KLダイバージェンスの値域が[0,∞)であるため、𝑠𝑖𝑚(𝑠𝑖 ||𝑠𝑗 )の値域は(0,1] • 文𝑠同士の意味が似ているほど値が大きくなる(性質 ①) → 意味関係の学習の実現 9 GaussCSE:類似度指標

Slide 11

Slide 11 text

類似度指標の性質 文𝒔𝟏 の分散 > 文𝒔𝟐 の分散であるとき、 𝒔𝒊𝒎(𝒔𝟏 ||𝒔𝟐 )< 𝒔𝒊𝒎(𝒔𝟐 ||𝒔𝟏 )となる傾向(性質 ②) 𝑠1 が𝑠2 を包含している際… • 𝒔𝒊𝒎(𝒔𝟏 ||𝒔𝟐 )を小さく、 𝒔𝒊𝒎(𝒔𝟐 ||𝒔𝟏 )を大きくするよう学習 → 文𝑠1 の分散が大きく、文𝑠2 の分散が小さくなることが期待される → 包含関係の学習の実現 10 GaussCSE:類似度指標の性質

Slide 12

Slide 12 text

学習手法 • 教師あり対照学習 • NLIデータセットを訓練データとする 正例と負例の選定法 • 含意集合(正例) • 含意ラベルの文ペアの集合 • 意味的に類似しているので、simを大きくなるように学習 • 矛盾集合(負例) • 矛盾ラベルの文ペアの集合 • 意味的に非類似なので、simを小さくなるように学習 • 逆向き集合(負例) • 含意集合の文ペアを入れ替えた集合 • simの性質上、simを小さくなるように学習 11 GaussCSE:学習手法 sim(含意*||前提)を大きく sim(前提||含意)を小さくして 包含関係を学習 *含意=仮説

Slide 13

Slide 13 text

実験 12

Slide 14

Slide 14 text

文埋め込みの評価 • NLI分類タスク • 包含の向き推定タスク データセット • SNLIデータセット+MNLIデータセット 比較実験 • 教師ありSimCSE • 3つの集合のうち一部を除いて学習したモデルでも評価 13 評価実験

Slide 15

Slide 15 text

NLI分類タスク • 文の含意の識別能力を評価 • 前提文と仮説文が与えられ、前提文が仮説文を含意するか推定 • sim(仮説文||前提文)の値が閾値以上なら含意、未満なら含意でないの2値分類 データセット • SNLIとSICK 評価指標 • ACCとAUC 14 評価実験1:NLI分類タスク

Slide 16

Slide 16 text

• 教師ありSimCSEでの組み合わせと同じ、「含意+矛盾」の性能が最高 • 矛盾集合を加えることで性能が向上 • 逆向き集合を加えることで性能が低下 → 意味的に類似した文ペア(負例として扱うと不利に) 15 実験結果1:NLI分類タスク 文のガウス埋め込み

Slide 17

Slide 17 text

包含の向き推定 • 包含関係を捉えているかを評価 • 含意関係にある文ペアに対して、どちらが含意する文なのか推定 推定方法 • 類似度ベース: 𝒔𝒊𝒎(𝒔𝟏 | 𝒔𝟐 < 𝒔𝒊𝒎(𝒔𝟐 ||𝒔𝟏 )ならば、𝑠1 を包含する側とする • 分類ベース :det(𝜎1 ) > det(𝜎2 )ならば、 𝑠1 を包含する側とする データセット • SNLIとSICK 16 評価実験2:包含の向き推定

Slide 18

Slide 18 text

• 逆向き集合を含めることで性能が向上 • データセット間で平均的な性能に大きな差 → 特性の違い(文ペアの長さの分布など) 17 実験結果2:包含の向き推定

Slide 19

Slide 19 text

まとめ 18

Slide 20

Slide 20 text

• 文をガウス分布として埋め込む手法(GaussCSE) • 意味の広がりや包含関係を表現 実験の結果 • NLIタスクにおいて従来手法と同様の性能 • 点表現では困難な包含関係の向きを推定可能 今後 • 他タスクにおけるGaussCSEの性能を評価 19 まとめ