[論文解説] Alleviating Over-smoothing for Unsupervised Sentence Representation

Alleviating Over-smoothing for Unsupervised Sentence Representation Nuo Chen, Linjun Shou,
Jian Pei, Ming Gong, Bowen Cao, Jianhui Chang, Daxin Jiang, Jia Li ACL 2023 URL:https://aclanthology.org/2023.acl-long.197/ 発表者：B4 梶川怜恩

• 教師なし文埋め込みの課題である「過平滑化（Over-smoothing）」を紹介 • モデルの文埋め込みの均一性 • 層内：層を深くするとトークン間の埋め込みが均一化 • 層間：隣接する層間の埋め込みが均一化（本研究） • モデルの能力を低下させ、最適でない文埋め込みになる
• 層間の過平滑化に対して「自己対照学習」を提案 • モデルの中間層の文埋め込みを負例として採用 • 非常にシンプル、既存モデルへの拡張が容易 • 有効性を示すとともに、提案手法による恩恵を示した 1 Overview

• 自然言語文をベクトル表現で表したもの • 文の意味表現⇔ベクトルの距離 → 密集せず一様に分布してほしい生成手法 • 単語埋め込みを利用 •
Word2vecの平均 • BERTのCLSトークンや平均プーリング • 文埋め込みを利用 • Sentence-BERT • SimCSE 2 導入：文埋め込み少年が折り紙を折っている少年が赤い折り紙を折っている少年が町を歩いている

Semantic Textual similarity（STS）タスク • 2文の埋め込みのコサイン類似度と人間評価とのスピアマン相関係数 • モデルが文の意味的類似性を正しく推定できるかを評価 SentEval 文埋め込みの品質を評価 •
下流タスク • モデルの文埋め込みを特徴量とした分類タスクを行う • 感情分析など17の下流タスク • Probingタスク • ある文埋め込みからどのような言語情報を抽出できるのかを分析 • 言語情報：文の長さ、構文木の深さ… 3 導入：文埋め込みと評価タスク文埋め込みを入力とした分類器を訓練、評価

事前学習済みモデルを文埋め込みとして利用 → 異方性（anisotropy）の問題[1] → 表現の分布が特定の領域内に制約することベクトル同士が密集 → 関係のない文埋め込み同士の類似度も高くなってしまう → 意味情報を正確に読み取れない
表現の分布を一様に分布させたい…🤔 4 導入：文表現学習と異方性少年が折り紙を折っている少年が赤い折り紙を折っている少年が町を歩いている [1]Ethayarajh.:How contextual are contextualized word representations? comparing the geometry of bert, elmo, and gpt-2 embeddings(EMNLP’19)

色んな手法が提案されてきた • BERT-flow：文埋め込みをガウス分布に変換[2] • BERT-whitening：無相関な文埋め込みに線形変換[3] → 表現が一様に分布になるように学習近年、「対照学習」による異方性の解消が行われている[4][5] 5 導入：文表現学習と異方性
[2]Li et al.: On the sentence embeddings from pre-trained language models (EMNLP’20) [3]Su et al.: Whitening sentence representations for better semantics and faster retrieval (arXiv’21) [4]Giorgi et al.:Declutr: Deep contrastive learning for unsupervised textual representations(ACL’21) [5]Gao et al.: Simcse: Simple contrastive learning of sentence embeddings(EMNLP’21)

• 自己教師あり学習のひとつ • 類似の意味表現を近づけ、非類似の意味表現を遠ざける • 正例と負例、それぞれデータペアが必要となる • 正例同士の類似度が高くなるように学習 • 文埋め込みの学習手法として人気[5][6][7]
6 導入：対照学習 [5]Gao et al.: Simcse: Simple contrastive learning of sentence embeddings(EMNLP’21) [6]Su et al.: A Contrastive Framework for Learning Sentence Representations from Pairwise and Triple-wise Perspective in Angular Space(ACL’22) [7] Zhuo et al.:WhitenedCSE: Whitening-based Contrastive Learning of Sentence Embeddings （ACL’23）

文集合 Χ = {𝑋𝑖 }𝑖=1 𝑚 に対して正例・負例を構築する 7 導入：対照学習正例：単語削除、置換などの操作
𝑓(∙) 負例：異なる文表現同士 →異なる文表現を遠ざける

• 文埋め込みとは • 文の意味情報を埋め込む • ベクトルの距離が意味表現に対応している • 文埋め込みの評価タスクについて • STSタスク：文の意味的類似性を捉えられるか
• SentEval ：埋め込みの品質を評価 • 文埋め込みの問題 • 異方性：表現の分布が特定の領域内に制約すること • 異方性を対処するための対照学習を用いた文埋め込み手法 • 近年では、対照学習を用いた文埋め込み手法が盛ん → 文埋め込みの新たな問題である「平滑化」について 8 導入：まとめ

• BERTの層を深くするとトークン間の埋め込みが類似してくる • BERTはTransformerのエンコーダ部をN層重ねたもの → 再帰的に最終層の各トークンの表現はある部分空間上に収束してしまう → 過平滑化（トークンの均一性）と呼ばれる[8] 9 背景：過平滑化
BERTに入力されたトークンが層が深くなるにつれて類似していく様子 [8]Shi et al.:Revisiting over-smoothing in BERT from the perspective of graph (ICLR’22) a man playing the guiter

• BERTの層を深くするとトークン間の埋め込みが類似してくる • BERTはTransformerのエンコーダ部をN層重ねたもの → 再帰的に最終層の各トークンの表現はある部分空間上に収束してしまう → 過平滑化（トークンの均一性）と呼ばれる[8] 10 背景：過平滑化
[8]Shi et al.:Revisiting over-smoothing in BERT from the perspective of graph (ICLR’22) トークンの埋め込みが類似している

h • BERTはTransformerのエンコーダ部分をN層重ねたもの • 隣接する2つのレイヤー間の文表現は、レイヤーが深くなるにつれて同一になっていくレイヤー間の類似度が高くなるにつれて • モデルが適切な識別知識の獲得を妨げる • NNの有効性が低下し、識別力が失われる[9]
→ 層間における過平滑化問題 11 背景：過平滑化は層間レベルにも存在した [9]Cai and Wang.:A note on oversmoothing for graph neural networks. (ICML’20)

2つの要因 • モデル内のエンコーダ層が冗長である → 一部のレイヤーを削除しよう • モデルの学習が最適化されておらず、エンコーダ内の深い層を効果的に最適化できてない → 言及した既存の研究はない →
層間の類似度を下げるために「対照学習」を採用したい！ 12 背景：なぜレイヤー間の類似度が高くなるのか？単純なレイヤー削除では解決しない

自己対照学習（Self-Contrastive Learning）の提案 → 中間層の文表現を最終的な文表現が離れるべき負例として利用層間の過平滑化を緩和させる ※ 中間層：モデルの最終層以外のTransformerのエンコーダ層 BERTはTransformerのエンコーダ部分をN層重ねたもの 13 本研究：自己対照学習に基づく過平滑化問題の緩和

文集合 Χ = {𝑋𝑖 }𝑖=1 𝑚 に対して正例・負例を構築する 14 本研究：対照学習【再掲】正例：単語削除、置換などの操作
𝑓(∙) → ℎ𝑖 とℎ𝑖 + 負例：異なる文表現同士 →異なる文表現を遠ざける

層間の過平滑化より… 「中間M層目と最終層の文埋め込み同士の類似度を低下させたい」（負例を追加） 15 自己対照学習：同じ入力文に対する埋め込み同士を負例負例：異なる文表現同士 →異なる文表現を遠ざける負例：中間層と最終層の文埋め込み → ℎ𝑖 とℎ𝑖
−

実験 16

自己対照学習をBERT, SimCSEに適用英語Wikipediaから無作為抽出された100万文から学習文埋め込みの評価 • STSタスク：文間の意味的類似度 • SentEval：下流タスク • 感情分析などのテキスト分類問題を、文埋め込みを入力とする分類器を学習して性能を測ることで、文埋め込みの性質
をみるベースライン • 単純なベースライン：Glove, BERT, Skip-Thought • BERTに基づく強力なベースライン：BERT-flow, BERT-whitening… 17 実験事前訓練済みモデル（fine-tuneなし）

• 自己対照学習で学習したBERT, SimCSEともに性能が向上 • → フレームワークとして他の対照学習モデルに適用できる！ 18 結果：文間の類似度評価（STSタスク）

• STSタスク同様に提案手法での性能改善を確認 19 結果：SentEval（下流タスク）

分析 20

SentEval のprobing taskによる分析 Probing taskとは • ある文埋め込みからどのような言語情報を抽出できるのかを分析 • 文埋め込みをからあるラベルを予測する分類器を訓練、評価 TreeDepth：文の構造木の最大の深さを予測
SentLen：文の長さを予測 CoordInv：元の文と順序が逆転した文を区別 21 定性分析：自己対照学習で得た文埋め込みの性質ベースラインを上回る結果

負例として採用する中間層を変えて実験 • 横軸：採用する中間層の番号 • 縦軸：モデルのパフォーマンス（STS-Bのスピアマン相関係数） 22 定量分析：自己対照学習における負例として最適な層は？どの層でも改善がみられる → 11番目の層が最良

• 1~11層目を積み重ねて負例を構築 • 横軸：採用する層数（11層から順に採用） • 縦軸：モデルのパフォーマンス（STS-Bのスピアマン相関係数） 23 定量分析：採用する負例（層数）を増やしてみる 2層（11,10層目）が最良

提案手法の効果が維持するために必要な次元数を検証 • 通常のBERTでは、高次元ほど良い性能 • SSCLでは、次元数を削減しても性能を維持する →文埋め込みの冗長な情報を削減できる 24 定量分析：文埋め込みの次元数を変化させる 🤔SSCL-BERTでは次元数を縮小すると性能が上がっている

層内の過平滑化：BERTの層を深くするとトークン間の埋め込みが類似してくる SimCSEとSSCL-SimCSEとのトークン表現の類似性を可視化 25 Discussion on SSCL：層内の過平滑化も解消されているトークン表現が類似している →最適化されてない文表現類似度がバラバラ →
トークンの識別力が向上🎉

自己対照学習によって負例が2通り（倍）になった 🤔バッチサイズを大きくしてバッチ内否定を増やすだけで同様の結果が得られるのでは？バッチサイズを64から128に拡大 26 Discussion on SSCL：モデルの改善はSSCLによるものか？バッチサイズを拡大してもあまり変化はみられない

まとめ 27

• 教師なし文表現における過平滑化について • 自己対照学習によって層間の過平滑化は緩和できた • STSタスク、SentEvalにおける実験により有効性を示せた分析 • 自己対照学習による文埋め込みの特徴を分析 •
次元数を削減しても性能を維持 28 まとめ

[論文解説] Alleviating Over-smoothing for Unsupervi...

[論文解説] Alleviating Over-smoothing for Unsupervised Sentence Representation

Reon Kajikawa

More Decks by Reon Kajikawa

Featured

Transcript

Alleviating Over-smoothing for Unsupervised Sentence Representation Nuo Chen, Linjun Shou,

• 自然言語文をベクトル表現で表したもの • 文の意味表現⇔ベクトルの距離 → 密集せず一様に分布してほしい生成手法 • 単語埋め込みを利用 •

Semantic Textual similarity（STS）タスク • 2文の埋め込みのコサイン類似度と人間評価とのスピアマン相関係数 • モデルが文の意味的類似性を正しく推定できるかを評価 SentEval 文埋め込みの品質を評価 •

文集合 Χ = {𝑋𝑖 }𝑖=1 𝑚 に対して正例・負例を構築する 7 導入：対照学習正例：単語削除、置換などの操作

• 文埋め込みとは • 文の意味情報を埋め込む • ベクトルの距離が意味表現に対応している • 文埋め込みの評価タスクについて • STSタスク：文の意味的類似性を捉えられるか

2つの要因 • モデル内のエンコーダ層が冗長である → 一部のレイヤーを削除しよう • モデルの学習が最適化されておらず、エンコーダ内の深い層を効果的に最適化できてない → 言及した既存の研究はない →

文集合 Χ = {𝑋𝑖 }𝑖=1 𝑚 に対して正例・負例を構築する 14 本研究：対照学習【再掲】正例：単語削除、置換などの操作