Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

[論文解説] Alleviating Over-smoothing for Unsupervi...

Reon Kajikawa
October 09, 2023
11

[論文解説] Alleviating Over-smoothing for Unsupervised Sentence Representation

層間の過平滑化を緩和するために自己対照学習を用いた話

Reon Kajikawa

October 09, 2023
Tweet

More Decks by Reon Kajikawa

Transcript

  1. Alleviating Over-smoothing for Unsupervised Sentence Representation Nuo Chen, Linjun Shou,

    Jian Pei, Ming Gong, Bowen Cao, Jianhui Chang, Daxin Jiang, Jia Li ACL 2023 URL:https://aclanthology.org/2023.acl-long.197/ 発表者:B4 梶川 怜恩
  2. • 教師なし文埋め込みの課題である「過平滑化(Over-smoothing)」を紹介 • モデルの文埋め込みの均一性 • 層内:層を深くするとトークン間の埋め込みが均一化 • 層間:隣接する層間の埋め込みが均一化(本研究) • モデルの能力を低下させ、最適でない文埋め込みになる

    • 層間の過平滑化に対して「自己対照学習」を提案 • モデルの中間層の文埋め込みを負例として採用 • 非常にシンプル、既存モデルへの拡張が容易 • 有効性を示すとともに、提案手法による恩恵を示した 1 Overview
  3. • 自然言語文をベクトル表現で表したもの • 文の意味表現⇔ベクトルの距離 → 密集せず一様に分布してほしい 生成手法 • 単語埋め込みを利用 •

    Word2vecの平均 • BERTのCLSトークンや平均プーリング • 文埋め込みを利用 • Sentence-BERT • SimCSE 2 導入:文埋め込み 少年が折り紙を折っている 少年が赤い折り紙を折っている 少年が町を歩いている
  4. Semantic Textual similarity(STS)タスク • 2文の埋め込みのコサイン類似度と人間評価とのスピアマン相関係数 • モデルが文の意味的類似性を正しく推定できるかを評価 SentEval 文埋め込みの品質を評価 •

    下流タスク • モデルの文埋め込みを特徴量とした分類タスクを行う • 感情分析など17の下流タスク • Probingタスク • ある文埋め込みからどのような言語情報を抽出できるのかを分析 • 言語情報:文の長さ、構文木の深さ… 3 導入:文埋め込みと評価タスク 文埋め込みを入力とした 分類器を訓練、評価
  5. 事前学習済みモデルを文埋め込みとして利用 → 異方性(anisotropy)の問題[1] → 表現の分布が特定の領域内に制約すること ベクトル同士が密集 → 関係のない文埋め込み同士の類似度も高くなってしまう → 意味情報を正確に読み取れない

    表現の分布を一様に分布させたい…🤔 4 導入:文表現学習と異方性 少年が折り紙を折っている 少年が赤い折り紙を折っている 少年が町を歩いている [1]Ethayarajh.:How contextual are contextualized word representations? comparing the geometry of bert, elmo, and gpt-2 embeddings(EMNLP’19)
  6. 色んな手法が提案されてきた • BERT-flow:文埋め込みをガウス分布に変換[2] • BERT-whitening:無相関な文埋め込みに線形変換[3] → 表現が一様に分布になるように学習 近年、「対照学習」による異方性の解消が行われている[4][5] 5 導入:文表現学習と異方性

    [2]Li et al.: On the sentence embeddings from pre-trained language models (EMNLP’20) [3]Su et al.: Whitening sentence representations for better semantics and faster retrieval (arXiv’21) [4]Giorgi et al.:Declutr: Deep contrastive learning for unsupervised textual representations(ACL’21) [5]Gao et al.: Simcse: Simple contrastive learning of sentence embeddings(EMNLP’21)
  7. • 自己教師あり学習のひとつ • 類似の意味表現を近づけ、非類似の意味表現を遠ざける • 正例と負例、それぞれデータペアが必要となる • 正例同士の類似度が高くなるように学習 • 文埋め込みの学習手法として人気[5][6][7]

    6 導入:対照学習 [5]Gao et al.: Simcse: Simple contrastive learning of sentence embeddings(EMNLP’21) [6]Su et al.: A Contrastive Framework for Learning Sentence Representations from Pairwise and Triple-wise Perspective in Angular Space(ACL’22) [7] Zhuo et al.:WhitenedCSE: Whitening-based Contrastive Learning of Sentence Embeddings (ACL’23)
  8. • 文埋め込みとは • 文の意味情報を埋め込む • ベクトルの距離が意味表現に対応している • 文埋め込みの評価タスクについて • STSタスク:文の意味的類似性を捉えられるか

    • SentEval :埋め込みの品質を評価 • 文埋め込みの問題 • 異方性:表現の分布が特定の領域内に制約すること • 異方性を対処するための対照学習を用いた文埋め込み手法 • 近年では、対照学習を用いた文埋め込み手法が盛ん → 文埋め込みの新たな問題である「平滑化」について 8 導入:まとめ
  9. 2つの要因 • モデル内のエンコーダ層が冗長である → 一部のレイヤーを削除しよう • モデルの学習が最適化されておらず、エンコーダ内の深い層を効果的に最適化できてない → 言及した既存の研究はない →

    層間の類似度を下げるために「対照学習」を採用したい! 12 背景:なぜレイヤー間の類似度が高くなるのか? 単純なレイヤー削除では解決しない
  10. SentEval のprobing taskによる分析 Probing taskとは • ある文埋め込みからどのような言語情報を抽出できるのかを分析 • 文埋め込みをからあるラベルを予測する分類器を訓練、評価 TreeDepth:文の構造木の最大の深さを予測

    SentLen:文の長さを予測 CoordInv:元の文と順序が逆転した文を区別 21 定性分析:自己対照学習で得た文埋め込みの性質 ベースラインを上回る結果