[論文解説] Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning

Slide 1

Slide 1 text

Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning Huiming Wang, Zhaodonghui Li, Liying Cheng, De Wen Soh, Lidong Bing NAACL 2024 URL:https://aclanthology.org/2024.naacl-long.436/ 発表者：M1 梶川怜恩

Slide 2

Slide 2 text

文埋め込み • LLMによる生成文で文埋め込み対照学習する話 • 品質の良い学習データにする3段階のプロセス（MultiCSR）を提案 • 文生成、文ペアの構築、バッチ内学習評価実験の結果 • 既存の対照学習フレームワークよりも性能が高い 1 概要

Slide 3

Slide 3 text

文埋め込み • 対照学習ベースの手法が主流になりつつある • 実装がシンプルかつ効果的 • 文ペアの品質に大きく左右される [1] • 大量かつ高品質な文ペアを取得するコスト高 LLMの登場 • NLPタスクで優れた性能を発揮している → 文表現学習にLLMを活用しようとする動きが 2 背景：文埋め込みとLLMの登場 [1] Generate, Discriminate and Contrast: A Semi-Supervised Sentence Representation Learning Framework（EMNLP’22）

Slide 4

Slide 4 text

LLMs as generators [2] • NLIの前提文に対して仮説文（含意、矛盾）を生成 → NLI（合成）データで対照学習する LLMs as annotators [3] • 文ペアに対して意味的類似度スコアを注釈 → そのスコアを模倣するように学習する 3 背景：文表現にLLMを活用する先行研究がある GPT 前提文含意文矛盾文 0.28 Similarity score GPT 文1, 2 [2] Improving Contrastive Learning of Sentence Embeddings from AI Feedback（ACL’23） [3] Contrastive Learning of Sentence Embeddings from Scratch （EMNLP’23）

Slide 5

Slide 5 text

入力文の内容やLLMの性能に依存する → 生成を自動的に改良できるフレームワークが必要となる 4 背景：LLMの生成文の品質に対する懸念入力文を理解できていない入力文の情報が不足している

Slide 6

Slide 6 text

以下、３段階のフレームワークを提案 Stage1「文の生成」品質の良い生成文を出力しよう Stage2「文ペアの構築」品質の良い文ペアのみ抽出しよう Stage3「合成データで対照学習」バッチ内負例から偽負例を無くそう 5 提案手法：LLMの生成を改良するフレームワーク

Slide 7

Slide 7 text

提案手法 6

Slide 8

Slide 8 text

7 概要図

Slide 9

Slide 9 text

• Input: 命令𝐼、入力文𝑥 • Output: 入力文に対する仮説文（含意、矛盾）出力文𝑦の確率𝑝𝜃 は以下の通りロジット𝑙𝑡 は以下の通り 8 Stage1: 文の生成 softmaxをロジット𝐼𝑡 に適用して得られた次のトークン𝑦𝑡 の正規化確率

Slide 10

Slide 10 text

品質の良い生成文を出力する手法元の命令𝑰 とノイズ命令෠ 𝑰とのロジットを比較 [4] → どの部分が本来の意図とずれたかを検出できる → より洗練された生成を実現 9 Stage1: 文の生成（対比生成）ノイズの命令መ 𝐼として矛盾文を生成する命令を採用最終的なロジット(= 𝑙𝑡 − 𝜔 ∗ መ 𝑙𝑡 ) の確率分布からサンプリング [4] INSTRUCTIVE DECODING: INSTRUCTION-TUNED LARGE LANGUAGE MODELS ARE SELF-REFINER FROM NOISY INSTRUCTIONS（ICLR’24）

Slide 11

Slide 11 text

文ペアの関係は不確実のままである • 対照学習では、空間内の文ペア間の距離がモデルを訓練するのに適しているか • 要は正例と負例に相応しいかどうか文ペアを自己選別（Self-Curation） • 3つ組に対して、意味的類似度をLLMで注釈する • 閾値を設けてフィルタリング 10 Stage2: 文ペアの構築（with Self-Curation）

Slide 12

Slide 12 text

文ペアの関係が成立した状態 • LLMで作成したデータを用いて、対照学習を行うバッチ内負例の問題 • 偽負例が含まれる可能性がある • 負例は意味的に遠いものでなければならない 11 Stage3: 合成データで対照学習

Slide 13

Slide 13 text

偽負例をマスクするバッチ内負例（𝑥, 𝑥𝑘）に対して以下の式 → 損失に対してマスキングする 12 Stage3: 合成データで対照学習（偽陰性をマスク）事前訓練済みモデルの埋め込み同士のcos sim

Slide 14

Slide 14 text

Step1 • 前提文から含意文と矛盾文を生成 by LLM • Contrast Decodingにより洗練した文を生成 Step2 • 文ペアを構築 • 文ペアの意味的類似度を注釈 by LLM • → 閾値を設けて、フィルタリング Step3 • 合成データで対照学習 • 偽陰性をマスクする 13 提案手法まとめ

Slide 15

Slide 15 text

評価実験 14

Slide 16

Slide 16 text

評価データセット • SentEval（STSタスクと転移タスク） • BEIR（ゼロショット情報検索タスク）← 省略します学習データ • NLIデータの前提文＋LLM（仮説文（含意と矛盾）） LLM • Flan-T5-XL（3B）, ChatGPT (gpt-3.5-turbo) 比較手法 • 教師なし対照学習モデル（SimCSEなど） • 同じく合成データを使用したSynCSE [5] 15 実験設定対照学習フレームワークとして SimCSEを採用

Slide 17

Slide 17 text

既存手法と比べて、最先端の性能を実現 16 実験結果：STSタスク合成データを使用した既存手法よりも効果的 Unsup-XXXよりも性能が高い

Slide 18

Slide 18 text

既存手法と比べて、所々負けている… 17 実験結果：転移タスク SynCSEの結果を載せてない？ RankCSEに負けている → SimCSEに勝てればヨシ？

Slide 19

Slide 19 text

分析 18

Slide 20

Slide 20 text

Stageごとの影響を調査 19 分析：アブレーション分析 w/o Stage1,2が特に性能低下 → 文の品質、文ペアの構築が重要である

Slide 21

Slide 21 text

• ラベルなしの文としてNLIの前提文を使用していた • NLIデータは高品質（語彙の重複が少ない） • ノイズの多い文に対しても有効性があるのか？ • Wikipediaから10^6文を無作為抽出 STS 検証セットで評価 • SimCSEでは、NLI < Wikipedia • 質より量 • MultiCSRでは、 NLI > Wikipedia • Wikipediaの方が長いかつ生成するのに言語理解能力が必要 → Wikipediaの文では、含意、矛盾文を生成するのが難しい 20 分析：異なるデータで学習したとき

Slide 22

Slide 22 text

文埋め込み • LLMによる生成文で文埋め込み対照学習する話 • 品質の良い学習データにする3段階のプロセス（MultiCSR）を提案 • 文生成、文ペアの構築、バッチ内学習 Limitation • Stage1より、ロジットの獲得 → Closed なLLMだとロジットを取得できない • Stage2より、自己選別 • ハードな選別（ルールベース）でフィルタリング • ソフトな（？）選別を提案したい 21 まとめ