[論文解説] Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning

Large Language Models can Contrastively Refine their Generation for Better
Sentence Representation Learning Huiming Wang, Zhaodonghui Li, Liying Cheng, De Wen Soh, Lidong Bing NAACL 2024 URL:https://aclanthology.org/2024.naacl-long.436/ 発表者：M1 梶川怜恩

文埋め込み • LLMによる生成文で文埋め込み対照学習する話 • 品質の良い学習データにする3段階のプロセス（MultiCSR）を提案 • 文生成、文ペアの構築、バッチ内学習評価実験の結果 • 既存の対照学習フレームワークよりも性能が高い
1 概要

文埋め込み • 対照学習ベースの手法が主流になりつつある • 実装がシンプルかつ効果的 • 文ペアの品質に大きく左右される [1] • 大量かつ高品質な文ペアを取得するコスト高
LLMの登場 • NLPタスクで優れた性能を発揮している → 文表現学習にLLMを活用しようとする動きが 2 背景：文埋め込みとLLMの登場 [1] Generate, Discriminate and Contrast: A Semi-Supervised Sentence Representation Learning Framework（EMNLP’22）

LLMs as generators [2] • NLIの前提文に対して仮説文（含意、矛盾）を生成 → NLI（合成）データで対照学習する LLMs as
annotators [3] • 文ペアに対して意味的類似度スコアを注釈 → そのスコアを模倣するように学習する 3 背景：文表現にLLMを活用する先行研究がある GPT 前提文含意文矛盾文 0.28 Similarity score GPT 文1, 2 [2] Improving Contrastive Learning of Sentence Embeddings from AI Feedback（ACL’23） [3] Contrastive Learning of Sentence Embeddings from Scratch （EMNLP’23）

入力文の内容やLLMの性能に依存する → 生成を自動的に改良できるフレームワークが必要となる 4 背景：LLMの生成文の品質に対する懸念入力文を理解できていない入力文の情報が不足している

以下、３段階のフレームワークを提案 Stage1「文の生成」品質の良い生成文を出力しよう Stage2「文ペアの構築」品質の良い文ペアのみ抽出しよう Stage3「合成データで対照学習」バッチ内負例から偽負例を無くそう 5 提案手法：LLMの生成を改良するフレームワーク

提案手法 6

7 概要図

• Input: 命令𝐼、入力文𝑥 • Output: 入力文に対する仮説文（含意、矛盾）出力文𝑦の確率𝑝𝜃 は以下の通りロジット𝑙𝑡 は以下の通り
8 Stage1: 文の生成 softmaxをロジット𝐼𝑡 に適用して得られた次のトークン𝑦𝑡 の正規化確率

品質の良い生成文を出力する手法元の命令𝑰 とノイズ命令෠ 𝑰とのロジットを比較 [4] → どの部分が本来の意図とずれたかを検出できる → より洗練された生成を実現 9
Stage1: 文の生成（対比生成）ノイズの命令መ 𝐼として矛盾文を生成する命令を採用最終的なロジット(= 𝑙𝑡 − 𝜔 ∗ መ 𝑙𝑡 ) の確率分布からサンプリング [4] INSTRUCTIVE DECODING: INSTRUCTION-TUNED LARGE LANGUAGE MODELS ARE SELF-REFINER FROM NOISY INSTRUCTIONS（ICLR’24）

文ペアの関係は不確実のままである • 対照学習では、空間内の文ペア間の距離がモデルを訓練するのに適しているか • 要は正例と負例に相応しいかどうか文ペアを自己選別（Self-Curation） • 3つ組に対して、意味的類似度をLLMで注釈する • 閾値を設けてフィルタリング
10 Stage2: 文ペアの構築（with Self-Curation）

文ペアの関係が成立した状態 • LLMで作成したデータを用いて、対照学習を行うバッチ内負例の問題 • 偽負例が含まれる可能性がある • 負例は意味的に遠いものでなければならない 11 Stage3:
合成データで対照学習

偽負例をマスクするバッチ内負例（𝑥, 𝑥𝑘）に対して以下の式 → 損失に対してマスキングする 12 Stage3: 合成データで対照学習（偽陰性をマスク）事前訓練済みモデルの埋め込み同士のcos
sim

Step1 • 前提文から含意文と矛盾文を生成 by LLM • Contrast Decodingにより洗練した文を生成 Step2 •
文ペアを構築 • 文ペアの意味的類似度を注釈 by LLM • → 閾値を設けて、フィルタリング Step3 • 合成データで対照学習 • 偽陰性をマスクする 13 提案手法まとめ

評価実験 14

評価データセット • SentEval（STSタスクと転移タスク） • BEIR（ゼロショット情報検索タスク）← 省略します学習データ • NLIデータの前提文＋LLM（仮説文（含意と矛盾）） LLM
• Flan-T5-XL（3B）, ChatGPT (gpt-3.5-turbo) 比較手法 • 教師なし対照学習モデル（SimCSEなど） • 同じく合成データを使用したSynCSE [5] 15 実験設定対照学習フレームワークとして SimCSEを採用

既存手法と比べて、最先端の性能を実現 16 実験結果：STSタスク合成データを使用した既存手法よりも効果的 Unsup-XXXよりも性能が高い

既存手法と比べて、所々負けている… 17 実験結果：転移タスク SynCSEの結果を載せてない？ RankCSEに負けている → SimCSEに勝てればヨシ？

分析 18

Stageごとの影響を調査 19 分析：アブレーション分析 w/o Stage1,2が特に性能低下 → 文の品質、文ペアの構築が重要である

• ラベルなしの文としてNLIの前提文を使用していた • NLIデータは高品質（語彙の重複が少ない） • ノイズの多い文に対しても有効性があるのか？ • Wikipediaから10^6文を無作為抽出 STS 検証セットで評価
• SimCSEでは、NLI < Wikipedia • 質より量 • MultiCSRでは、 NLI > Wikipedia • Wikipediaの方が長いかつ生成するのに言語理解能力が必要 → Wikipediaの文では、含意、矛盾文を生成するのが難しい 20 分析：異なるデータで学習したとき

文埋め込み • LLMによる生成文で文埋め込み対照学習する話 • 品質の良い学習データにする3段階のプロセス（MultiCSR）を提案 • 文生成、文ペアの構築、バッチ内学習 Limitation • Stage1より、ロジットの獲得
→ Closed なLLMだとロジットを取得できない • Stage2より、自己選別 • ハードな選別（ルールベース）でフィルタリング • ソフトな（？）選別を提案したい 21 まとめ

[論文解説] Large Language Models can Contrastively ...

[論文解説] Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning

Reon Kajikawa

More Decks by Reon Kajikawa

Featured

Transcript

Large Language Models can Contrastively Refine their Generation for Better

文埋め込み • 対照学習ベースの手法が主流になりつつある • 実装がシンプルかつ効果的 • 文ペアの品質に大きく左右される [1] • 大量かつ高品質な文ペアを取得するコスト高

LLMs as generators [2] • NLIの前提文に対して仮説文（含意、矛盾）を生成 → NLI（合成）データで対照学習する LLMs as

入力文の内容やLLMの性能に依存する → 生成を自動的に改良できるフレームワークが必要となる 4 背景：LLMの生成文の品質に対する懸念入力文を理解できていない入力文の情報が不足している

提案手法 6

7 概要図

• Input: 命令𝐼、入力文𝑥 • Output: 入力文に対する仮説文（含意、矛盾）出力文𝑦の確率𝑝𝜃 は以下の通りロジット𝑙𝑡 は以下の通り

品質の良い生成文を出力する手法元の命令𝑰 とノイズ命令෠ 𝑰とのロジットを比較 [4] → どの部分が本来の意図とずれたかを検出できる → より洗練された生成を実現 9

文ペアの関係が成立した状態 • LLMで作成したデータを用いて、対照学習を行うバッチ内負例の問題 • 偽負例が含まれる可能性がある • 負例は意味的に遠いものでなければならない 11 Stage3:

偽負例をマスクするバッチ内負例（𝑥, 𝑥𝑘）に対して以下の式 → 損失に対してマスキングする 12 Stage3: 合成データで対照学習（偽陰性をマスク）事前訓練済みモデルの埋め込み同士のcos

Step1 • 前提文から含意文と矛盾文を生成 by LLM • Contrast Decodingにより洗練した文を生成 Step2 •

評価実験 14

評価データセット • SentEval（STSタスクと転移タスク） • BEIR（ゼロショット情報検索タスク）← 省略します学習データ • NLIデータの前提文＋LLM（仮説文（含意と矛盾）） LLM

既存手法と比べて、最先端の性能を実現 16 実験結果：STSタスク合成データを使用した既存手法よりも効果的 Unsup-XXXよりも性能が高い

既存手法と比べて、所々負けている… 17 実験結果：転移タスク SynCSEの結果を載せてない？ RankCSEに負けている → SimCSEに勝てればヨシ？

分析 18

Stageごとの影響を調査 19 分析：アブレーション分析 w/o Stage1,2が特に性能低下 → 文の品質、文ペアの構築が重要である

• ラベルなしの文としてNLIの前提文を使用していた • NLIデータは高品質（語彙の重複が少ない） • ノイズの多い文に対しても有効性があるのか？ • Wikipediaから10^6文を無作為抽出 STS 検証セットで評価

文埋め込み • LLMによる生成文で文埋め込み対照学習する話 • 品質の良い学習データにする3段階のプロセス（MultiCSR）を提案 • 文生成、文ペアの構築、バッチ内学習 Limitation • Stage1より、ロジットの獲得