Slide 1

Slide 1 text

Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning Huiming Wang, Zhaodonghui Li, Liying Cheng, De Wen Soh, Lidong Bing NAACL 2024 URL:https://aclanthology.org/2024.naacl-long.436/ 発表者:M1 梶川 怜恩

Slide 2

Slide 2 text

文埋め込み • LLMによる生成文で文埋め込み対照学習する話 • 品質の良い学習データにする3段階のプロセス(MultiCSR)を提案 • 文生成、文ペアの構築、バッチ内学習 評価実験の結果 • 既存の対照学習フレームワークよりも性能が高い 1 概要

Slide 3

Slide 3 text

文埋め込み • 対照学習ベースの手法が主流になりつつある • 実装がシンプルかつ効果的 • 文ペアの品質に大きく左右される [1] • 大量かつ高品質な文ペアを取得するコスト高 LLMの登場 • NLPタスクで優れた性能を発揮している → 文表現学習にLLMを活用しようとする動きが 2 背景:文埋め込みとLLMの登場 [1] Generate, Discriminate and Contrast: A Semi-Supervised Sentence Representation Learning Framework(EMNLP’22)

Slide 4

Slide 4 text

LLMs as generators [2] • NLIの前提文に対して仮説文(含意、矛盾)を生成 → NLI(合成)データで対照学習する LLMs as annotators [3] • 文ペアに対して意味的類似度スコアを注釈 → そのスコアを模倣するように学習する 3 背景:文表現にLLMを活用する先行研究がある GPT 前提文 含意文 矛盾文 0.28 Similarity score GPT 文1, 2 [2] Improving Contrastive Learning of Sentence Embeddings from AI Feedback(ACL’23) [3] Contrastive Learning of Sentence Embeddings from Scratch (EMNLP’23)

Slide 5

Slide 5 text

入力文の内容やLLMの性能に依存する → 生成を自動的に改良できるフレームワークが必要となる 4 背景:LLMの生成文の品質に対する懸念 入力文を 理解できていない 入力文の情報が 不足している

Slide 6

Slide 6 text

以下、3段階のフレームワークを提案 Stage1「文の生成」 品質の良い生成文を出力しよう Stage2「文ペアの構築」 品質の良い文ペアのみ抽出しよう Stage3「合成データで対照学習」 バッチ内負例から偽負例を無くそう 5 提案手法:LLMの生成を改良するフレームワーク

Slide 7

Slide 7 text

提案手法 6

Slide 8

Slide 8 text

7 概要図

Slide 9

Slide 9 text

• Input: 命令𝐼、入力文𝑥 • Output: 入力文に対する仮説文(含意、矛盾) 出力文𝑦の確率𝑝𝜃 は以下の通り ロジット𝑙𝑡 は以下の通り 8 Stage1: 文の生成 softmaxをロジット𝐼𝑡 に適用して得られた 次のトークン𝑦𝑡 の正規化確率

Slide 10

Slide 10 text

品質の良い生成文を出力する手法 元の命令𝑰 とノイズ命令෠ 𝑰とのロジットを比較 [4] → どの部分が本来の意図とずれたかを検出できる → より洗練された生成を実現 9 Stage1: 文の生成(対比生成) ノイズの命令መ 𝐼として 矛盾文を生成する命令を採用 最終的なロジット(= 𝑙𝑡 − 𝜔 ∗ መ 𝑙𝑡 ) の確率分布からサンプリング [4] INSTRUCTIVE DECODING: INSTRUCTION-TUNED LARGE LANGUAGE MODELS ARE SELF-REFINER FROM NOISY INSTRUCTIONS(ICLR’24)

Slide 11

Slide 11 text

文ペアの関係は不確実のままである • 対照学習では、空間内の文ペア間の距離がモデルを訓練するのに適しているか • 要は正例と負例に相応しいかどうか 文ペアを自己選別(Self-Curation) • 3つ組に対して、意味的類似度をLLMで注釈する • 閾値を設けてフィルタリング 10 Stage2: 文ペアの構築(with Self-Curation)

Slide 12

Slide 12 text

文ペアの関係が成立した状態 • LLMで作成したデータを用いて、対照学習を行う バッチ内負例の問題 • 偽負例が含まれる可能性がある • 負例は意味的に遠いものでなければならない 11 Stage3: 合成データで対照学習

Slide 13

Slide 13 text

偽負例をマスクする バッチ内負例(𝑥, 𝑥𝑘)に対して以下の式 → 損失に対してマスキングする 12 Stage3: 合成データで対照学習(偽陰性をマスク) 事前訓練済みモデルの 埋め込み同士のcos sim

Slide 14

Slide 14 text

Step1 • 前提文から含意文と矛盾文を生成 by LLM • Contrast Decodingにより洗練した文を生成 Step2 • 文ペアを構築 • 文ペアの意味的類似度を注釈 by LLM • → 閾値を設けて、フィルタリング Step3 • 合成データで対照学習 • 偽陰性をマスクする 13 提案手法まとめ

Slide 15

Slide 15 text

評価実験 14

Slide 16

Slide 16 text

評価データセット • SentEval(STSタスクと転移タスク) • BEIR(ゼロショット情報検索タスク)← 省略します 学習データ • NLIデータの前提文+LLM(仮説文(含意と矛盾)) LLM • Flan-T5-XL(3B), ChatGPT (gpt-3.5-turbo) 比較手法 • 教師なし対照学習モデル(SimCSEなど) • 同じく合成データを使用したSynCSE [5] 15 実験設定 対照学習フレームワークとして SimCSEを採用

Slide 17

Slide 17 text

既存手法と比べて、最先端の性能を実現 16 実験結果:STSタスク 合成データを使用した 既存手法よりも効果的 Unsup-XXXよりも性能が高い

Slide 18

Slide 18 text

既存手法と比べて、所々負けている… 17 実験結果:転移タスク SynCSEの結果を載せてない? RankCSEに負けている → SimCSEに勝てればヨシ?

Slide 19

Slide 19 text

分析 18

Slide 20

Slide 20 text

Stageごとの影響を調査 19 分析:アブレーション分析 w/o Stage1,2が特に性能低下 → 文の品質、文ペアの構築が重要である

Slide 21

Slide 21 text

• ラベルなしの文としてNLIの前提文を使用していた • NLIデータは高品質(語彙の重複が少ない) • ノイズの多い文に対しても有効性があるのか? • Wikipediaから10^6文を無作為抽出 STS 検証セットで評価 • SimCSEでは、NLI < Wikipedia • 質より量 • MultiCSRでは、 NLI > Wikipedia • Wikipediaの方が長いかつ生成するのに言語理解能力が必要 → Wikipediaの文では、含意、矛盾文を生成するのが難しい 20 分析:異なるデータで学習したとき

Slide 22

Slide 22 text

文埋め込み • LLMによる生成文で文埋め込み対照学習する話 • 品質の良い学習データにする3段階のプロセス(MultiCSR)を提案 • 文生成、文ペアの構築、バッチ内学習 Limitation • Stage1より、ロジットの獲得 → Closed なLLMだとロジットを取得できない • Stage2より、自己選別 • ハードな選別(ルールベース)でフィルタリング • ソフトな(?)選別を提案したい 21 まとめ