Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[論文解説] Large Language Models can Contrastively ...

Reon Kajikawa
October 29, 2024
2

[論文解説] Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning

対照学習に特化した合成データを構成する3段階フレームワークMultiCSRを提案した論文

Reon Kajikawa

October 29, 2024
Tweet

More Decks by Reon Kajikawa

Transcript

  1. Large Language Models can Contrastively Refine their Generation for Better

    Sentence Representation Learning Huiming Wang, Zhaodonghui Li, Liying Cheng, De Wen Soh, Lidong Bing NAACL 2024 URL:https://aclanthology.org/2024.naacl-long.436/ 発表者:M1 梶川 怜恩
  2. 文埋め込み • 対照学習ベースの手法が主流になりつつある • 実装がシンプルかつ効果的 • 文ペアの品質に大きく左右される [1] • 大量かつ高品質な文ペアを取得するコスト高

    LLMの登場 • NLPタスクで優れた性能を発揮している → 文表現学習にLLMを活用しようとする動きが 2 背景:文埋め込みとLLMの登場 [1] Generate, Discriminate and Contrast: A Semi-Supervised Sentence Representation Learning Framework(EMNLP’22)
  3. LLMs as generators [2] • NLIの前提文に対して仮説文(含意、矛盾)を生成 → NLI(合成)データで対照学習する LLMs as

    annotators [3] • 文ペアに対して意味的類似度スコアを注釈 → そのスコアを模倣するように学習する 3 背景:文表現にLLMを活用する先行研究がある GPT 前提文 含意文 矛盾文 0.28 Similarity score GPT 文1, 2 [2] Improving Contrastive Learning of Sentence Embeddings from AI Feedback(ACL’23) [3] Contrastive Learning of Sentence Embeddings from Scratch (EMNLP’23)
  4. • Input: 命令𝐼、入力文𝑥 • Output: 入力文に対する仮説文(含意、矛盾) 出力文𝑦の確率𝑝𝜃 は以下の通り ロジット𝑙𝑡 は以下の通り

    8 Stage1: 文の生成 softmaxをロジット𝐼𝑡 に適用して得られた 次のトークン𝑦𝑡 の正規化確率
  5. 品質の良い生成文を出力する手法 元の命令𝑰 とノイズ命令෠ 𝑰とのロジットを比較 [4] → どの部分が本来の意図とずれたかを検出できる → より洗練された生成を実現 9

    Stage1: 文の生成(対比生成) ノイズの命令መ 𝐼として 矛盾文を生成する命令を採用 最終的なロジット(= 𝑙𝑡 − 𝜔 ∗ መ 𝑙𝑡 ) の確率分布からサンプリング [4] INSTRUCTIVE DECODING: INSTRUCTION-TUNED LARGE LANGUAGE MODELS ARE SELF-REFINER FROM NOISY INSTRUCTIONS(ICLR’24)
  6. Step1 • 前提文から含意文と矛盾文を生成 by LLM • Contrast Decodingにより洗練した文を生成 Step2 •

    文ペアを構築 • 文ペアの意味的類似度を注釈 by LLM • → 閾値を設けて、フィルタリング Step3 • 合成データで対照学習 • 偽陰性をマスクする 13 提案手法まとめ
  7. 評価データセット • SentEval(STSタスクと転移タスク) • BEIR(ゼロショット情報検索タスク)← 省略します 学習データ • NLIデータの前提文+LLM(仮説文(含意と矛盾)) LLM

    • Flan-T5-XL(3B), ChatGPT (gpt-3.5-turbo) 比較手法 • 教師なし対照学習モデル(SimCSEなど) • 同じく合成データを使用したSynCSE [5] 15 実験設定 対照学習フレームワークとして SimCSEを採用
  8. • ラベルなしの文としてNLIの前提文を使用していた • NLIデータは高品質(語彙の重複が少ない) • ノイズの多い文に対しても有効性があるのか? • Wikipediaから10^6文を無作為抽出 STS 検証セットで評価

    • SimCSEでは、NLI < Wikipedia • 質より量 • MultiCSRでは、 NLI > Wikipedia • Wikipediaの方が長いかつ生成するのに言語理解能力が必要 → Wikipediaの文では、含意、矛盾文を生成するのが難しい 20 分析:異なるデータで学習したとき
  9. 文埋め込み • LLMによる生成文で文埋め込み対照学習する話 • 品質の良い学習データにする3段階のプロセス(MultiCSR)を提案 • 文生成、文ペアの構築、バッチ内学習 Limitation • Stage1より、ロジットの獲得

    → Closed なLLMだとロジットを取得できない • Stage2より、自己選別 • ハードな選別(ルールベース)でフィルタリング • ソフトな(?)選別を提案したい 21 まとめ