[Journal club] LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders

Slide 1

Slide 1 text

LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders Parishad BehnamGhader1, Vaibhav Adlakha12, Marius Mosbach1, Dzmitry Bahdanau2, Nicolas Chapados2, Siva Reddy123 1: McGill University, Mila 2: ServiceNow Research 3: Facebook CIFAR AI Chair Keio Univ. M2 Otsuki P. BehnamGhader, V. Adlakha, M. Mosbach, D. Bahdanau, N. Chapados, and S. Reddy, “LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders,” in COLM, 2024. COLM 2024

Slide 2

Slide 2 text

3 stepsでLLMを埋め込みモデルに変換する教師なし学習手法LLM2Vecを提案単語レベルのタスクで既存encoder onlyモデルを大きく上回る MTEBにおいて, 教師なしSoTA / 教師あり対照学習を組み合わせると公開データセットで学習されたモデル中トップの性能 (@2024/05/24) 2 SUMMARY – Decoder-only LLMを強力な埋め込みモデルに変換 1 2 3

Slide 3

Slide 3 text

テキスト埋め込みにおいて主流だったモデル: encoder型やencoder-decoder型の事前学習モデル e.g., BERT, T5 最近LLMをテキスト埋め込みに用いる手法の研究が進んでいる 3 背景 – LLMをテキスト埋め込みに利用する試み

Slide 4

Slide 4 text

テキスト埋め込みにおいて主流だったモデル: encoder型やencoder-decoder型の事前学習モデル LLMをテキスト埋め込みに用いることができれば幾つかの利点がある LLMの学習におけるLanguage modeling: 全トークンを予測 à 15%のトークンだけを予測するMLMよりサンプル効率が良い選好データからの学習などによりinstruction followingの性能が高い課題: LLMは将来のtokenを見ないように学習されている 4 背景 – LLMをテキスト埋め込みに利用する試み

Slide 5

Slide 5 text

5 関連研究 – LLMをテキスト埋め込みに利用する試み最後のtokenに対応する最終層の隠れ状態を文埋め込みとするアプローチ: [Neelakantan+, 22], [Ma+, SIGIR24], [Wang+, ACL24] 同時期の研究概要 [Muennighoff, ICLR24 workshop] 単方向注意によるLanguage modeling と双方向注意による対照学習を組み合わせてマルチタスクfine-tuning Echo [Springer+, 24 (ICLR25 submission)] 入力を2回繰り返して入力することで将来のtokenをみない問題に対応

Slide 6

Slide 6 text

1. 双方向注意の有効化 2. Masked Next Token Prediction (MNTP) 3. 対照学習 (SimCSE) 6 LLM2Vec – Decoder-only LLMを埋め込みモデルに変換 1 2 3

Slide 7

Slide 7 text

単にcausal maskを除去 Decoder-onlyモデルは将来のトークンに着目するように学習されていない当然これだけだと性能は上がらなかったり落ちるが, 続く2 stepsで簡単に双方向注意に適合させられる 7 LLM2Vec – 1. 双方向注意の有効化

Slide 8

Slide 8 text

やりたいことはMasked Language Modelingだが, 以下の微修正を施す n+1番目のtokenがマスクされた時, n番目のtokenに対応する出力で n+1番目のtokenを予測 8 LLM2Vec – 2. Masked Next Token Prediction (MNTP) Language Modelingで学習されたモデルの挙動とのギャップを吸収

Slide 9

Slide 9 text

ここではSimCSEで文単位の埋め込みを学習単語埋め込み列に対する poolingで文全体の埋め込みを得る 1. EOSをpooling 2. 平均値pooling 3. 重み付き平均値pooling [Muennighoff, 22] 9 LLM2Vec – 3. 対照学習 (SimCSE) 後方のtokenを重視する重み付け

Slide 10

Slide 10 text

対象decoder-only LLM: Sheared-LLaMA-1.3B, Llama-2-7B-chat, Mistral-7B-Instruct-v0.2, Meta-Llama-3-8B-Instruct 学習データ上記LLMの事前学習に含まれているであろう英語のWikipediaのデータを使用 MNTPにWikitext-103 (100M+ tokens) SimCSEにはWikipediaの部分集合1M文 (本家SimCSEと同じ) 学習設定 (7-8Bモデル) MNTP: batch size 32, 1000 steps,100min, A100 (80G) x1 SimCSE: batch size 128, 1000 steps,3h, A100 (80G) x1 10 実験設定

Slide 11

Slide 11 text

埋め込みモデルを固定し, 線形分類器のみ学習 CoNLL-2003 benchmarkで評価 encoder型モデルのSoTA, DeBERTa-v3-largeと比較単語レベルのタスクなので SimCSEをつけると悪化しているケースが見られる 11 定量的結果 – 単語レベルのタスクで既存encoder onlyモデルを上回る

Slide 12

Slide 12 text

MTEB: 7つのタスクカテゴリに分類される 56データセットで構成されるベンチマーク Baselines: SimCSEで学習されたBERT Echo [Springer+, 24 (ICLR25 submission)] MNTP, SimCSE共に性能を大きく改善 Baselineの性能を大きく上回る 12 定量的結果 – Massive Text Embeddings Benchmark (MTEB)の教師なしSoTA 抜粋

Slide 13

Slide 13 text

MTEBから15タスクで構成されるサブセットを取り出して実験 MNTPやSimCSE関係なく, (重み付き)平均値poolingがEOS poolingよりも良い 13 Ablation Study – Poolingは(重み付き)平均値poolingが良い

Slide 14

Slide 14 text

[Springer+, 24 (ICLR25 submission)]による E5 datasetの公開データの一部を使用して対照学習 A100 (80G) x8, batch size 512, 1000steps LLM2Vecしたモデルはサンプル効率が良く早い段階で性能が上がる (紫) 14 定量的結果 – 教師あり対照学習と組み合わせて MTEBの公開データ使用モデル内でSoTA 抜粋

Slide 15

Slide 15 text

prefixのみを共有している文を用意, prefix部分だけをpoolingして得た表現間の類似度計算でテスト S-LLaMA-1.3BはMNTPによってpositive negativeの分離が改善 MistralはそもそもMNTPをする前から将来のtokenを見ている 15 追加実験 – LLM2Vecしたモデルはちゃんと将来のtokenを見ている

Slide 16

Slide 16 text

同一の入力を与えた際に単方向注意と双方向注意それぞれでの隠れ状態を比較 (類似度計算) LLaMAは特に深い層での両者の隠れ状態の類似度が低い Mistralはほぼ全ての層で両者の隠れ状態の類似度が高い 16 追加実験 – MistralはそもそもMNTPをする前から双方向注意の挙動が良い

Slide 17

Slide 17 text

同一の入力を与えた際に単方向注意と双方向注意それぞれでの隠れ状態を比較 (類似度計算) LLaMAは特に深い層での両者の隠れ状態の類似度が低い Mistralはほぼ全ての層で両者の隠れ状態の類似度が高い 17 追加実験 – MistralはそもそもMNTPをする前から双方向注意の挙動が良い事前学習段階でprefix language modelingなどなんらかの形の双方向注意を見ているのではと推測

Slide 18

Slide 18 text

3 stepsでLLMを埋め込みモデルに変換する教師なし学習手法LLM2Vecを提案単語レベルのタスクで既存encoder onlyモデルを大きく上回る MTEBにおいて, 教師なしSoTA / 教師あり対照学習を組み合わせると公開データセットで学習されたモデル中トップの性能 (@2024/05/24) 18 SUMMARY – Decoder-only LLMを強力な埋め込みモデルに変換 1 2 3

Slide 19

Slide 19 text

Strength 提案内容が単純かつ明確定量的実験が豊富かつその結果が良好 Weakness 単方向注意と双方向注意の間の比較が不十分単語レベルのタスクにおいて単方向注意と双方向注意の場合を比較すると必ずしも双方向注意を採用した手法が優位ではないため, 単方向注意のモデルに対してLLM2Vecの要素であるSimCSEなどを適用した場合の性能を比較することで, より細かく単方向注意と双方向注意の間の比較を行えると思われる 19 おきもち

Slide 20

Slide 20 text

Appendix

Slide 21

Slide 21 text

Paper: https://openreview.net/pdf?id=IW1PR7vEBf Code: https://github.com/McGill-NLP/llm2vec Open Review: https://openreview.net/forum?id=IW1PR7vEBf 21 Links