テキスト埋め込み色々あるけどどれがいいの？

テキスト埋め込み色々あるけどどれがいいの？ディップ株式会社 AI Embedded課　有田智也 (ARITA Tomoya) 1

アジェンダ   2 1. 良いテキスト埋め込みを求めるモチベーション     2. 良いテキスト埋め込みを得るための事例紹介  
  3. テキスト埋め込みモデルの評価  

dip AI とは？  • AIとの対話を通じて求職者が自分にあったバイトを探せるサービス  ◦ 検索ロジックはフィルタリングとベクトル検索のハイブリッド   
  3

dip AI の検索のつらみ   4 1. フィルタ条件の影響が支配的  • ベクトル検索のうまみを活かせていない  •
思ったような案件を出そうとするとどうしてもフィルタになる    2. 検索クエリとお仕事内容のギャップ  • シンプルにcos類似度をとってもうまくいかない  この課題に着目 

検索クエリとお仕事内容のギャップ   5 ベクトル検索の課題  • 意味的な類似度で検索してくるだけではうまくいかないことが多い  ◦ クエリとコーパスの埋め込み空間にはギャップがある     
  *text embedding3 smallで評価 

Retrieval でのギャップを埋める方法   6 1. クエリの内容をコーパスに寄せる  HyDE：クエリに回答する仮の文章をLLMで生成してベクトル検索    2. モデルを学習させる 
• クエリと回答のペアを学習させる  • 最近はLLMで作成した合成データセットを学習して、LLMの知識を蒸留するのがブーム  ◦ 最近公開されたAmber, Ruri, GeckoなどのEncoderモデルは合成データセットを利用している 

Gecko: Versatile Text Embeddigs from Lage Language Models 概要   
8 • LLMで合成データを作成(FRet)、Transfromer言語モデルを Pre-finetuningとfine-tuningで学習    ◦ Pre-finetuning: 様々な形式の教師なしのテキストペアを Contrastive Learningで学習  ▪ query側テキストの先頭には”question answering“や”search result”などの識別子がデータセットに基づいて付与される     ◦ fine-tuning:後述のFRetデータセットと学術的データセットを混ぜて教師あり学習 

FRet  9 モチベーション  • ラベルづけされた大量のデータを用意するのはコストが高い😢  →LLMを活用して擬似データセット作成     1.
LLMにWebの文書を与えタスクの説明と関連するクエリを生成させる  2. embedding modelをRetriverとして1.のクエリに関連するパッセージを検索し正例、負例を作成  • 検索結果とパッセージの関連性を LLM で計算  • 関連性がより高いパッセージが存在する場合正例を変える(約15%)  →660万件のデータセットを作成    https://arxiv.org/pdf/2403.20327より引用 

Gecko でテキストのギャップは埋まるのか   10 *text-multilingual-embedding-002で評価  完璧に解ける訳ではないものの相対的な類似度は気持ち上がっている  

Retrieval 性能評価用データセット   12 • 文ベクトルの性能を測るためにJaGovFaqs-22k*を利用  ◦ Questionに対するAnswerの候補を10件予測してNDCGで評価  * JaGovFaqs-22kは日本の官公庁のWebサイトのQAデータセット 
参照)https://huggingface.co/datasets/matsuxr/JaGovFaqs-22k 

検索評価指標の NDCG簡単解説  13 • アイテムの出現順序を考慮した評価尺度  ◦ 理想的な順序に近いほど値が1に近づく      この場合DCGは
1 / log_2(4) = 0.5 NDCGはDCGを理想的な DCGで割った値で 0.5 / 1 = 0.5

Retrieval 性能評価結果   14 • 最近のオープンな日本語に特化した埋め込みモデルはクローズな埋め込みモデルに匹敵する能力がある  • ruri-v3-310mの検索性能が低パラメータ数にもかかわらず最も高い  SentenceTransformerのInformation
Retrieval Evaluatorを利用してcos類似度で評価 

テキスト埋め込み色々あるけどどれがいいの？

テキスト埋め込み色々あるけどどれがいいの？

ディップ株式会社 PRO

More Decks by ディップ株式会社

Other Decks in Technology

Featured

Transcript

テキスト埋め込み色々あるけどどれがいいの？ディップ株式会社 AI Embedded課　有田智也 (ARITA Tomoya) 1

アジェンダ   2 1. 良いテキスト埋め込みを求めるモチベーション     2. 良いテキスト埋め込みを得るための事例紹介

dip AI とは？  • AIとの対話を通じて求職者が自分にあったバイトを探せるサービス  ◦ 検索ロジックはフィルタリングとベクトル検索のハイブリッド

dip AI の検索のつらみ   4 1. フィルタ条件の影響が支配的  • ベクトル検索のうまみを活かせていない  •

検索クエリとお仕事内容のギャップ   5 ベクトル検索の課題  • 意味的な類似度で検索してくるだけではうまくいかないことが多い  ◦ クエリとコーパスの埋め込み空間にはギャップがある

Retrieval でのギャップを埋める方法   6 1. クエリの内容をコーパスに寄せる  HyDE：クエリに回答する仮の文章をLLMで生成してベクトル検索    2. モデルを学習させる

アジェンダ   7 1. 良いテキスト埋め込みを求めるモチベーション     2. 良いテキスト埋め込みを得るための事例紹介

Gecko: Versatile Text Embeddigs from Lage Language Models 概要

FRet  9 モチベーション  • ラベルづけされた大量のデータを用意するのはコストが高い😢  →LLMを活用して擬似データセット作成     1.

Gecko でテキストのギャップは埋まるのか   10 *text-multilingual-embedding-002で評価  完璧に解ける訳ではないものの相対的な類似度は気持ち上がっている

アジェンダ   11 1. 良いテキスト埋め込みを求めるモチベーション     2. 良いテキスト埋め込みを得るための事例紹介

Retrieval 性能評価用データセット   12 • 文ベクトルの性能を測るためにJaGovFaqs-22kを利用  ◦ Questionに対するAnswerの候補を10件予測してNDCGで評価  JaGovFaqs-22kは日本の官公庁のWebサイトのQAデータセット

検索評価指標の NDCG簡単解説  13 • アイテムの出現順序を考慮した評価尺度  ◦ 理想的な順序に近いほど値が1に近づく      この場合DCGは