Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[論文解説] Text Embeddings Reveal (Almost) As Much ...
Search
Reon Kajikawa
April 26, 2024
0
4
[論文解説] Text Embeddings Reveal (Almost) As Much As Text
EMNLP'23に採択された論文。埋め込みから元のテキストを復元するVec2Textを提案。
Reon Kajikawa
April 26, 2024
Tweet
Share
More Decks by Reon Kajikawa
See All by Reon Kajikawa
[論文解説] Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning
reon131
0
2
[論文解説] SentiCSE: A Sentiment-aware Contrastive Sentence Embedding Framework with Sentiment-guided Textual Similarity
reon131
0
6
[論文解説] OssCSE: Overcoming Surface Structure Bias in Contrastive Learning for Unsupervised Sentence Embedding
reon131
0
1
[論文解説] Sentence Representations via Gaussian Embedding
reon131
0
2
[論文解説] Unsupervised Learning of Style-sensitive Word Vectors
reon131
0
2
[論文解説] One Embedder, Any Task: Instruction-Finetuned Text Embeddings
reon131
0
3
[論文解説] Alleviating Over-smoothing for Unsupervised Sentence Representation
reon131
0
7
Featured
See All Featured
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
25
1.8k
Docker and Python
trallard
40
3.1k
Ruby is Unlike a Banana
tanoku
96
11k
Product Roadmaps are Hard
iamctodd
PRO
48
10k
Why Our Code Smells
bkeepers
PRO
334
57k
Bootstrapping a Software Product
garrettdimon
PRO
305
110k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
27
780
Side Projects
sachag
452
42k
Measuring & Analyzing Core Web Vitals
bluesmoon
0
34
The Art of Programming - Codeland 2020
erikaheidi
51
13k
Designing for humans not robots
tammielis
249
25k
Done Done
chrislema
181
16k
Transcript
Text Embeddings Reveal (Almost) As Much As Text John X.
Morris, Volodymyr Kuleshov Vitaly Shmatikov, Alexander M. Rush EMNLP 2023 (Outstanding Paper) URL:https://aclanthology.org/2023.emnlp-main.765/ 発表者:M1 梶川 怜恩
文埋め込みから元テキストを生成するVec2Text • テキストの修正と再埋め込みを繰り返す • 32トークンのテキストの92%を復元に成功 • 個人情報も復元できてしまう 1 概要
RAGシステム 2 導入:ベクトルDBと脅威 質問 回答 LLM ベクトルDB 検索した文ベクトル
RAGシステム 3 導入:ベクトルDBと脅威 質問 回答 LLM ベクトルDB 漏洩した場合 脅威になり得るのか?
Vec2Text • 埋め込みから元のテキストに再構築する • テキストが復元可能であれば、個人情報の漏洩などの脅威となる… 4 導入:埋め込みの反転
単純な手法 • 未知のエンコーダ𝜙、埋め込み𝑒 = 𝜙(𝑥)からテキストを獲得 • 全てのテキストに対して適用することは困難… 5 導入:埋め込みの反転
文埋め込みの分布を学習する方法 • 埋め込み𝑒 = 𝜙 𝑥 から、分布𝜃 を学習 • 埋め込みのみでは、復元が困難…
6 Base Model(Learning to Invert Φ)
提案手法 / Methodology 7
Vec2Text Enc-Decモデル • 空のテキスト𝑥(0)、埋め込み Ƹ 𝑒(0)を初期値として繰り返し復元 • 入力:真の埋め込み𝑒、出力テキスト𝑥(𝑡)・埋め込み Ƹ 𝑒(𝑡)
• 出力:出力テキスト𝑥(𝑡+1) 8 Vec2Text
Vec2Text Encモデル • 復元テキストを再埋め込みして、Enc-Decモデルに流す • 入力:出力テキスト𝑥(𝑡+1) • 出力:埋め込み Ƹ 𝑒(𝑡+1)
9 Vec2Text
概要図 10 Vec2Text
推論 • Sequence search(sbeam) • 復元の候補上位k個 • 真の埋め込みとの距離で選択 Enc-Decの入力 •
Encの次元数をEnc-Decモデルに合わせる必要 11 Vec2Text 𝑾𝟏 ∈ ℝ𝒅×𝒅 𝑾𝟐 ∈ ℝ(𝒔𝒅𝒆𝒏𝒄)×𝒅
実験 12
Encモデルを学習、真の埋め込み𝑒を作成 1. GTR-base • Natural Questions(32 tokens/passage) 2. text-embeddings-ada-002(OpenAI) •
MSMARCO(32 or 128 tokens/passage) 13 実験:擬似的なベクトルDBを作成
Enc-Decを学習、Vec2Textの完成 T5-base • Natural Questions • MSMARCO → 真の埋め込み・テキストと追加学習済みEncモデルで学習 14
実験:Enc-Decの学習
評価データ • Natural Questions, MSMARCO • BEIRベンチマークのデータ • MIMIC-III(臨床ノート) 評価指標
• BLEU、Token-F1(トークン集合間のF値)、exact-match • 真の埋め込みとのコサイン類似度 15 実験:Enc-Decの学習 Out-of-Domain
ベースライン • BoWによる生成 [1] • GPT-2 Decoder 16 実験:Enc-Decの学習 [1]
Song and Raghunathan.:Information leakage in embedding models(ACM.20)
結果 17
• ステップ数を増やすことでスコアが上昇 • sbeamを適用することで完全一致(exact)が大幅に増加 18 結果:In-Domain
未知のドメインに対する汎化性能を調査 → BEIRベンチマークのテキスト • 異なるトークン長の入力に頑健 19 結果:Out-of-Domain
特定の脅威対象としての「臨床ノート」 • 個人情報(苗字、名前、フルネーム)が復元できた割合 → 90%ほど復元できる 20 Case Study:臨床ノート
分析 21
埋め込みに対してノイズを付与 • ノイズ埋め込み𝜙𝑛𝑜𝑖𝑠𝑦 (𝑥) で学習 • 𝜆 = 10−2の場合、検索性能を維持しながら、復元性能が低下 22
埋め込みを脅威から守るために
𝑥(0)の異なる初期化で評価する • 初期化が性能に左右されない 23 強力な Base Model を持つことは重要か? Vec2Text (20
steps)
まとめ 24
文埋め込みから元テキストを生成するVec2Text • テキストの修正と再埋め込みを繰り返す • 32トークンのテキストの92%を復元に成功 • 個人情報も復元できてしまう • 法的に保護されるべき •
数千トークンのテキスト埋め込みについて調査していない • 埋め込みモデルを特定する必要がある? 25 まとめ