Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[論文解説] Text Embeddings Reveal (Almost) As Much ...
Search
Reon Kajikawa
April 26, 2024
0
120
[論文解説] Text Embeddings Reveal (Almost) As Much As Text
EMNLP'23に採択された論文。埋め込みから元のテキストを復元するVec2Textを提案。
Reon Kajikawa
April 26, 2024
Tweet
Share
More Decks by Reon Kajikawa
See All by Reon Kajikawa
[論文解説] mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding
reon131
0
3
[論文解説] Not All Negatives are Equal: Label Aware Contrastive Loss for Fine grained Text Classification
reon131
0
12
[論文解説] Disentangled Learning with Synthetic Parallel Data for Text Style Transfer
reon131
0
14
[論文解説] Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning
reon131
0
17
[論文解説] SentiCSE: A Sentiment-aware Contrastive Sentence Embedding Framework with Sentiment-guided Textual Similarity
reon131
0
14
[論文解説] OssCSE: Overcoming Surface Structure Bias in Contrastive Learning for Unsupervised Sentence Embedding
reon131
0
6
[論文解説] Sentence Representations via Gaussian Embedding
reon131
0
91
[論文解説] Unsupervised Learning of Style-sensitive Word Vectors
reon131
0
16
[論文解説] One Embedder, Any Task: Instruction-Finetuned Text Embeddings
reon131
0
44
Featured
See All Featured
New Earth Scene 8
popppiees
0
1.2k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
3.3k
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
57
37k
How Software Deployment tools have changed in the past 20 years
geshan
0
30k
Git: the NoSQL Database
bkeepers
PRO
432
66k
The World Runs on Bad Software
bkeepers
PRO
72
12k
A Soul's Torment
seathinner
1
2k
The Art of Programming - Codeland 2020
erikaheidi
56
14k
Beyond borders and beyond the search box: How to win the global "messy middle" with AI-driven SEO
davidcarrasco
0
22
4 Signs Your Business is Dying
shpigford
186
22k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.3k
The Hidden Cost of Media on the Web [PixelPalooza 2025]
tammyeverts
2
120
Transcript
Text Embeddings Reveal (Almost) As Much As Text John X.
Morris, Volodymyr Kuleshov Vitaly Shmatikov, Alexander M. Rush EMNLP 2023 (Outstanding Paper) URL:https://aclanthology.org/2023.emnlp-main.765/ 発表者:M1 梶川 怜恩
文埋め込みから元テキストを生成するVec2Text • テキストの修正と再埋め込みを繰り返す • 32トークンのテキストの92%を復元に成功 • 個人情報も復元できてしまう 1 概要
RAGシステム 2 導入:ベクトルDBと脅威 質問 回答 LLM ベクトルDB 検索した文ベクトル
RAGシステム 3 導入:ベクトルDBと脅威 質問 回答 LLM ベクトルDB 漏洩した場合 脅威になり得るのか?
Vec2Text • 埋め込みから元のテキストに再構築する • テキストが復元可能であれば、個人情報の漏洩などの脅威となる… 4 導入:埋め込みの反転
単純な手法 • 未知のエンコーダ𝜙、埋め込み𝑒 = 𝜙(𝑥)からテキストを獲得 • 全てのテキストに対して適用することは困難… 5 導入:埋め込みの反転
文埋め込みの分布を学習する方法 • 埋め込み𝑒 = 𝜙 𝑥 から、分布𝜃 を学習 • 埋め込みのみでは、復元が困難…
6 Base Model(Learning to Invert Φ)
提案手法 / Methodology 7
Vec2Text Enc-Decモデル • 空のテキスト𝑥(0)、埋め込み Ƹ 𝑒(0)を初期値として繰り返し復元 • 入力:真の埋め込み𝑒、出力テキスト𝑥(𝑡)・埋め込み Ƹ 𝑒(𝑡)
• 出力:出力テキスト𝑥(𝑡+1) 8 Vec2Text
Vec2Text Encモデル • 復元テキストを再埋め込みして、Enc-Decモデルに流す • 入力:出力テキスト𝑥(𝑡+1) • 出力:埋め込み Ƹ 𝑒(𝑡+1)
9 Vec2Text
概要図 10 Vec2Text
推論 • Sequence search(sbeam) • 復元の候補上位k個 • 真の埋め込みとの距離で選択 Enc-Decの入力 •
Encの次元数をEnc-Decモデルに合わせる必要 11 Vec2Text 𝑾𝟏 ∈ ℝ𝒅×𝒅 𝑾𝟐 ∈ ℝ(𝒔𝒅𝒆𝒏𝒄)×𝒅
実験 12
Encモデルを学習、真の埋め込み𝑒を作成 1. GTR-base • Natural Questions(32 tokens/passage) 2. text-embeddings-ada-002(OpenAI) •
MSMARCO(32 or 128 tokens/passage) 13 実験:擬似的なベクトルDBを作成
Enc-Decを学習、Vec2Textの完成 T5-base • Natural Questions • MSMARCO → 真の埋め込み・テキストと追加学習済みEncモデルで学習 14
実験:Enc-Decの学習
評価データ • Natural Questions, MSMARCO • BEIRベンチマークのデータ • MIMIC-III(臨床ノート) 評価指標
• BLEU、Token-F1(トークン集合間のF値)、exact-match • 真の埋め込みとのコサイン類似度 15 実験:Enc-Decの学習 Out-of-Domain
ベースライン • BoWによる生成 [1] • GPT-2 Decoder 16 実験:Enc-Decの学習 [1]
Song and Raghunathan.:Information leakage in embedding models(ACM.20)
結果 17
• ステップ数を増やすことでスコアが上昇 • sbeamを適用することで完全一致(exact)が大幅に増加 18 結果:In-Domain
未知のドメインに対する汎化性能を調査 → BEIRベンチマークのテキスト • 異なるトークン長の入力に頑健 19 結果:Out-of-Domain
特定の脅威対象としての「臨床ノート」 • 個人情報(苗字、名前、フルネーム)が復元できた割合 → 90%ほど復元できる 20 Case Study:臨床ノート
分析 21
埋め込みに対してノイズを付与 • ノイズ埋め込み𝜙𝑛𝑜𝑖𝑠𝑦 (𝑥) で学習 • 𝜆 = 10−2の場合、検索性能を維持しながら、復元性能が低下 22
埋め込みを脅威から守るために
𝑥(0)の異なる初期化で評価する • 初期化が性能に左右されない 23 強力な Base Model を持つことは重要か? Vec2Text (20
steps)
まとめ 24
文埋め込みから元テキストを生成するVec2Text • テキストの修正と再埋め込みを繰り返す • 32トークンのテキストの92%を復元に成功 • 個人情報も復元できてしまう • 法的に保護されるべき •
数千トークンのテキスト埋め込みについて調査していない • 埋め込みモデルを特定する必要がある? 25 まとめ