Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[論文解説] Text Embeddings Reveal (Almost) As Much ...
Search
Reon Kajikawa
April 26, 2024
0
91
[論文解説] Text Embeddings Reveal (Almost) As Much As Text
EMNLP'23に採択された論文。埋め込みから元のテキストを復元するVec2Textを提案。
Reon Kajikawa
April 26, 2024
Tweet
Share
More Decks by Reon Kajikawa
See All by Reon Kajikawa
[論文解説] Not All Negatives are Equal: Label Aware Contrastive Loss for Fine grained Text Classification
reon131
0
10
[論文解説] Disentangled Learning with Synthetic Parallel Data for Text Style Transfer
reon131
0
11
[論文解説] Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning
reon131
0
16
[論文解説] SentiCSE: A Sentiment-aware Contrastive Sentence Embedding Framework with Sentiment-guided Textual Similarity
reon131
0
13
[論文解説] OssCSE: Overcoming Surface Structure Bias in Contrastive Learning for Unsupervised Sentence Embedding
reon131
0
5
[論文解説] Sentence Representations via Gaussian Embedding
reon131
0
78
[論文解説] Unsupervised Learning of Style-sensitive Word Vectors
reon131
0
15
[論文解説] One Embedder, Any Task: Instruction-Finetuned Text Embeddings
reon131
0
36
[論文解説] Alleviating Over-smoothing for Unsupervised Sentence Representation
reon131
0
15
Featured
See All Featured
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
9
590
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
189
55k
[RailsConf 2023] Rails as a piece of cake
palkan
57
5.9k
The Cult of Friendly URLs
andyhume
79
6.6k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
1.6k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
46
7.7k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
For a Future-Friendly Web
brad_frost
180
9.9k
Optimizing for Happiness
mojombo
379
70k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
15
1.7k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
252
21k
Transcript
Text Embeddings Reveal (Almost) As Much As Text John X.
Morris, Volodymyr Kuleshov Vitaly Shmatikov, Alexander M. Rush EMNLP 2023 (Outstanding Paper) URL:https://aclanthology.org/2023.emnlp-main.765/ 発表者:M1 梶川 怜恩
文埋め込みから元テキストを生成するVec2Text • テキストの修正と再埋め込みを繰り返す • 32トークンのテキストの92%を復元に成功 • 個人情報も復元できてしまう 1 概要
RAGシステム 2 導入:ベクトルDBと脅威 質問 回答 LLM ベクトルDB 検索した文ベクトル
RAGシステム 3 導入:ベクトルDBと脅威 質問 回答 LLM ベクトルDB 漏洩した場合 脅威になり得るのか?
Vec2Text • 埋め込みから元のテキストに再構築する • テキストが復元可能であれば、個人情報の漏洩などの脅威となる… 4 導入:埋め込みの反転
単純な手法 • 未知のエンコーダ𝜙、埋め込み𝑒 = 𝜙(𝑥)からテキストを獲得 • 全てのテキストに対して適用することは困難… 5 導入:埋め込みの反転
文埋め込みの分布を学習する方法 • 埋め込み𝑒 = 𝜙 𝑥 から、分布𝜃 を学習 • 埋め込みのみでは、復元が困難…
6 Base Model(Learning to Invert Φ)
提案手法 / Methodology 7
Vec2Text Enc-Decモデル • 空のテキスト𝑥(0)、埋め込み Ƹ 𝑒(0)を初期値として繰り返し復元 • 入力:真の埋め込み𝑒、出力テキスト𝑥(𝑡)・埋め込み Ƹ 𝑒(𝑡)
• 出力:出力テキスト𝑥(𝑡+1) 8 Vec2Text
Vec2Text Encモデル • 復元テキストを再埋め込みして、Enc-Decモデルに流す • 入力:出力テキスト𝑥(𝑡+1) • 出力:埋め込み Ƹ 𝑒(𝑡+1)
9 Vec2Text
概要図 10 Vec2Text
推論 • Sequence search(sbeam) • 復元の候補上位k個 • 真の埋め込みとの距離で選択 Enc-Decの入力 •
Encの次元数をEnc-Decモデルに合わせる必要 11 Vec2Text 𝑾𝟏 ∈ ℝ𝒅×𝒅 𝑾𝟐 ∈ ℝ(𝒔𝒅𝒆𝒏𝒄)×𝒅
実験 12
Encモデルを学習、真の埋め込み𝑒を作成 1. GTR-base • Natural Questions(32 tokens/passage) 2. text-embeddings-ada-002(OpenAI) •
MSMARCO(32 or 128 tokens/passage) 13 実験:擬似的なベクトルDBを作成
Enc-Decを学習、Vec2Textの完成 T5-base • Natural Questions • MSMARCO → 真の埋め込み・テキストと追加学習済みEncモデルで学習 14
実験:Enc-Decの学習
評価データ • Natural Questions, MSMARCO • BEIRベンチマークのデータ • MIMIC-III(臨床ノート) 評価指標
• BLEU、Token-F1(トークン集合間のF値)、exact-match • 真の埋め込みとのコサイン類似度 15 実験:Enc-Decの学習 Out-of-Domain
ベースライン • BoWによる生成 [1] • GPT-2 Decoder 16 実験:Enc-Decの学習 [1]
Song and Raghunathan.:Information leakage in embedding models(ACM.20)
結果 17
• ステップ数を増やすことでスコアが上昇 • sbeamを適用することで完全一致(exact)が大幅に増加 18 結果:In-Domain
未知のドメインに対する汎化性能を調査 → BEIRベンチマークのテキスト • 異なるトークン長の入力に頑健 19 結果:Out-of-Domain
特定の脅威対象としての「臨床ノート」 • 個人情報(苗字、名前、フルネーム)が復元できた割合 → 90%ほど復元できる 20 Case Study:臨床ノート
分析 21
埋め込みに対してノイズを付与 • ノイズ埋め込み𝜙𝑛𝑜𝑖𝑠𝑦 (𝑥) で学習 • 𝜆 = 10−2の場合、検索性能を維持しながら、復元性能が低下 22
埋め込みを脅威から守るために
𝑥(0)の異なる初期化で評価する • 初期化が性能に左右されない 23 強力な Base Model を持つことは重要か? Vec2Text (20
steps)
まとめ 24
文埋め込みから元テキストを生成するVec2Text • テキストの修正と再埋め込みを繰り返す • 32トークンのテキストの92%を復元に成功 • 個人情報も復元できてしまう • 法的に保護されるべき •
数千トークンのテキスト埋め込みについて調査していない • 埋め込みモデルを特定する必要がある? 25 まとめ