Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[論文解説] Text Embeddings Reveal (Almost) As Much ...
Search
Reon Kajikawa
April 26, 2024
0
25
[論文解説] Text Embeddings Reveal (Almost) As Much As Text
EMNLP'23に採択された論文。埋め込みから元のテキストを復元するVec2Textを提案。
Reon Kajikawa
April 26, 2024
Tweet
Share
More Decks by Reon Kajikawa
See All by Reon Kajikawa
[論文解説] Not All Negatives are Equal: Label Aware Contrastive Loss for Fine grained Text Classification
reon131
0
1
[論文解説] Disentangled Learning with Synthetic Parallel Data for Text Style Transfer
reon131
0
7
[論文解説] Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning
reon131
0
11
[論文解説] SentiCSE: A Sentiment-aware Contrastive Sentence Embedding Framework with Sentiment-guided Textual Similarity
reon131
0
12
[論文解説] OssCSE: Overcoming Surface Structure Bias in Contrastive Learning for Unsupervised Sentence Embedding
reon131
0
1
[論文解説] Sentence Representations via Gaussian Embedding
reon131
0
25
[論文解説] Unsupervised Learning of Style-sensitive Word Vectors
reon131
0
5
[論文解説] One Embedder, Any Task: Instruction-Finetuned Text Embeddings
reon131
0
27
[論文解説] Alleviating Over-smoothing for Unsupervised Sentence Representation
reon131
0
12
Featured
See All Featured
Why Our Code Smells
bkeepers
PRO
335
57k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.4k
Become a Pro
speakerdeck
PRO
26
5.1k
Building a Scalable Design System with Sketch
lauravandoore
460
33k
Build your cross-platform service in a week with App Engine
jlugia
229
18k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
330
21k
How to train your dragon (web standard)
notwaldorf
89
5.8k
Designing for Performance
lara
604
68k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
365
25k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
59k
Intergalactic Javascript Robots from Outer Space
tanoku
270
27k
Stop Working from a Prison Cell
hatefulcrawdad
267
20k
Transcript
Text Embeddings Reveal (Almost) As Much As Text John X.
Morris, Volodymyr Kuleshov Vitaly Shmatikov, Alexander M. Rush EMNLP 2023 (Outstanding Paper) URL:https://aclanthology.org/2023.emnlp-main.765/ 発表者:M1 梶川 怜恩
文埋め込みから元テキストを生成するVec2Text • テキストの修正と再埋め込みを繰り返す • 32トークンのテキストの92%を復元に成功 • 個人情報も復元できてしまう 1 概要
RAGシステム 2 導入:ベクトルDBと脅威 質問 回答 LLM ベクトルDB 検索した文ベクトル
RAGシステム 3 導入:ベクトルDBと脅威 質問 回答 LLM ベクトルDB 漏洩した場合 脅威になり得るのか?
Vec2Text • 埋め込みから元のテキストに再構築する • テキストが復元可能であれば、個人情報の漏洩などの脅威となる… 4 導入:埋め込みの反転
単純な手法 • 未知のエンコーダ𝜙、埋め込み𝑒 = 𝜙(𝑥)からテキストを獲得 • 全てのテキストに対して適用することは困難… 5 導入:埋め込みの反転
文埋め込みの分布を学習する方法 • 埋め込み𝑒 = 𝜙 𝑥 から、分布𝜃 を学習 • 埋め込みのみでは、復元が困難…
6 Base Model(Learning to Invert Φ)
提案手法 / Methodology 7
Vec2Text Enc-Decモデル • 空のテキスト𝑥(0)、埋め込み Ƹ 𝑒(0)を初期値として繰り返し復元 • 入力:真の埋め込み𝑒、出力テキスト𝑥(𝑡)・埋め込み Ƹ 𝑒(𝑡)
• 出力:出力テキスト𝑥(𝑡+1) 8 Vec2Text
Vec2Text Encモデル • 復元テキストを再埋め込みして、Enc-Decモデルに流す • 入力:出力テキスト𝑥(𝑡+1) • 出力:埋め込み Ƹ 𝑒(𝑡+1)
9 Vec2Text
概要図 10 Vec2Text
推論 • Sequence search(sbeam) • 復元の候補上位k個 • 真の埋め込みとの距離で選択 Enc-Decの入力 •
Encの次元数をEnc-Decモデルに合わせる必要 11 Vec2Text 𝑾𝟏 ∈ ℝ𝒅×𝒅 𝑾𝟐 ∈ ℝ(𝒔𝒅𝒆𝒏𝒄)×𝒅
実験 12
Encモデルを学習、真の埋め込み𝑒を作成 1. GTR-base • Natural Questions(32 tokens/passage) 2. text-embeddings-ada-002(OpenAI) •
MSMARCO(32 or 128 tokens/passage) 13 実験:擬似的なベクトルDBを作成
Enc-Decを学習、Vec2Textの完成 T5-base • Natural Questions • MSMARCO → 真の埋め込み・テキストと追加学習済みEncモデルで学習 14
実験:Enc-Decの学習
評価データ • Natural Questions, MSMARCO • BEIRベンチマークのデータ • MIMIC-III(臨床ノート) 評価指標
• BLEU、Token-F1(トークン集合間のF値)、exact-match • 真の埋め込みとのコサイン類似度 15 実験:Enc-Decの学習 Out-of-Domain
ベースライン • BoWによる生成 [1] • GPT-2 Decoder 16 実験:Enc-Decの学習 [1]
Song and Raghunathan.:Information leakage in embedding models(ACM.20)
結果 17
• ステップ数を増やすことでスコアが上昇 • sbeamを適用することで完全一致(exact)が大幅に増加 18 結果:In-Domain
未知のドメインに対する汎化性能を調査 → BEIRベンチマークのテキスト • 異なるトークン長の入力に頑健 19 結果:Out-of-Domain
特定の脅威対象としての「臨床ノート」 • 個人情報(苗字、名前、フルネーム)が復元できた割合 → 90%ほど復元できる 20 Case Study:臨床ノート
分析 21
埋め込みに対してノイズを付与 • ノイズ埋め込み𝜙𝑛𝑜𝑖𝑠𝑦 (𝑥) で学習 • 𝜆 = 10−2の場合、検索性能を維持しながら、復元性能が低下 22
埋め込みを脅威から守るために
𝑥(0)の異なる初期化で評価する • 初期化が性能に左右されない 23 強力な Base Model を持つことは重要か? Vec2Text (20
steps)
まとめ 24
文埋め込みから元テキストを生成するVec2Text • テキストの修正と再埋め込みを繰り返す • 32トークンのテキストの92%を復元に成功 • 個人情報も復元できてしまう • 法的に保護されるべき •
数千トークンのテキスト埋め込みについて調査していない • 埋め込みモデルを特定する必要がある? 25 まとめ