[論文解説] Text Embeddings Reveal (Almost) As Much As Text

Text Embeddings Reveal (Almost) As Much As Text John X.
Morris, Volodymyr Kuleshov Vitaly Shmatikov, Alexander M. Rush EMNLP 2023 (Outstanding Paper) URL:https://aclanthology.org/2023.emnlp-main.765/ 発表者：M1 梶川怜恩

文埋め込みから元テキストを生成するVec2Text • テキストの修正と再埋め込みを繰り返す • 32トークンのテキストの92%を復元に成功 • 個人情報も復元できてしまう 1 概要

RAGシステム 2 導入：ベクトルDBと脅威質問回答 LLM ベクトルDB 検索した文ベクトル

RAGシステム 3 導入：ベクトルDBと脅威質問回答 LLM ベクトルDB 漏洩した場合脅威になり得るのか？

Vec2Text • 埋め込みから元のテキストに再構築する • テキストが復元可能であれば、個人情報の漏洩などの脅威となる… 4 導入：埋め込みの反転

単純な手法 • 未知のエンコーダ𝜙、埋め込み𝑒 = 𝜙(𝑥)からテキストを獲得 • 全てのテキストに対して適用することは困難… 5 導入：埋め込みの反転

文埋め込みの分布を学習する方法 • 埋め込み𝑒 = 𝜙 𝑥 から、分布𝜃 を学習 • 埋め込みのみでは、復元が困難…
6 Base Model（Learning to Invert Φ）

提案手法 / Methodology 7

Vec2Text Enc-Decモデル • 空のテキスト𝑥(0)、埋め込み Ƹ 𝑒(0)を初期値として繰り返し復元 • 入力：真の埋め込み𝑒、出力テキスト𝑥(𝑡)・埋め込み Ƹ 𝑒(𝑡)
• 出力：出力テキスト𝑥(𝑡+1) 8 Vec2Text

Vec2Text Encモデル • 復元テキストを再埋め込みして、Enc-Decモデルに流す • 入力：出力テキスト𝑥(𝑡+1) • 出力：埋め込み Ƹ 𝑒(𝑡+1)
9 Vec2Text

概要図 10 Vec2Text

推論 • Sequence search（sbeam） • 復元の候補上位k個 • 真の埋め込みとの距離で選択 Enc-Decの入力 •
Encの次元数をEnc-Decモデルに合わせる必要 11 Vec2Text 𝑾𝟏 ∈ ℝ𝒅×𝒅 𝑾𝟐 ∈ ℝ(𝒔𝒅𝒆𝒏𝒄)×𝒅

実験 12

Encモデルを学習、真の埋め込み𝑒を作成 1. GTR-base • Natural Questions（32 tokens/passage） 2. text-embeddings-ada-002（OpenAI） •
MSMARCO（32 or 128 tokens/passage） 13 実験：擬似的なベクトルDBを作成

Enc-Decを学習、Vec2Textの完成 T5-base • Natural Questions • MSMARCO → 真の埋め込み・テキストと追加学習済みEncモデルで学習 14
実験：Enc-Decの学習

評価データ • Natural Questions, MSMARCO • BEIRベンチマークのデータ • MIMIC-III（臨床ノート）評価指標
• BLEU、Token-F1（トークン集合間のF値）、exact-match • 真の埋め込みとのコサイン類似度 15 実験：Enc-Decの学習 Out-of-Domain

ベースライン • BoWによる生成 [1] • GPT-2 Decoder 16 実験：Enc-Decの学習 [1]
Song and Raghunathan.:Information leakage in embedding models（ACM.20）

結果 17

• ステップ数を増やすことでスコアが上昇 • sbeamを適用することで完全一致（exact）が大幅に増加 18 結果：In-Domain

未知のドメインに対する汎化性能を調査 → BEIRベンチマークのテキスト • 異なるトークン長の入力に頑健 19 結果：Out-of-Domain

特定の脅威対象としての「臨床ノート」 • 個人情報（苗字、名前、フルネーム）が復元できた割合 → 90%ほど復元できる 20 Case Study：臨床ノート

分析 21

埋め込みに対してノイズを付与 • ノイズ埋め込み𝜙𝑛𝑜𝑖𝑠𝑦 (𝑥) で学習 • 𝜆 = 10−2の場合、検索性能を維持しながら、復元性能が低下 22
埋め込みを脅威から守るために

𝑥(0)の異なる初期化で評価する • 初期化が性能に左右されない 23 強力な Base Model を持つことは重要か? Vec2Text （20
steps）

まとめ 24

文埋め込みから元テキストを生成するVec2Text • テキストの修正と再埋め込みを繰り返す • 32トークンのテキストの92%を復元に成功 • 個人情報も復元できてしまう • 法的に保護されるべき •
数千トークンのテキスト埋め込みについて調査していない • 埋め込みモデルを特定する必要がある？ 25 まとめ

[論文解説] Text Embeddings Reveal (Almost) As Much ...

[論文解説] Text Embeddings Reveal (Almost) As Much As Text

Reon Kajikawa

More Decks by Reon Kajikawa

Featured

Transcript

Text Embeddings Reveal (Almost) As Much As Text John X.

文埋め込みから元テキストを生成するVec2Text • テキストの修正と再埋め込みを繰り返す • 32トークンのテキストの92%を復元に成功 • 個人情報も復元できてしまう 1 概要

RAGシステム 2 導入：ベクトルDBと脅威質問回答 LLM ベクトルDB 検索した文ベクトル

RAGシステム 3 導入：ベクトルDBと脅威質問回答 LLM ベクトルDB 漏洩した場合脅威になり得るのか？

Vec2Text • 埋め込みから元のテキストに再構築する • テキストが復元可能であれば、個人情報の漏洩などの脅威となる… 4 導入：埋め込みの反転

単純な手法 • 未知のエンコーダ𝜙、埋め込み𝑒 = 𝜙(𝑥)からテキストを獲得 • 全てのテキストに対して適用することは困難… 5 導入：埋め込みの反転

文埋め込みの分布を学習する方法 • 埋め込み𝑒 = 𝜙 𝑥 から、分布𝜃 を学習 • 埋め込みのみでは、復元が困難…

提案手法 / Methodology 7

Vec2Text Enc-Decモデル • 空のテキスト𝑥(0)、埋め込み Ƹ 𝑒(0)を初期値として繰り返し復元 • 入力：真の埋め込み𝑒、出力テキスト𝑥(𝑡)・埋め込み Ƹ 𝑒(𝑡)

Vec2Text Encモデル • 復元テキストを再埋め込みして、Enc-Decモデルに流す • 入力：出力テキスト𝑥(𝑡+1) • 出力：埋め込み Ƹ 𝑒(𝑡+1)

概要図 10 Vec2Text

推論 • Sequence search（sbeam） • 復元の候補上位k個 • 真の埋め込みとの距離で選択 Enc-Decの入力 •

実験 12

Encモデルを学習、真の埋め込み𝑒を作成 1. GTR-base • Natural Questions（32 tokens/passage） 2. text-embeddings-ada-002（OpenAI） •

Enc-Decを学習、Vec2Textの完成 T5-base • Natural Questions • MSMARCO → 真の埋め込み・テキストと追加学習済みEncモデルで学習 14

評価データ • Natural Questions, MSMARCO • BEIRベンチマークのデータ • MIMIC-III（臨床ノート）評価指標

ベースライン • BoWによる生成 [1] • GPT-2 Decoder 16 実験：Enc-Decの学習 [1]

結果 17

• ステップ数を増やすことでスコアが上昇 • sbeamを適用することで完全一致（exact）が大幅に増加 18 結果：In-Domain

未知のドメインに対する汎化性能を調査 → BEIRベンチマークのテキスト • 異なるトークン長の入力に頑健 19 結果：Out-of-Domain

特定の脅威対象としての「臨床ノート」 • 個人情報（苗字、名前、フルネーム）が復元できた割合 → 90%ほど復元できる 20 Case Study：臨床ノート

分析 21

埋め込みに対してノイズを付与 • ノイズ埋め込み𝜙𝑛𝑜𝑖𝑠𝑦 (𝑥) で学習 • 𝜆 = 10−2の場合、検索性能を維持しながら、復元性能が低下 22

𝑥(0)の異なる初期化で評価する • 初期化が性能に左右されない 23 強力な Base Model を持つことは重要か? Vec2Text （20

まとめ 24

文埋め込みから元テキストを生成するVec2Text • テキストの修正と再埋め込みを繰り返す • 32トークンのテキストの92%を復元に成功 • 個人情報も復元できてしまう • 法的に保護されるべき •