Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[論文解説] Text Embeddings Reveal (Almost) As Much ...

Reon Kajikawa
April 26, 2024
4

[論文解説] Text Embeddings Reveal (Almost) As Much As Text

EMNLP'23に採択された論文。埋め込みから元のテキストを復元するVec2Textを提案。

Reon Kajikawa

April 26, 2024
Tweet

Transcript

  1. Text Embeddings Reveal (Almost) As Much As Text John X.

    Morris, Volodymyr Kuleshov Vitaly Shmatikov, Alexander M. Rush EMNLP 2023 (Outstanding Paper) URL:https://aclanthology.org/2023.emnlp-main.765/ 発表者:M1 梶川 怜恩
  2. 推論 • Sequence search(sbeam) • 復元の候補上位k個 • 真の埋め込みとの距離で選択 Enc-Decの入力 •

    Encの次元数をEnc-Decモデルに合わせる必要 11 Vec2Text 𝑾𝟏 ∈ ℝ𝒅×𝒅 𝑾𝟐 ∈ ℝ(𝒔𝒅𝒆𝒏𝒄)×𝒅
  3. 評価データ • Natural Questions, MSMARCO • BEIRベンチマークのデータ • MIMIC-III(臨床ノート) 評価指標

    • BLEU、Token-F1(トークン集合間のF値)、exact-match • 真の埋め込みとのコサイン類似度 15 実験:Enc-Decの学習 Out-of-Domain
  4. ベースライン • BoWによる生成 [1] • GPT-2 Decoder 16 実験:Enc-Decの学習 [1]

    Song and Raghunathan.:Information leakage in embedding models(ACM.20)