Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Binary and Scalar Embedding Quantization for Significantly Faster & Cheaper Retrieval

Binary and Scalar Embedding Quantization for Significantly Faster & Cheaper Retrieval

Shunsuke Kanda

May 17, 2024
Tweet

More Decks by Shunsuke Kanda

Other Decks in Technology

Transcript

  1. Binary and Scalar Embedding Quantization for Significantly Faster & Cheaper

    Retrieval Aamir Shakir, Tom Aarsen, and SeanLee https://huggingface.co/blog/embedding-quantization 発表者:Kampersanda
  2. 省メモリ化の方法 1. 次元数削減 • PCA • マトリョーシカ法 • など 2.

    要素圧縮 • Quantization (Binary & Scalar) • など  あとは LSH や Product Quantization などなど 今日のテーマ
  3. Binary Quantization 方法 • 値の符号によって各要素を 0 or 1 に変換 •

    距離計算はハミング距離(異なるビットの数) 以上です
  4. Scalar (int8) Quantization 手順 1. Calibration Dataset から各次元 について min,

    max を算出 2. その範囲で値を 256 等分に  (バケット化) 注意点 • Calibration Dataset は量子化バ ケットを定義するため、性能に 影響する
  5. リランキングによる検索精度改善 [Yamada et al., ACL21] 前提 • データベースには量子化されたベクトルが格納されている 手順 1.

    検索ステップ ◦ クエリ埋め込みを量子化し、量子化されたドキュメントのデータベース に対してベクトル検索 ◦ K件より多めに取ってくる 2. リランキング ◦ 量子化する前のクエリ埋め込みと、量子化されたドキュメントとで内積 を再計算しリランキング