$30 off During Our Annual Pro Sale. View Details »

論文紹介: PEFA: Parameter-Free Adapters for Large-s...

論文紹介: PEFA: Parameter-Free Adapters for Large-scale Embedding-based Retrieval Models (WSDM 2024)

IR Reading 2024 春 での論文紹介に使用したスライドです.
https://sigir.jp/post/2024-06-15-irreading_2024spring/

紹介した論文
PEFA: Parameter-Free Adapters for Large-scale Embedding-based Retrieval Models (WSDM 2024)

Yu Nakano / 中野優

June 15, 2024
Tweet

More Decks by Yu Nakano / 中野優

Other Decks in Science

Transcript

  1. 論⽂紹介する⼈: 中野 優 https://sites.google.com/view/yu-nakano 図表は基本的に論⽂と発表より引⽤ PEFA: Parameter-Free Adapters for Large-scale

    Embedding-based Retrieval Models (WSDM 2024) Wei-Cheng Chang, Jyun-Yu Jiang, Jiong Zhang, Mutasem Al-Darabsah, Choon Hui Teo, Cho-Jui Hsieh, Hsiang-Fu Yu, S. V. N. Vishwanathan (Amazon, UCLA) URL: https://dl.acm.org/doi/10.1145/3616855.3635791 (https://arxiv.org/abs/2312.02429)
  2. 概要: 密検索 2 つくば市のおすすめ 観光スポット! つくば市の観光ス ポットとしては筑波 ⼭がおすすめです! ⾮常に眺めがよく、 …

    クエリ ⽂書 クエリベクトル ⽂書ベクトル 0.83 スコア 内積 つくば 観光 🔍 BERTなど ⼤規模⾔語モデル ⼤規模⾔語モデル BERTなど
  3. ① インデックス構築 → ② 検索 概要: 密検索 3 クエリ ⽂書

    クエリベクトル つくば 観光 🔍 ⼤規模⾔語モデル BERTなど インデックス HNSW など ⼤規模⾔語モデル BERTなど 近似最近傍探索 つくば市のおすすめ 観光スポット! つくば市の観光ス ポットとしては筑波 ⼭がおすすめです! ⾮常に眺めがよく、 … 0.83 ランキング 0.72 0.56
  4. ① インデックス構築 → ② 検索 概要: 密検索 4 クエリ ⽂書

    クエリベクトル つくば 観光 🔍 ⼤規模⾔語モデル BERTなど インデックス HNSW など ⼤規模⾔語モデル BERTなど 近似最近傍探索 つくば市のおすすめ 観光スポット! つくば市の観光ス ポットとしては筑波 ⼭がおすすめです! ⾮常に眺めがよく、 … 0.83 ランキング 0.72 0.56
  5. ① インデックス構築 → ② 検索 概要: 密検索 5 クエリ ⽂書

    クエリベクトル つくば 観光 🔍 ⼤規模⾔語モデル BERTなど インデックス HNSW など ⼤規模⾔語モデル BERTなど 近似最近傍探索 つくば市のおすすめ 観光スポット! つくば市の観光ス ポットとしては筑波 ⼭がおすすめです! ⾮常に眺めがよく、 … 0.83 ランキング 0.72 0.56
  6. ① インデックス構築 → ② 検索 概要: 密検索 6 クエリ ⽂書

    クエリベクトル つくば 観光 🔍 ⼤規模⾔語モデル BERTなど インデックス HNSW など ⼤規模⾔語モデル BERTなど 近似最近傍探索 つくば市のおすすめ 観光スポット! つくば市の観光ス ポットとしては筑波 ⼭がおすすめです! ⾮常に眺めがよく、 … 0.83 ランキング 0.72 0.56
  7. ① インデックス構築 → ② 検索 概要: 密検索 7 クエリ ⽂書

    クエリベクトル つくば 観光 🔍 ⼤規模⾔語モデル BERTなど インデックス HNSW など ⼤規模⾔語モデル BERTなど 近似最近傍探索 つくば市のおすすめ 観光スポット! つくば市の観光ス ポットとしては筑波 ⼭がおすすめです! ⾮常に眺めがよく、 … 0.83 ランキング 0.72 0.56 この密検索システムの性能を どう改善するか? Q. effectiveness ここでの「性能」は ◯ effectiveness(ランキング結果の良さ) ✕ efficiency(速さ) であることに注意
  8. ⽂書に加えて,訓練データのクエリでもインデックスを構築 PEFA-X L 11 ① インデックス構築 → ② 検索 →

    ③ スコア統合 訓練データの クエリ ⽂書 つくば 観光 🔍 ⼤規模⾔語モデル BERTなど ⽂書インデックス HNSW など ⼤規模⾔語モデル BERTなど つくば市のおすすめ 観光スポット! つくば市の観光ス ポットとしては筑波 ⼭がおすすめです! ⾮常に眺めがよく、 … つくば 観光 🔍 つくば 観光 🔍 つくば 観光 🔍 つくば 観光 🔍 クエリインデックス HNSW など
  9. クエリと⽂書の両⽅のインデックスを検索 PEFA-X L 12 ① インデックス構築 → ② 検索 →

    ③ スコア統合 ⽂書インデックス HNSW など クエリ クエリベクトル つくば 🔍 ⼤規模 ⾔語モデル BERTなど 近似最近傍探索 近似最近傍探索 クエリインデックス HNSW など 0.83 0.72 0.56 0.63 0.51 0.33 “つくば市” “筑波⼤学” “つくば駅” ⽂書 1 ⽂書 2 ⽂書 3
  10. ⽂書ごとに⽂書のスコアと,訓練データにおいて ⽂書が適合となるクエリのスコアを線形結合 PEFA-X L 13 ① インデックス構築 → ② 検索

    → ③ スコア統合 クエリインデックス HNSW など クエリ つくば 🔍 ⽂書インデックス HNSW など 0.83 0.72 0.56 0.63 0.51 0.33 “つくば市” “筑波⼤学” “つくば駅” ⽂書 1 ⽂書 2 ⽂書 3 ここでは⽂書のスコアと クエリのスコアを 同じ重みとしている
  11. ⽂書ごとに⽂書のスコアと,訓練データにおいて ⽂書が適合となるクエリのスコアを線形結合 PEFA-X L 14 ① インデックス構築 → ② 検索

    → ③ スコア統合 クエリインデックス HNSW など クエリ つくば 🔍 ⽂書インデックス HNSW など 0.83 0.72 0.56 0.63 0.51 0.33 “つくば市” “筑波⼤学” “つくば駅” ⽂書 1 ⽂書 2 ⽂書 3 まず⽂書 1 に着⽬すると…… ここでは⽂書のスコアと クエリのスコアを 同じ重みとしている
  12. ⽂書ごとに⽂書のスコアと,訓練データにおいて ⽂書が適合となるクエリのスコアを線形結合 PEFA-X L 15 ① インデックス構築 → ② 検索

    → ③ スコア統合 クエリインデックス HNSW など クエリ つくば 🔍 ⽂書インデックス HNSW など 0.83 0.72 0.56 0.63 0.51 0.33 “つくば市” “筑波⼤学” “つくば駅” ⽂書 1 ⽂書 2 ⽂書 3 適合 不適合 適合 訓練データにおいて クエリ “つくば市” と “つくば駅” で ⽂書 1 が適合だったとする ここでは⽂書のスコアと クエリのスコアを 同じ重みとしている
  13. ⽂書ごとに⽂書のスコアと,訓練データにおいて ⽂書が適合となるクエリのスコアを線形結合 PEFA-X L 16 ① インデックス構築 → ② 検索

    → ③ スコア統合 クエリインデックス HNSW など クエリ つくば 🔍 ⽂書インデックス HNSW など 0.83 0.72 0.56 0.63 0.51 0.33 “つくば市” “筑波⼤学” “つくば駅” ⽂書 1 ⽂書 2 ⽂書 3 スコア 0.5 * 0.83 + 0.5 * (0.63 + 0.33) = 0.895 適合 不適合 適合 ⽂書のスコアと ⽂書が適合となるクエリのスコアを 線形結合する ここでは⽂書のスコアと クエリのスコアを 同じ重みとしている
  14. ⽂書ごとに⽂書のスコアと,訓練データにおいて ⽂書が適合となるクエリのスコアを線形結合 PEFA-X L 17 ① インデックス構築 → ② 検索

    → ③ スコア統合 クエリインデックス HNSW など クエリ つくば 🔍 ⽂書インデックス HNSW など 0.83 0.72 0.56 0.63 0.51 0.33 “つくば市” “筑波⼤学” “つくば駅” ⽂書 1 ⽂書 2 ⽂書 3 0.5 * 0.83 + 0.5 * (0.63 + 0.33) = 0.895 適合 不適合 適合 ⽂書のスコアと ⽂書が適合となるクエリのスコアを 線形結合する ここでは⽂書のスコアと クエリのスコアを 同じ重みとしている スコア
  15. ⽂書ごとに⽂書のスコアと,訓練データにおいて ⽂書が適合となるクエリのスコアを線形結合 PEFA-X L 18 ① インデックス構築 → ② 検索

    → ③ スコア統合 クエリインデックス HNSW など クエリ つくば 🔍 ⽂書インデックス HNSW など 0.83 0.72 0.56 0.63 0.51 0.33 “つくば市” “筑波⼤学” “つくば駅” ⽂書 1 ⽂書 2 ⽂書 3 0.5 * 0.83 + 0.5 * (0.63 + 0.33) = 0.895 適合 不適合 適合 ここでは⽂書のスコアと クエリのスコアを 同じ重みとしている ⽂書のスコアと ⽂書が適合となるクエリのスコアを 線形結合する スコア
  16. ⽂書ごとに⽂書のスコアと,訓練データにおいて ⽂書が適合となるクエリのスコアを線形結合 PEFA-X L 19 ① インデックス構築 → ② 検索

    → ③ スコア統合 クエリインデックス HNSW など クエリ つくば 🔍 ⽂書インデックス HNSW など 0.83 0.72 0.56 0.63 0.51 0.33 “つくば市” “筑波⼤学” “つくば駅” ⽂書 1 ⽂書 2 ⽂書 3 0.5 * 0.83 + 0.5 * (0.63 + 0.33) = 0.895 0.5 * 0.72 + 0.5 * 0.33 = 0.525 ここでは⽂書のスコアと クエリのスコアを 同じ重みとしている スコア
  17. ⽂書ごとに⽂書のスコアと,訓練データにおいて ⽂書が適合となるクエリのスコアを線形結合 PEFA-X L 20 ① インデックス構築 → ② 検索

    → ③ スコア統合 クエリインデックス HNSW など クエリ つくば 🔍 ⽂書インデックス HNSW など 0.83 0.72 0.56 0.63 0.51 0.33 “つくば市” “筑波⼤学” “つくば駅” ⽂書 1 ⽂書 2 ⽂書 3 0.5 * 0.83 + 0.5 * (0.63 + 0.33) = 0.895 0.5 * 0.72 + 0.5 * 0.33 = 0.525 ここでは⽂書のスコアと クエリのスコアを 同じ重みとしている スコア 0.5 * 0.56 + 0.5 * (0.63 + 0.51) = 0.850
  18. ⽂書ごとに⽂書のスコアと,訓練データにおいて ⽂書が適合となるクエリのスコアを線形結合 PEFA-X L 21 ① インデックス構築 → ② 検索

    → ③ スコア統合 クエリインデックス HNSW など クエリ つくば 🔍 ⽂書インデックス HNSW など 0.83 0.72 0.56 0.63 0.51 0.33 “つくば市” “筑波⼤学” “つくば駅” ⽂書 1 ⽂書 2 ⽂書 3 0.5 * 0.83 + 0.5 * (0.63 + 0.33) = 0.895 0.5 * 0.72 + 0.5 * 0.33 = 0.525 0.5 * 0.56 + 0.5 * (0.63 + 0.51) = 0.850 ここでは⽂書のスコアと クエリのスコアを 同じ重みとしている スコア
  19. PEFA-X Lの課題: 2 つのインデックス 22 ① インデックス構築 → ② 検索

    → ③ スコア統合 インデックスが 2 つあるのでディスク使⽤量も 2 つ分で多い 検索では 2 回の探索があるので計算量も 2 回分で遅い ⽂書インデックス HNSW など クエリ クエリベクトル つくば 🔍 ⼤規模 ⾔語モデル BERTなど 近似最近傍探索 近似最近傍探索 クエリインデックス HNSW など 0.83 0.72 0.56 0.63 0.51 0.33 “つくば市” “筑波⼤学” “つくば駅” ⽂書 1 ⽂書 2 ⽂書 3
  20. PEFA-X Lの課題: 2 つのインデックス 23 ① インデックス構築 → ② 検索

    → ③ スコア統合 インデックスが 2 つあるのでディスク使⽤量も 2 つ分で多い 検索では 2 回の探索があるので計算量も 2 回分で遅い ⽂書インデックス HNSW など クエリ クエリベクトル つくば 🔍 ⼤規模 ⾔語モデル BERTなど クエリインデックス HNSW など 0.83 0.72 0.56 0.63 0.51 0.33 “つくば市” “筑波⼤学” “つくば駅” ⽂書 1 ⽂書 2 ⽂書 3 近似最近傍探索 近似最近傍探索
  21. PEFA-X Lの課題: 2 つのインデックス 24 ① インデックス構築 → ② 検索

    → ③ スコア統合 インデックスが 2 つあるのでディスク使⽤量も 2 つ分で多い 検索では 2 回の探索があるので計算量も 2 回分で遅い ⽂書インデックス HNSW など クエリ クエリベクトル つくば 🔍 ⼤規模 ⾔語モデル BERTなど 近似最近傍探索 近似最近傍探索 クエリインデックス HNSW など 0.83 0.72 0.56 0.63 0.51 0.33 “つくば市” “筑波⼤学” “つくば駅” ⽂書 1 ⽂書 2 ⽂書 3
  22. PEFA-X S 25 ① インデックス構築 → ② 検索 インデックス構築時に,⽂書ベクトルに対して 訓練データで適合となるクエリベクトルを⾜し合わせる

    訓練データの クエリ ⽂書 つくば 観光 🔍 ⼤規模⾔語モデル BERTなど ⽂書インデックス HNSW など ⼤規模⾔語モデル BERTなど つくば市のおすすめ 観光スポット! つくば市の観光ス ポットとしては筑波 ⼭がおすすめです! ⾮常に眺めがよく、 … つくば 観光 🔍 つくば 観光 🔍 つくば 観光 🔍 つくば 観光 🔍
  23. PEFA-X S 26 ① インデックス構築 → ② 検索 インデックス構築時に,⽂書ベクトルに対して 訓練データで適合となるクエリベクトルを⾜し合わせる

    訓練データの クエリ ⽂書 ⼤規模⾔語モデル BERTなど ⽂書インデックス HNSW など ⼤規模⾔語モデル BERTなど つくば市のおすすめ 観光スポット! つくば市の観光ス ポットとしては筑波 ⼭がおすすめです! ⾮常に眺めがよく、 … つくば 観光 🔍 つくば 観光 🔍 つくば 観光 🔍 つくば 観光 🔍 つくば 観光 🔍 1 番⽬の⽂書に着⽬
  24. PEFA-X S 27 ① インデックス構築 → ② 検索 インデックス構築時に,⽂書ベクトルに対して 訓練データで適合となるクエリベクトルを⾜し合わせる

    訓練データの クエリ ⽂書 つくば 観光 🔍 ⼤規模⾔語モデル BERTなど ⽂書インデックス HNSW など ⼤規模⾔語モデル BERTなど つくば市のおすすめ 観光スポット! つくば市の観光ス ポットとしては筑波 ⼭がおすすめです! ⾮常に眺めがよく、 … つくば 観光 🔍 つくば 観光 🔍 つくば 観光 🔍 つくば 観光 🔍 1 番⽬の⽂書が適合となるクエリ
  25. PEFA-X S 28 ① インデックス構築 → ② 検索 インデックス構築時に,⽂書ベクトルに対して 訓練データで適合となるクエリベクトルを⾜し合わせる

    訓練データの クエリ ⽂書 つくば 観光 🔍 ⼤規模⾔語モデル BERTなど ⽂書インデックス HNSW など ⼤規模⾔語モデル BERTなど つくば市のおすすめ 観光スポット! つくば市の観光ス ポットとしては筑波 ⼭がおすすめです! ⾮常に眺めがよく、 … つくば 観光 🔍 つくば 観光 🔍 つくば 観光 🔍 つくば 観光 🔍 ⽂書のベクトルと 適合となるクエリの ベクトルを⾜し合わせて インデックスする
  26. PEFA-X S 29 ① インデックス構築 → ② 検索 インデックス構築時に,⽂書ベクトルに対して 訓練データで適合となるクエリベクトルを⾜し合わせる

    訓練データの クエリ ⽂書 つくば 観光 🔍 ⼤規模⾔語モデル BERTなど ⽂書インデックス HNSW など ⼤規模⾔語モデル BERTなど つくば市のおすすめ 観光スポット! つくば市の観光ス ポットとしては筑波 ⼭がおすすめです! ⾮常に眺めがよく、 … つくば 観光 🔍 つくば 観光 🔍 つくば 観光 🔍 つくば 観光 🔍 他の⽂書でも同様に インデックスする
  27. PEFA-X S 30 ① インデックス構築 → ② 検索 インデックス構築時に,⽂書ベクトルに対して 訓練データで適合となるクエリベクトルを⾜し合わせる

    訓練データの クエリ ⽂書 つくば 観光 🔍 ⼤規模⾔語モデル BERTなど ⽂書インデックス HNSW など ⼤規模⾔語モデル BERTなど つくば市のおすすめ 観光スポット! つくば市の観光ス ポットとしては筑波 ⼭がおすすめです! ⾮常に眺めがよく、 … つくば 観光 🔍 つくば 観光 🔍 つくば 観光 🔍 つくば 観光 🔍
  28. PEFA-X S 31 ① インデックス構築 → ② 検索 インデックス構築時に,⽂書ベクトルに対して 訓練データで適合となるクエリベクトルを⾜し合わせる

    訓練データの クエリ ⽂書 つくば 観光 🔍 ⼤規模⾔語モデル BERTなど ⽂書インデックス HNSW など ⼤規模⾔語モデル BERTなど つくば市のおすすめ 観光スポット! つくば市の観光ス ポットとしては筑波 ⼭がおすすめです! ⾮常に眺めがよく、 … つくば 観光 🔍 つくば 観光 🔍 つくば 観光 🔍 つくば 観光 🔍 嬉しい点: 最終的にできる インデックスは 1 つだけ
  29. 検索時は通常の密検索と全く同じになる! 2 回検索する XL より⾼速 PEFA-X S 32 ① インデックス構築

    → ② 検索 クエリ ⽂書 クエリベクトル つくば 🔍 ⼤規模⾔語モデル BERTなど インデックス HNSW など ⼤規模⾔語モデル BERTなど 近似最近傍探索 つくば市のおすすめ 観光スポット! つくば市の観光ス ポットとしては筑波 ⼭がおすすめです! ⾮常に眺めがよく、 … 0.83 ランキング 0.72 0.56
  30. A. タスクとデータセット,評価指標に依存する 実験 35 Q: XL と XS はどちらのほうが性能が良いか? ⽂書検索タスク(TriviaQA)

    商品検索タスク(⾮公開データセット) 既存の密検索⼿法に提案⼿法を適⽤した際の平均の性能向上
  31. 本研究がやったこと 終わりに再び: Q. 密検索システムの性能をどう改善するか? 38 訓練データのクエリを活⽤することで ⽐較的低コスト※ に 既存の密検索システムの性能を改善 ※

    ここでの「⽐較的低コスト」とは,前ページで挙げた代表的な⽅法と⽐較した場合のコスト インデックス構築時 や 検索時 に