Upgrade to Pro — share decks privately, control downloads, hide ads and more …

アドホック検索タスクにおけるモデルマージの効果検証

 アドホック検索タスクにおけるモデルマージの効果検証

More Decks by 兵庫県立大学 山本研究室

Transcript

  1. アドホック検索タスク 2 クエリ𝑞が与えられたときに文書集合𝐷の文書を 検索評価指標(nDCG)を最大化するように ランキングするタスク 数十万 件 数十万 件 数十万

    件 コロナウイルスとは クエリ𝑞 1位 2位 3位 文書の順位付きリスト nDCG 0.6 評価 数十万 件 数十万 件 数十万 件 文書集合𝐷 ・・・ 入力 𝑑1 𝑑2 𝑑𝑛 𝑑3 𝑑8 𝑑2 近年はこのタスクに 大規模言語モデルが 活用されている。
  2. 大規模言語モデルの活用方法 3 各文書についてのスコアを計算する際のベクトル生成に活用 クエリおよび文書の意味を表すベクトルを生成 コロナウイルスとは クエリq 文書集合D ・・・ 入力 コロナウイルスとは

    クエリq クエリベクトルvq 文書ベクトルvd3 f vq , vd3 =0.8 スコア𝑠 𝑞, 𝑑3 内積・コサイン類似度 大規模言語モデル 文書𝑑3 スコア計算 0.8 0.75 0.73 ・・・ 降順にソート 0.03 0.8 0.75 0.73 nDCG@3 0.6 評価 上位3件取得 𝑑3 𝑑8 𝑑2 𝑑6 𝑑3 𝑑8 𝑑2 𝑑3 𝑑1 𝑑2 𝑑𝑛 大規模言語モデル
  3. ドメイン特化検索モデルの必要性 4 一般的な文書でファインチューニングされたモデル は特定ドメインの文書検索性能に限界がある[1]。 ドメイン特化検索モデルが必要 [1] Ji Ma, et al.

    Zero-shot neural passage retrieval via domain-targeted synthetic question generation. arXiv preprintarXiv:2004.14503, 2020. 医療特化検索モデル 日本語特化検索モデル
  4. ドメイン特化検索モデル構築のコスト 5 ドメイン特化検索モデルの構築には、特定ドメインの 適合性判定データを利用して、ファインチューニング することが一般的[1] 適合性判定データ収集コスト GPU計算コスト [1] Ran Xu,

    Wenqi Shi, Yue Yu, Yuchen Zhuang, Yanqiao Zhu, May Dongmei Wang,Joyce C. Ho, Chao Zhang, and Carl Yang: BMRetriever: Tuning LargeLanguage Models as Better Biomedical Text Retrievers, In Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, pp. 22234–22254, 2024
  5. モデルマージ 6 複数のモデルをマージして、新たなモデルを作る動きが ある。(モデルマージ) Shah, Viraj, et al. "Ziplora: Any

    subject in any style by effectively merging loras." European Conference on Computer Vision. Springer, Cham, 2025. YU, Le, et al. Language models are super mario: Absorbing abilities from homologous models as a free lunch. In: Forty-first International Conference on Machine Learning. 2024. 本物の犬とフィギュアを統合 数学能力とコーディング能力を持つLLM モデルマージを検索タスクに応用する研究はまだ無い。→検証
  6. マージ元モデル(医療ドメイン) 11 検索モデル[1] • intfloat/e5-mistral-7b-instruct • Mistralを埋め込みタスク用にファインチュー ニングしたバイエンコーダモデル。多くの検 索タスクベンチマークで上位にランクイン 医療特化モデル[2]

    • BioMistral/BioMistral-7B • Mistralを医療文書で継続事前学習 • 検索能力は持たない。 [2] Labrak, Yanis, et al. "Biomistral: A collection of open-source pretrained large language models for medical domains." arXiv preprint arXiv:2402.10373 (2024). [1] L. Wang, et al. Improving Text Embeddings with Large Language Models. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics, pp. 11897–11916, 2024. どちらもMistralベース(Mistralは32個の層で構築されている。)
  7. マージ元モデル(日本語ドメイン) 12 検索モデル[1] • intfloat/e5-mistral-7b-instruct • Mistralを埋め込みタスク用にファインチュー ニングしたバイエンコーダモデル。多くの検 索タスクベンチマークで上位にランクイン 日本語特化モデル

    • stabilityai/japanese-stablelm-base-gamma-7b • Mistralを日本語文書で継続事前学習 • 検索能力は持たない。 [1] L. Wang, et al. Improving Text Embeddings with Large Language Models. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics, pp. 11897–11916, 2024.
  8. マージ方法 13 線形補間(linear) M.Wortsman, et al. "Model soups: averaging weights

    of multiple fine-tuned models improves accuracy without increasing inference time." in International conference on machine learning,pp.23965-23998,2022. 𝛼𝜃(1) + 1 − 𝛼 𝜃(2) = 𝜃(𝑛𝑒𝑤) 1 16 17 32 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 𝜃(1) 𝜃(2) 𝜃(𝑛𝑒𝑤)
  9. マージ方法 14 線形補間(linear) 𝛼𝜃 𝑙𝑜𝑤𝑒𝑟 (1) + 1 − 𝛼

    𝜃 𝑙𝑜𝑤𝑒𝑟 (2) = 𝜃 𝑙𝑜𝑤𝑒𝑟 (𝑛𝑒𝑤) 0.5 ∗ 0.4 + 1 − 0.5 ∗ 0.2 = 0.3 例: 𝛼 = 0.5のとき 1~16層目 すべてMistralベース 1 16 17 32 0.4 0.2 0.3 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・
  10. マージ方法 15 線形補間(linear) 𝛽𝜃𝑢𝑝𝑝𝑒𝑟 (1) + 1 − 𝛽 𝜃𝑢𝑝𝑝𝑒𝑟

    (2) = 𝜃𝑢𝑝𝑝𝑒𝑟 (𝑛𝑒𝑤) 1 ∗ 0.4 + 1 − 1 ∗ 0.6 = 0.4 例: 𝛽 = 1のとき 17~32層目 すべてMistralベース 1 16 17 32 0.4 0.6 0.4 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ※マージ元検索モデルの重みを活用している。
  11. マージ方法 16 線形補間(linear) 𝜃 𝑙𝑜𝑤𝑒𝑟 (𝑛𝑒𝑤) = 𝛼𝜃 𝑙𝑜𝑤𝑒𝑟 (1)

    + 1 − 𝛼 𝜃 𝑙𝑜𝑤𝑒𝑟 (2) 𝜃𝑢𝑝𝑝𝑒𝑟 (𝑛𝑒𝑤) = 𝛽𝜃𝑢𝑝𝑝𝑒𝑟 (1) + 1 − 𝛽 𝜃𝑢𝑝𝑝𝑒𝑟 (2) 1~16層目 17~32層目 ・ 𝛼および𝛽をグリッドサーチして各モデルの性能を比較する。 (0, 0.25, 0.5, 0.75, 1.0をグリッドサーチ対象とし、計25種類の組み合わせで比較) ・ 𝛼および𝛽がともに1のモデルは単体の検索モデルであることを意味する。 これがこの実験のベースライン マージモデルの重み 検索モデルの重み ドメイン特化モデルの重み
  12. テストコレクション(医療ドメイン) 17 テストコレクション名 • beir/nfcorpus/test タスク • Nutrition-Facts.orgから収集されたクエリ に適合する生物医学文献を取得する。 クエリ

    • 323件 • Nutrition-Facts.orgから収集 文書 • 3,633件 • 生物医学文献 • Do Cholesterol Statin Drugs Cause Breast Cancer? • 訳)コレステロールス タチン薬は乳がんを 引き起こしますか? クエリ例
  13. テストコレクション(医療ドメイン) 18 テストコレクション名 • clinicaltrials/2021/trec-ct-2021 タスク • クエリである患者の情報に適合する臨床 試験を取得する。 クエリ

    • 75件 • 患者の情報 文書 • 26,162件 • 臨床試験の情報 • 適合性判定がついた文書に絞っている。 • Patient is a 45-year-old man with a history of anaplastic astrocytoma of the spine complicated by severe lower extremity weakness and urinary retention s/p Foley catheter, high-dose steroids, hypertension, and chronic pain. The tumor is located in the T-L spine, unresectable anaplastic astrocytoma s/p radiation. Complicated by progressive lower extremity weakness and urinary retention. Patient initially presented with RLE weakness where his right knee gave out with difficulty walking and right anterior thigh numbness. MRI showed a spinal cord conus mass which was biopsied and found to be anaplastic astrocytoma. Therapy included field radiation t10- l1 followed by 11 cycles of temozolomide 7 days on and 7 days off. This was followed by CPT-11 Weekly x4 with Avastin Q2 weeks/ 2 weeks rest and repeat cycle. クエリ例
  14. テストコレクション(日本語ドメイン) 19 テストコレクション名 • miracl/ja/dev タスク • クエリである質問に適合するwikipediaの パッセージを取得する。 クエリ

    • 860件 • 一般的な質問 • 歴史的な出来事、科学的事実、文化的 な話題等 文書 • 8,066件 • Wikipedia • 適合性判定がついた文書に絞っている。 • ダン ダニエル・ジャ ドソン・キャラハン の出身はどこ クエリ例
  15. テストコレクション(日本語ドメイン) 20 テストコレクション名 • JQaRA タスク • クエリである質問に適合するWikipedia のパッセージをクエリごとに与えられる 100件の候補から取得する。

    クエリ • 1,667件 • JAQKET(日本語QAデータセット)の質 問データ 文書 • 100×1,667件 • Wikipedia • 摂氏ではマイナス273.15 度にあたる、全ての原子 の振動が停止する最も低 い温度を何というでしょう? クエリ例
  16. 結果(医療ドメイン:nfcorpus) 21 1.00 0.75 0.50 0.25 0 1.00 0.3902 0.4059

    0.3963 0.2695 0.0149 0.75 0.3888 0.4086 0.3889 0.2076 0.0230 0.50 0.3868 0.4057 0.3626 0.0939 0.0186 0.25 0.3717 0.3757 0.3058 0.0284 0.0125 0 0.2516 0.2163 0.2445 0.0199 0.0149 nDCG@10 𝜃 𝑙𝑜𝑤𝑒𝑟 (𝑛𝑒𝑤) = 𝛼𝜃 𝑙𝑜𝑤𝑒𝑟 (1) + 1 − 𝛼 𝜃 𝑙𝑜𝑤𝑒𝑟 (2) 𝜃𝑢𝑝𝑝𝑒𝑟 (𝑛𝑒𝑤) = 𝛽𝜃𝑢𝑝𝑝𝑒𝑟 (1) + 1 − 𝛽 𝜃𝑢𝑝𝑝𝑒𝑟 (2) 1~16層目 17~32層目 (𝜃. (1):検索モデルの重み、𝜃. (2):医療特化モデルの重み、 𝜃. (𝑛𝑒𝑤):マージモデルの重み、𝛼,𝛽:混ぜ合わせのハイパーパラメタ) 検索モデル重視 医療モデル重視 検索モデル重視 医療モデル重視 𝜶 𝜷
  17. 結果(医療ドメイン:nfcorpus) 22 1.00 0.75 0.50 0.25 0 1.00 0.3902 0.4059

    0.3963 0.2695 0.0149 0.75 0.3888 0.4086 0.3889 0.2076 0.0230 0.50 0.3868 0.4057 0.3626 0.0939 0.0186 0.25 0.3717 0.3757 0.3058 0.0284 0.0125 0 0.2516 0.2163 0.2445 0.0199 0.0149 nDCG@10 𝜃 𝑙𝑜𝑤𝑒𝑟 (𝑛𝑒𝑤) = 1 ∗ 𝜃 𝑙𝑜𝑤𝑒𝑟 (1) + 1 − 1 𝜃 𝑙𝑜𝑤𝑒𝑟 (2) 𝜃𝑢𝑝𝑝𝑒𝑟 (𝑛𝑒𝑤) = 1 ∗ 𝜃𝑢𝑝𝑝𝑒𝑟 (1) + 1 − 1 𝜃𝑢𝑝𝑝𝑒𝑟 (2) 1~16層目 17~32層目 (𝜃. (1):検索モデルの重み、𝜃. (2):医療特化モデルの重み、 𝜃. (𝑛𝑒𝑤):マージモデルの重み、𝛼,𝛽:混ぜ合わせのハイパーパラメタ) 𝜶 𝜷 検索モデル重視 医療モデル重視 検索モデル重視 医療モデル重視
  18. 結果(医療ドメイン:nfcorpus) 23 1.00 0.75 0.50 0.25 0 1.00 0.3902 0.4059

    0.3963 0.2695 0.0149 0.75 0.3888 0.4086 0.3889 0.2076 0.0230 0.50 0.3868 0.4057 0.3626 0.0939 0.0186 0.25 0.3717 0.3757 0.3058 0.0284 0.0125 0 0.2516 0.2163 0.2445 0.0199 0.0149 nDCG@10 𝜃 𝑙𝑜𝑤𝑒𝑟 (𝑛𝑒𝑤) = 0.75 ∗ 𝜃 𝑙𝑜𝑤𝑒𝑟 (1) + 1 − 0.75 𝜃 𝑙𝑜𝑤𝑒𝑟 (2) 𝜃𝑢𝑝𝑝𝑒𝑟 (𝑛𝑒𝑤) = 1 ∗ 𝜃𝑢𝑝𝑝𝑒𝑟 (1) + 1 − 1 𝜃𝑢𝑝𝑝𝑒𝑟 (2) 1~16層目 17~32層目 (𝜃. (1):検索モデルの重み、𝜃. (2):医療特化モデルの重み、 𝜃. (𝑛𝑒𝑤):マージモデルの重み、𝛼,𝛽:混ぜ合わせのハイパーパラメタ) 𝜶 𝜷 検索モデル重視 医療モデル重視 検索モデル重視 医療モデル重視
  19. 結果(医療ドメイン:nfcorpus) 24 1.00 0.75 0.50 0.25 0 1.00 0.3902 0.4059

    0.3963 0.2695 0.0149 0.75 0.3888 0.4086 0.3889 0.2076 0.0230 0.50 0.3868 0.4057 0.3626 0.0939 0.0186 0.25 0.3717 0.3757 0.3058 0.0284 0.0125 0 0.2516 0.2163 0.2445 0.0199 0.0149 nDCG@10 𝜃 𝑙𝑜𝑤𝑒𝑟 (𝑛𝑒𝑤) = 0.5 ∗ 𝜃 𝑙𝑜𝑤𝑒𝑟 (1) + 1 − 0.5 𝜃 𝑙𝑜𝑤𝑒𝑟 (2) 𝜃𝑢𝑝𝑝𝑒𝑟 (𝑛𝑒𝑤) = 1 ∗ 𝜃𝑢𝑝𝑝𝑒𝑟 (1) + 1 − 1 𝜃𝑢𝑝𝑝𝑒𝑟 (2) 1~16層目 17~32層目 (𝜃. (1):検索モデルの重み、𝜃. (2):医療特化モデルの重み、 𝜃. (𝑛𝑒𝑤):マージモデルの重み、𝛼,𝛽:混ぜ合わせのハイパーパラメタ) 𝜶 𝜷 検索モデル重視 医療モデル重視 検索モデル重視 医療モデル重視
  20. 結果(医療ドメイン:nfcorpus) 25 1.00 0.75 0.50 0.25 0 1.00 0.3902 0.4059

    0.3963 0.2695 0.0149 0.75 0.3888 0.4086 0.3889 0.2076 0.0230 0.50 0.3868 0.4057 0.3626 0.0939 0.0186 0.25 0.3717 0.3757 0.3058 0.0284 0.0125 0 0.2516 0.2163 0.2445 0.0199 0.0149 nDCG@10 𝜃 𝑙𝑜𝑤𝑒𝑟 (𝑛𝑒𝑤) = 0.75 ∗ 𝜃 𝑙𝑜𝑤𝑒𝑟 (1) + 1 − 0.75 𝜃 𝑙𝑜𝑤𝑒𝑟 (2) 𝜃𝑢𝑝𝑝𝑒𝑟 (𝑛𝑒𝑤) = 0.75 ∗ 𝜃𝑢𝑝𝑝𝑒𝑟 (1) + 1 − 0.75 𝜃𝑢𝑝𝑝𝑒𝑟 (2) 1~16層目 17~32層目 (𝜃. (1):検索モデルの重み、𝜃. (2):医療特化モデルの重み、 𝜃. (𝑛𝑒𝑤):マージモデルの重み、𝛼,𝛽:混ぜ合わせのハイパーパラメタ) 𝜶 𝜷 検索モデル重視 医療モデル重視 検索モデル重視 医療モデル重視
  21. 結果(医療ドメイン:nfcorpus) 26 1.00 0.75 0.50 0.25 0 1.00 0.3902 0.4059

    0.3963 0.2695 0.0149 0.75 0.3888 0.4086 0.3889 0.2076 0.0230 0.50 0.3868 0.4057 0.3626 0.0939 0.0186 0.25 0.3717 0.3757 0.3058 0.0284 0.0125 0 0.2516 0.2163 0.2445 0.0199 0.0149 nDCG@10 𝜃 𝑙𝑜𝑤𝑒𝑟 (𝑛𝑒𝑤) = 0.75 ∗ 𝜃 𝑙𝑜𝑤𝑒𝑟 (1) + 1 − 0.75 𝜃 𝑙𝑜𝑤𝑒𝑟 (2) 𝜃𝑢𝑝𝑝𝑒𝑟 (𝑛𝑒𝑤) = 0.5 ∗ 𝜃𝑢𝑝𝑝𝑒𝑟 (1) + 1 − 0.5 𝜃𝑢𝑝𝑝𝑒𝑟 (2) 1~16層目 17~32層目 (𝜃. (1):検索モデルの重み、𝜃. (2):医療特化モデルの重み、 𝜃. (𝑛𝑒𝑤):マージモデルの重み、𝛼,𝛽:混ぜ合わせのハイパーパラメタ) 𝜶 𝜷 検索モデル重視 医療モデル重視 検索モデル重視 医療モデル重視
  22. 結果(医療ドメイン:nfcorpus) 27 1.00 0.75 0.50 0.25 0 1.00 0.3902 0.4059

    0.3963 0.2695 0.0149 0.75 0.3888 0.4086 0.3889 0.2076 0.0230 0.50 0.3868 0.4057 0.3626 0.0939 0.0186 0.25 0.3717 0.3757 0.3058 0.0284 0.0125 0 0.2516 0.2163 0.2445 0.0199 0.0149 nDCG@10 𝜶 𝜷 最大1.84ptの性能向上!! 検索モデル重視 医療モデル重視 検索モデル重視 医療モデル重視
  23. 結果(医療ドメイン:clinicaltrials) 28 1.00 0.75 0.50 0.25 0 1.00 0.5604 0.5843

    0.5578 0.3137 0.0116 0.75 0.5699 0.5874 0.5374 0.1925 0.0190 0.50 0.5764 0.5903 0.4815 0.0889 0.0140 0.25 0.5266 0.5454 0.3807 0.0256 0.0110 0 0.3946 0.4335 0.2974 0.0157 0.0116 nDCG@10 検索モデル重視 医療モデル重視 検索モデル重視 医療モデル重視 𝜶 𝜷 最大2.99ptの性能向上!!
  24. 結果(日本語ドメイン:MIRACL) 29 1.00 0.75 0.50 0.25 0 1.00 0.7549 0.7773

    0.7657 0.6450 0.0135 0.75 0.7582 0.7790 0.7658 0.3120 0.0051 0.50 0.7486 0.7780 0.7541 0.0138 0.0017 0.25 0.7134 0.7497 0.6870 0.0024 0.0008 0 0.4605 0.5593 0.3861 0.0009 0.0006 nDCG@10 検索モデル重視 日本語モデル重視 検索モデル重視 日本語モデル重視 𝜶 𝜷 最大2.41ptの性能向上!!
  25. 結果(日本語ドメイン:JQaRA) 30 1.00 0.75 0.50 0.25 0 1.00 0.6080 0.6437

    0.6389 0.4617 0.2558 0.75 0.6123 0.6464 0.6338 0.2958 0.1551 0.50 0.6047 0.6401 0.6100 0.1347 0.1291 0.25 0.5650 0.6131 0.4888 0.1142 0.1300 0 0.3344 0.4438 0.2403 0.1301 0.1343 nDCG@10 検索モデル重視 日本語モデル重視 検索モデル重視 日本語モデル重視 𝜶 𝜷 最大3.84ptの性能向上!!
  26. 考察 32 ・検索モデルに比重を置くハイパーパラメータ設定のとき、 検索性能が向上する場合が多い。 1.00 0.75 0.50 0.25 0 1.00

    0.3902 0.4059 0.3963 0.2695 0.0149 0.75 0.3888 0.4086 0.3889 0.2076 0.0230 0.50 0.3868 0.4057 0.3626 0.0939 0.0186 0.25 0.3717 0.3757 0.3058 0.0284 0.0125 0 0.2516 0.2163 0.2445 0.0199 0.0149 nDCG@10 検索モデル重視 医療モデル重視 検索モデル重視 医療モデル重視 𝜶 𝜷 検索モデル:主要な役割 ドメイン特化モデル:専門的な知識や語彙を理解する補助的な役割
  27. 考察 33 α = 1.00, 𝛽 = 0のとき、 nDCG@10 =

    0.2516 α = 0, 𝛽 = 1.00のとき、 nDCG@10 = 0.0149 マージ元検索モデルの1層目から16層目が、検索能力に重要な 役割を果たしている可能性がある。 1.00 0.75 0.50 0.25 0 1.00 0.3902 0.4059 0.3963 0.2695 0.0149 0.75 0.3888 0.4086 0.3889 0.2076 0.0230 0.50 0.3868 0.4057 0.3626 0.0939 0.0186 0.25 0.3717 0.3757 0.3058 0.0284 0.0125 0 0.2516 0.2163 0.2445 0.0199 0.0149 nDCG@10 NFCorpus 検索モデル重視 医療モデル重視 検索モデル重視 医療モデル重視 𝜶 𝜷
  28. まとめと今後 34 まとめ • モデルマージによりドメイン特化検索モデルの構築が 可能か検証 • 日本語・医療ドメインでの検索性能向上 今後 •

    進化的モデルマージによるハイパーパラメータ設定の 自動化 • 法律、金融など幅広いドメインでの検証 • 線形結合以外のマージ手法(SLERP,TIESなど)での検証
  29. まとめと今後 36 まとめ • モデルマージによりドメイン特化検索モデルの構築が 可能か検証 • 日本語・医療ドメインでの検索性能向上 今後 •

    進化的モデルマージによるハイパーパラメータ設定の 自動化 • 法律、金融など幅広いドメインでの検証 • 線形補間以外のマージ手法(SLERP,TIESなど)での検証