Slide 1

Slide 1 text

アドホック検索タスクにおける モデルマージの効果検証 佐々木泰河、山本岳洋、大島裕明(兵庫県立大学) 藤田澄男(LINEヤフー株式会社) 第17回データ工学と情報マネジメントに関するフォーラム(DEIM2025) 1E-05 2025年2月27日

Slide 2

Slide 2 text

アドホック検索タスク 2 クエリ𝑞が与えられたときに文書集合𝐷の文書を 検索評価指標(nDCG)を最大化するように ランキングするタスク 数十万 件 数十万 件 数十万 件 コロナウイルスとは クエリ𝑞 1位 2位 3位 文書の順位付きリスト nDCG 0.6 評価 数十万 件 数十万 件 数十万 件 文書集合𝐷 ・・・ 入力 𝑑1 𝑑2 𝑑𝑛 𝑑3 𝑑8 𝑑2 近年はこのタスクに 大規模言語モデルが 活用されている。

Slide 3

Slide 3 text

大規模言語モデルの活用方法 3 各文書についてのスコアを計算する際のベクトル生成に活用 クエリおよび文書の意味を表すベクトルを生成 コロナウイルスとは クエリq 文書集合D ・・・ 入力 コロナウイルスとは クエリq クエリベクトルvq 文書ベクトルvd3 f vq , vd3 =0.8 スコア𝑠 𝑞, 𝑑3 内積・コサイン類似度 大規模言語モデル 文書𝑑3 スコア計算 0.8 0.75 0.73 ・・・ 降順にソート 0.03 0.8 0.75 0.73 nDCG@3 0.6 評価 上位3件取得 𝑑3 𝑑8 𝑑2 𝑑6 𝑑3 𝑑8 𝑑2 𝑑3 𝑑1 𝑑2 𝑑𝑛 大規模言語モデル

Slide 4

Slide 4 text

ドメイン特化検索モデルの必要性 4 一般的な文書でファインチューニングされたモデル は特定ドメインの文書検索性能に限界がある[1]。 ドメイン特化検索モデルが必要 [1] Ji Ma, et al. Zero-shot neural passage retrieval via domain-targeted synthetic question generation. arXiv preprintarXiv:2004.14503, 2020. 医療特化検索モデル 日本語特化検索モデル

Slide 5

Slide 5 text

ドメイン特化検索モデル構築のコスト 5 ドメイン特化検索モデルの構築には、特定ドメインの 適合性判定データを利用して、ファインチューニング することが一般的[1] 適合性判定データ収集コスト GPU計算コスト [1] Ran Xu, Wenqi Shi, Yue Yu, Yuchen Zhuang, Yanqiao Zhu, May Dongmei Wang,Joyce C. Ho, Chao Zhang, and Carl Yang: BMRetriever: Tuning LargeLanguage Models as Better Biomedical Text Retrievers, In Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, pp. 22234–22254, 2024

Slide 6

Slide 6 text

モデルマージ 6 複数のモデルをマージして、新たなモデルを作る動きが ある。(モデルマージ) Shah, Viraj, et al. "Ziplora: Any subject in any style by effectively merging loras." European Conference on Computer Vision. Springer, Cham, 2025. YU, Le, et al. Language models are super mario: Absorbing abilities from homologous models as a free lunch. In: Forty-first International Conference on Machine Learning. 2024. 本物の犬とフィギュアを統合 数学能力とコーディング能力を持つLLM モデルマージを検索タスクに応用する研究はまだ無い。→検証

Slide 7

Slide 7 text

検索タスクにおけるモデルマージの活用 7 検索モデル ドメイン特化 モデル ドメイン特化 検索モデル ドメイン特化モデルの知識や言語理解能力を 検索モデルに付与 特定ドメインの検索能力向上 ※検索能力は持たない

Slide 8

Slide 8 text

モデルマージのメリット 8 コスト削減 短時間かつ低コストで新たなモデルの構築が可能 既存のファインチューニング済みモデルの重みを活用 適合性判定データ収集コスト・GPU計算コスト削減

Slide 9

Slide 9 text

リサーチクエスチョン 9 モデルマージによりアドホック検索タスク性能を 向上させることができるのか アドホック検索タスク性能を向上させるような マージの方法は何か

Slide 10

Slide 10 text

実験 10 検索モデルと医療特化モデルのマージにより 医療特化検索モデルを作ることができるか 検索モデル (埋め込みモデル) 医療特化モデル 医療特化検索モデル (マージモデル) 検索モデルと日本語特化モデルのマージにより 日本語特化検索モデルを作ることができるか 検索モデル (埋め込みモデル) 日本語特化モデル 日本語特化検索モデル (マージモデル)

Slide 11

Slide 11 text

マージ元モデル(医療ドメイン) 11 検索モデル[1] • intfloat/e5-mistral-7b-instruct • Mistralを埋め込みタスク用にファインチュー ニングしたバイエンコーダモデル。多くの検 索タスクベンチマークで上位にランクイン 医療特化モデル[2] • BioMistral/BioMistral-7B • Mistralを医療文書で継続事前学習 • 検索能力は持たない。 [2] Labrak, Yanis, et al. "Biomistral: A collection of open-source pretrained large language models for medical domains." arXiv preprint arXiv:2402.10373 (2024). [1] L. Wang, et al. Improving Text Embeddings with Large Language Models. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics, pp. 11897–11916, 2024. どちらもMistralベース(Mistralは32個の層で構築されている。)

Slide 12

Slide 12 text

マージ元モデル(日本語ドメイン) 12 検索モデル[1] • intfloat/e5-mistral-7b-instruct • Mistralを埋め込みタスク用にファインチュー ニングしたバイエンコーダモデル。多くの検 索タスクベンチマークで上位にランクイン 日本語特化モデル • stabilityai/japanese-stablelm-base-gamma-7b • Mistralを日本語文書で継続事前学習 • 検索能力は持たない。 [1] L. Wang, et al. Improving Text Embeddings with Large Language Models. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics, pp. 11897–11916, 2024.

Slide 13

Slide 13 text

マージ方法 13 線形補間(linear) M.Wortsman, et al. "Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time." in International conference on machine learning,pp.23965-23998,2022. 𝛼𝜃(1) + 1 − 𝛼 𝜃(2) = 𝜃(𝑛𝑒𝑤) 1 16 17 32 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 𝜃(1) 𝜃(2) 𝜃(𝑛𝑒𝑤)

Slide 14

Slide 14 text

マージ方法 14 線形補間(linear) 𝛼𝜃 𝑙𝑜𝑤𝑒𝑟 (1) + 1 − 𝛼 𝜃 𝑙𝑜𝑤𝑒𝑟 (2) = 𝜃 𝑙𝑜𝑤𝑒𝑟 (𝑛𝑒𝑤) 0.5 ∗ 0.4 + 1 − 0.5 ∗ 0.2 = 0.3 例: 𝛼 = 0.5のとき 1~16層目 すべてMistralベース 1 16 17 32 0.4 0.2 0.3 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・

Slide 15

Slide 15 text

マージ方法 15 線形補間(linear) 𝛽𝜃𝑢𝑝𝑝𝑒𝑟 (1) + 1 − 𝛽 𝜃𝑢𝑝𝑝𝑒𝑟 (2) = 𝜃𝑢𝑝𝑝𝑒𝑟 (𝑛𝑒𝑤) 1 ∗ 0.4 + 1 − 1 ∗ 0.6 = 0.4 例: 𝛽 = 1のとき 17~32層目 すべてMistralベース 1 16 17 32 0.4 0.6 0.4 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ※マージ元検索モデルの重みを活用している。

Slide 16

Slide 16 text

マージ方法 16 線形補間(linear) 𝜃 𝑙𝑜𝑤𝑒𝑟 (𝑛𝑒𝑤) = 𝛼𝜃 𝑙𝑜𝑤𝑒𝑟 (1) + 1 − 𝛼 𝜃 𝑙𝑜𝑤𝑒𝑟 (2) 𝜃𝑢𝑝𝑝𝑒𝑟 (𝑛𝑒𝑤) = 𝛽𝜃𝑢𝑝𝑝𝑒𝑟 (1) + 1 − 𝛽 𝜃𝑢𝑝𝑝𝑒𝑟 (2) 1~16層目 17~32層目 ・ 𝛼および𝛽をグリッドサーチして各モデルの性能を比較する。 (0, 0.25, 0.5, 0.75, 1.0をグリッドサーチ対象とし、計25種類の組み合わせで比較) ・ 𝛼および𝛽がともに1のモデルは単体の検索モデルであることを意味する。 これがこの実験のベースライン マージモデルの重み 検索モデルの重み ドメイン特化モデルの重み

Slide 17

Slide 17 text

テストコレクション(医療ドメイン) 17 テストコレクション名 • beir/nfcorpus/test タスク • Nutrition-Facts.orgから収集されたクエリ に適合する生物医学文献を取得する。 クエリ • 323件 • Nutrition-Facts.orgから収集 文書 • 3,633件 • 生物医学文献 • Do Cholesterol Statin Drugs Cause Breast Cancer? • 訳)コレステロールス タチン薬は乳がんを 引き起こしますか? クエリ例

Slide 18

Slide 18 text

テストコレクション(医療ドメイン) 18 テストコレクション名 • clinicaltrials/2021/trec-ct-2021 タスク • クエリである患者の情報に適合する臨床 試験を取得する。 クエリ • 75件 • 患者の情報 文書 • 26,162件 • 臨床試験の情報 • 適合性判定がついた文書に絞っている。 • Patient is a 45-year-old man with a history of anaplastic astrocytoma of the spine complicated by severe lower extremity weakness and urinary retention s/p Foley catheter, high-dose steroids, hypertension, and chronic pain. The tumor is located in the T-L spine, unresectable anaplastic astrocytoma s/p radiation. Complicated by progressive lower extremity weakness and urinary retention. Patient initially presented with RLE weakness where his right knee gave out with difficulty walking and right anterior thigh numbness. MRI showed a spinal cord conus mass which was biopsied and found to be anaplastic astrocytoma. Therapy included field radiation t10- l1 followed by 11 cycles of temozolomide 7 days on and 7 days off. This was followed by CPT-11 Weekly x4 with Avastin Q2 weeks/ 2 weeks rest and repeat cycle. クエリ例

Slide 19

Slide 19 text

テストコレクション(日本語ドメイン) 19 テストコレクション名 • miracl/ja/dev タスク • クエリである質問に適合するwikipediaの パッセージを取得する。 クエリ • 860件 • 一般的な質問 • 歴史的な出来事、科学的事実、文化的 な話題等 文書 • 8,066件 • Wikipedia • 適合性判定がついた文書に絞っている。 • ダン ダニエル・ジャ ドソン・キャラハン の出身はどこ クエリ例

Slide 20

Slide 20 text

テストコレクション(日本語ドメイン) 20 テストコレクション名 • JQaRA タスク • クエリである質問に適合するWikipedia のパッセージをクエリごとに与えられる 100件の候補から取得する。 クエリ • 1,667件 • JAQKET(日本語QAデータセット)の質 問データ 文書 • 100×1,667件 • Wikipedia • 摂氏ではマイナス273.15 度にあたる、全ての原子 の振動が停止する最も低 い温度を何というでしょう? クエリ例

Slide 21

Slide 21 text

結果(医療ドメイン:nfcorpus) 21 1.00 0.75 0.50 0.25 0 1.00 0.3902 0.4059 0.3963 0.2695 0.0149 0.75 0.3888 0.4086 0.3889 0.2076 0.0230 0.50 0.3868 0.4057 0.3626 0.0939 0.0186 0.25 0.3717 0.3757 0.3058 0.0284 0.0125 0 0.2516 0.2163 0.2445 0.0199 0.0149 nDCG@10 𝜃 𝑙𝑜𝑤𝑒𝑟 (𝑛𝑒𝑤) = 𝛼𝜃 𝑙𝑜𝑤𝑒𝑟 (1) + 1 − 𝛼 𝜃 𝑙𝑜𝑤𝑒𝑟 (2) 𝜃𝑢𝑝𝑝𝑒𝑟 (𝑛𝑒𝑤) = 𝛽𝜃𝑢𝑝𝑝𝑒𝑟 (1) + 1 − 𝛽 𝜃𝑢𝑝𝑝𝑒𝑟 (2) 1~16層目 17~32層目 (𝜃. (1):検索モデルの重み、𝜃. (2):医療特化モデルの重み、 𝜃. (𝑛𝑒𝑤):マージモデルの重み、𝛼,𝛽:混ぜ合わせのハイパーパラメタ) 検索モデル重視 医療モデル重視 検索モデル重視 医療モデル重視 𝜶 𝜷

Slide 22

Slide 22 text

結果(医療ドメイン:nfcorpus) 22 1.00 0.75 0.50 0.25 0 1.00 0.3902 0.4059 0.3963 0.2695 0.0149 0.75 0.3888 0.4086 0.3889 0.2076 0.0230 0.50 0.3868 0.4057 0.3626 0.0939 0.0186 0.25 0.3717 0.3757 0.3058 0.0284 0.0125 0 0.2516 0.2163 0.2445 0.0199 0.0149 nDCG@10 𝜃 𝑙𝑜𝑤𝑒𝑟 (𝑛𝑒𝑤) = 1 ∗ 𝜃 𝑙𝑜𝑤𝑒𝑟 (1) + 1 − 1 𝜃 𝑙𝑜𝑤𝑒𝑟 (2) 𝜃𝑢𝑝𝑝𝑒𝑟 (𝑛𝑒𝑤) = 1 ∗ 𝜃𝑢𝑝𝑝𝑒𝑟 (1) + 1 − 1 𝜃𝑢𝑝𝑝𝑒𝑟 (2) 1~16層目 17~32層目 (𝜃. (1):検索モデルの重み、𝜃. (2):医療特化モデルの重み、 𝜃. (𝑛𝑒𝑤):マージモデルの重み、𝛼,𝛽:混ぜ合わせのハイパーパラメタ) 𝜶 𝜷 検索モデル重視 医療モデル重視 検索モデル重視 医療モデル重視

Slide 23

Slide 23 text

結果(医療ドメイン:nfcorpus) 23 1.00 0.75 0.50 0.25 0 1.00 0.3902 0.4059 0.3963 0.2695 0.0149 0.75 0.3888 0.4086 0.3889 0.2076 0.0230 0.50 0.3868 0.4057 0.3626 0.0939 0.0186 0.25 0.3717 0.3757 0.3058 0.0284 0.0125 0 0.2516 0.2163 0.2445 0.0199 0.0149 nDCG@10 𝜃 𝑙𝑜𝑤𝑒𝑟 (𝑛𝑒𝑤) = 0.75 ∗ 𝜃 𝑙𝑜𝑤𝑒𝑟 (1) + 1 − 0.75 𝜃 𝑙𝑜𝑤𝑒𝑟 (2) 𝜃𝑢𝑝𝑝𝑒𝑟 (𝑛𝑒𝑤) = 1 ∗ 𝜃𝑢𝑝𝑝𝑒𝑟 (1) + 1 − 1 𝜃𝑢𝑝𝑝𝑒𝑟 (2) 1~16層目 17~32層目 (𝜃. (1):検索モデルの重み、𝜃. (2):医療特化モデルの重み、 𝜃. (𝑛𝑒𝑤):マージモデルの重み、𝛼,𝛽:混ぜ合わせのハイパーパラメタ) 𝜶 𝜷 検索モデル重視 医療モデル重視 検索モデル重視 医療モデル重視

Slide 24

Slide 24 text

結果(医療ドメイン:nfcorpus) 24 1.00 0.75 0.50 0.25 0 1.00 0.3902 0.4059 0.3963 0.2695 0.0149 0.75 0.3888 0.4086 0.3889 0.2076 0.0230 0.50 0.3868 0.4057 0.3626 0.0939 0.0186 0.25 0.3717 0.3757 0.3058 0.0284 0.0125 0 0.2516 0.2163 0.2445 0.0199 0.0149 nDCG@10 𝜃 𝑙𝑜𝑤𝑒𝑟 (𝑛𝑒𝑤) = 0.5 ∗ 𝜃 𝑙𝑜𝑤𝑒𝑟 (1) + 1 − 0.5 𝜃 𝑙𝑜𝑤𝑒𝑟 (2) 𝜃𝑢𝑝𝑝𝑒𝑟 (𝑛𝑒𝑤) = 1 ∗ 𝜃𝑢𝑝𝑝𝑒𝑟 (1) + 1 − 1 𝜃𝑢𝑝𝑝𝑒𝑟 (2) 1~16層目 17~32層目 (𝜃. (1):検索モデルの重み、𝜃. (2):医療特化モデルの重み、 𝜃. (𝑛𝑒𝑤):マージモデルの重み、𝛼,𝛽:混ぜ合わせのハイパーパラメタ) 𝜶 𝜷 検索モデル重視 医療モデル重視 検索モデル重視 医療モデル重視

Slide 25

Slide 25 text

結果(医療ドメイン:nfcorpus) 25 1.00 0.75 0.50 0.25 0 1.00 0.3902 0.4059 0.3963 0.2695 0.0149 0.75 0.3888 0.4086 0.3889 0.2076 0.0230 0.50 0.3868 0.4057 0.3626 0.0939 0.0186 0.25 0.3717 0.3757 0.3058 0.0284 0.0125 0 0.2516 0.2163 0.2445 0.0199 0.0149 nDCG@10 𝜃 𝑙𝑜𝑤𝑒𝑟 (𝑛𝑒𝑤) = 0.75 ∗ 𝜃 𝑙𝑜𝑤𝑒𝑟 (1) + 1 − 0.75 𝜃 𝑙𝑜𝑤𝑒𝑟 (2) 𝜃𝑢𝑝𝑝𝑒𝑟 (𝑛𝑒𝑤) = 0.75 ∗ 𝜃𝑢𝑝𝑝𝑒𝑟 (1) + 1 − 0.75 𝜃𝑢𝑝𝑝𝑒𝑟 (2) 1~16層目 17~32層目 (𝜃. (1):検索モデルの重み、𝜃. (2):医療特化モデルの重み、 𝜃. (𝑛𝑒𝑤):マージモデルの重み、𝛼,𝛽:混ぜ合わせのハイパーパラメタ) 𝜶 𝜷 検索モデル重視 医療モデル重視 検索モデル重視 医療モデル重視

Slide 26

Slide 26 text

結果(医療ドメイン:nfcorpus) 26 1.00 0.75 0.50 0.25 0 1.00 0.3902 0.4059 0.3963 0.2695 0.0149 0.75 0.3888 0.4086 0.3889 0.2076 0.0230 0.50 0.3868 0.4057 0.3626 0.0939 0.0186 0.25 0.3717 0.3757 0.3058 0.0284 0.0125 0 0.2516 0.2163 0.2445 0.0199 0.0149 nDCG@10 𝜃 𝑙𝑜𝑤𝑒𝑟 (𝑛𝑒𝑤) = 0.75 ∗ 𝜃 𝑙𝑜𝑤𝑒𝑟 (1) + 1 − 0.75 𝜃 𝑙𝑜𝑤𝑒𝑟 (2) 𝜃𝑢𝑝𝑝𝑒𝑟 (𝑛𝑒𝑤) = 0.5 ∗ 𝜃𝑢𝑝𝑝𝑒𝑟 (1) + 1 − 0.5 𝜃𝑢𝑝𝑝𝑒𝑟 (2) 1~16層目 17~32層目 (𝜃. (1):検索モデルの重み、𝜃. (2):医療特化モデルの重み、 𝜃. (𝑛𝑒𝑤):マージモデルの重み、𝛼,𝛽:混ぜ合わせのハイパーパラメタ) 𝜶 𝜷 検索モデル重視 医療モデル重視 検索モデル重視 医療モデル重視

Slide 27

Slide 27 text

結果(医療ドメイン:nfcorpus) 27 1.00 0.75 0.50 0.25 0 1.00 0.3902 0.4059 0.3963 0.2695 0.0149 0.75 0.3888 0.4086 0.3889 0.2076 0.0230 0.50 0.3868 0.4057 0.3626 0.0939 0.0186 0.25 0.3717 0.3757 0.3058 0.0284 0.0125 0 0.2516 0.2163 0.2445 0.0199 0.0149 nDCG@10 𝜶 𝜷 最大1.84ptの性能向上!! 検索モデル重視 医療モデル重視 検索モデル重視 医療モデル重視

Slide 28

Slide 28 text

結果(医療ドメイン:clinicaltrials) 28 1.00 0.75 0.50 0.25 0 1.00 0.5604 0.5843 0.5578 0.3137 0.0116 0.75 0.5699 0.5874 0.5374 0.1925 0.0190 0.50 0.5764 0.5903 0.4815 0.0889 0.0140 0.25 0.5266 0.5454 0.3807 0.0256 0.0110 0 0.3946 0.4335 0.2974 0.0157 0.0116 nDCG@10 検索モデル重視 医療モデル重視 検索モデル重視 医療モデル重視 𝜶 𝜷 最大2.99ptの性能向上!!

Slide 29

Slide 29 text

結果(日本語ドメイン:MIRACL) 29 1.00 0.75 0.50 0.25 0 1.00 0.7549 0.7773 0.7657 0.6450 0.0135 0.75 0.7582 0.7790 0.7658 0.3120 0.0051 0.50 0.7486 0.7780 0.7541 0.0138 0.0017 0.25 0.7134 0.7497 0.6870 0.0024 0.0008 0 0.4605 0.5593 0.3861 0.0009 0.0006 nDCG@10 検索モデル重視 日本語モデル重視 検索モデル重視 日本語モデル重視 𝜶 𝜷 最大2.41ptの性能向上!!

Slide 30

Slide 30 text

結果(日本語ドメイン:JQaRA) 30 1.00 0.75 0.50 0.25 0 1.00 0.6080 0.6437 0.6389 0.4617 0.2558 0.75 0.6123 0.6464 0.6338 0.2958 0.1551 0.50 0.6047 0.6401 0.6100 0.1347 0.1291 0.25 0.5650 0.6131 0.4888 0.1142 0.1300 0 0.3344 0.4438 0.2403 0.1301 0.1343 nDCG@10 検索モデル重視 日本語モデル重視 検索モデル重視 日本語モデル重視 𝜶 𝜷 最大3.84ptの性能向上!!

Slide 31

Slide 31 text

考察 31 医療および日本語ドメインで、検索モデルとドメイン特化モデル をマージすることにより、検索性能が向上する場合がある。 検索モデル (埋め込みモデル) 医療特化モデル 医療特化検索モデル (マージモデル) 検索モデル (埋め込みモデル) 日本語特化モデル 日本語特化検索モデル (マージモデル)

Slide 32

Slide 32 text

考察 32 ・検索モデルに比重を置くハイパーパラメータ設定のとき、 検索性能が向上する場合が多い。 1.00 0.75 0.50 0.25 0 1.00 0.3902 0.4059 0.3963 0.2695 0.0149 0.75 0.3888 0.4086 0.3889 0.2076 0.0230 0.50 0.3868 0.4057 0.3626 0.0939 0.0186 0.25 0.3717 0.3757 0.3058 0.0284 0.0125 0 0.2516 0.2163 0.2445 0.0199 0.0149 nDCG@10 検索モデル重視 医療モデル重視 検索モデル重視 医療モデル重視 𝜶 𝜷 検索モデル:主要な役割 ドメイン特化モデル:専門的な知識や語彙を理解する補助的な役割

Slide 33

Slide 33 text

考察 33 α = 1.00, 𝛽 = 0のとき、 nDCG@10 = 0.2516 α = 0, 𝛽 = 1.00のとき、 nDCG@10 = 0.0149 マージ元検索モデルの1層目から16層目が、検索能力に重要な 役割を果たしている可能性がある。 1.00 0.75 0.50 0.25 0 1.00 0.3902 0.4059 0.3963 0.2695 0.0149 0.75 0.3888 0.4086 0.3889 0.2076 0.0230 0.50 0.3868 0.4057 0.3626 0.0939 0.0186 0.25 0.3717 0.3757 0.3058 0.0284 0.0125 0 0.2516 0.2163 0.2445 0.0199 0.0149 nDCG@10 NFCorpus 検索モデル重視 医療モデル重視 検索モデル重視 医療モデル重視 𝜶 𝜷

Slide 34

Slide 34 text

まとめと今後 34 まとめ • モデルマージによりドメイン特化検索モデルの構築が 可能か検証 • 日本語・医療ドメインでの検索性能向上 今後 • 進化的モデルマージによるハイパーパラメータ設定の 自動化 • 法律、金融など幅広いドメインでの検証 • 線形結合以外のマージ手法(SLERP,TIESなど)での検証

Slide 35

Slide 35 text

進化的モデルマージ 35 ・Sakana AIが提案[1] ・ユーザが指定した能力に長けた新しい基盤モデル を進化的アルゴリズムを用いて、自動的に作成する マージ方法 ・従来のマージが人間の直感に頼っていた問題を解決 [1] Akiba, Takuya, et al. Evolutionary optimization of model merging recipes. Nature Machine Intelligence, 2025, pp.1-10.

Slide 36

Slide 36 text

まとめと今後 36 まとめ • モデルマージによりドメイン特化検索モデルの構築が 可能か検証 • 日本語・医療ドメインでの検索性能向上 今後 • 進化的モデルマージによるハイパーパラメータ設定の 自動化 • 法律、金融など幅広いドメインでの検証 • 線形補間以外のマージ手法(SLERP,TIESなど)での検証