Evolutionary Optimization of Model Merging Recipes

by Toma Tanaka

Slide 1

Slide 1 text

田中冬馬 2024/3/25 ShibuyAI No.6

Slide 2

Slide 2 text

株式会社ブレインパッドデータサイエンティストとしてマーケティング分析，広告文の自動生成などの自然言語処理の業務に従事 AutoRes 松尾研発「研究する人工知能」を作るプロジェクト https://sites.google.com/view/automated-research/home その他の活動 LLM 関連で論文執筆など @fuyu_quant 自己紹介 2

Slide 3

Slide 3 text

概要 SakanaAI の研究複数の学習済みモデルから自動で性能の良いモデルを生成する進化的モデルマージ (Evolutionary Model Merge) という手法を提案ファインチューニングはしていない進化的モデルマージによって作成した7B や10B のLLM は「日本語での数学能力」や「汎用的な日本語能力」で70B のモデルを超える性能を達成 LLM とVLM をもとに作成したVLM も高い精度を達成進化的モデルマージは拡散モデルに対しても適用可能 3 ※SakanaAI ：元Google のAI の研究者であるLlion Jones 氏とDavid Ha 氏によって東京に設立

Slide 4

Slide 4 text

前提知識 4 Model Merging 複数の事前学習済みモデルを組み合わせることで，単一のタスクに特化したモデルの性能を超える汎用的なモデルを生成する手法主な手法 Task Vector algorithms... タスクベクトルを使い新しいモデルを作成する手法 Task Arithmetic TIES DARE SLERP 二つモデルのパラメータを使い球面線形補間する手法 Frankenmerging 複数のモデルから異なるレイヤーを積み重ねて新しいモデルを作成する手法 MoE モデルマージの手法としてのMoE 「Model Merging: MoE, Frankenmerging, SLERP, and Task Vector Algorithms 」の記事の内容をもとにまとめています https://deci.ai/blog/model-merging-moe-frankenmerging-slerp-and-task-vector-algorithms/

Slide 5

Slide 5 text

背景・課題・主題 5

Slide 6

Slide 6 text

背景・課題・主題背景 Model Merging の手法の一つであるモデルスープは，分布シフトに対しても良い汎化性能を示すことが理論的，実証的研究で明らかになっている． Model Merging は追加の学習なしに高性能なモデルを作成でき，Open LLM Leaderboard ではModel Merging によって作成されたモデルが上位を占めている課題 Model Merging はモデル作成者の直感に依存しており，体系的なアプローチが存在しない．主題既存のLLM,VLM や拡散モデルから自動で性能の高いモデルを生成する手法である進化的モデルマージ(Evolutionary Model Merge) を提案 6 ※Open LLM Leaderboard ．．．HuggingFace の公開されているLLM の性能のリーダーボード apendix にリンクを記載

Slide 7

Slide 7 text

手法 7

Slide 8

Slide 8 text

手法 8 パラメータ空間でのモデルマージデータフロー空間でもモデルマージ進化的モデルマージのモデル作成方法進化的モデルマージの処理

Slide 9

Slide 9 text

パラメータ空間でのモデルマージ 9 複数のモデルの重みを数値的にマージし，新しいモデルの重みとする以下ではBlock A-1 とBlock B-2 のパラメータの重みからBlock C-1 のパラメータの重みを作成している引用元：https://sakana.ai/evolutionary-model-merge-jp/

Slide 10

Slide 10 text

データフロー空間でもモデルマージ 10 引用元：https://sakana.ai/evolutionary-model-merge-jp/ 複数の既存モデルのレイヤーを選択し並び替える方法以下ではModel A とModel B からレイヤーごと重みを抜き出し，それを組み合わせることで新しいモデルを作成している

Slide 11

Slide 11 text

進化的モデルマージのモデル作成方法 11 引用元：https://sakana.ai/evolutionary-model-merge-jp/ パラメータ空間でのモデルマージとデータフロー空間でのモデルマージを使いモデルを作成する

Slide 12

Slide 12 text

進化的モデルマージの処理以下の処理を数百世代に渡り繰り返すベースのモデルをもとにOptuna のCMA-ES を使い複数のモデルを作成 1. 以下の二つのマージ手法を使い複数のモデルを作成するパラメータ空間でのモデルマージデータフロー空間でのモデルマージ作成したモデルの中で最も優れた( 評価指標のスコアが高い) モデルを使い次の世代のベースのモデルとする 2. 上記で作成した中で最もスコアの良いモデルを採用する 12 CMAES( 進化戦略) の解説： https://www.bbo.cs.tsukuba.ac.jp/research-j/cmaes%E9%80%B2%E5%8C%96%E6%88%A6%E7%95%A5%E3%81%AE%E8%A7%A3%E8%AA%AC

Slide 13

Slide 13 text

結果 13

Slide 14

Slide 14 text

結果 14 進化的モデルマージ(Evolutionary Model Merge) により以下の基盤モデルを作成大規模言語モデル（EvoLLM-JP-v1 ）「日本語で数学の問題を解くことができるLLM 」を作成 OSS として公開画像言語モデル（EvoVLM-JP-v1 ）進化的モデルマージによるVLM モデル OSS として公開画像生成モデル（EvoSDXL-JP-v1 ）進化的モデルマージによる拡散モデル公開予定

Slide 15

Slide 15 text

大規模言語モデル（EvoLLM-JP-v1 ）の結果 15 MGSM-JA,JP-LMEH で7B のモデルでLlama2 などの70B モデルを超える性能 MGSM-JA... 日本語での数学能力 JP-LMEH... 一般的な日本語能力引用元：https://arxiv.org/abs/2403.13187 PS... パラメータ空間 DFS... データフロー空間 PS+DFS... 両方

Slide 16

Slide 16 text

大規模言語モデル（EvoLLM-JP-v1 ）の結果 16 引用元：https://arxiv.org/abs/2403.13187 明示的に最適化を行なっていない評価指標でも高い性能を達成している

Slide 17

Slide 17 text

画像言語モデル（EvoVLM-JP-v1 ）の結果 17 日本語のLLM とVLM をマージすることで高い性能となっている JA-VLM-Bench-In-the-Wild... 日本の文化に特化したコンテンツを適切に扱える能力を評価引用元：https://arxiv.org/abs/2403.13187

Slide 18

Slide 18 text

画像生成モデル（EvoSDXL-JP-v1 ）の結果 18 Transformer モデルだけではなく拡散モデルに対しても進化的モデルマージが可能少ないステップ数で生成できるよう最適化することで，高速画像生成モデルの作成が可能引用元：https://sakana.ai/evolutionary-model-merge-jp/

Slide 19

Slide 19 text

まとめ 19

Slide 20

Slide 20 text

概要( 再掲) SakanaAI の研究複数の学習済みモデルから自動で性能の良いモデルを生成する進化的モデルマージ (Evolutionary Model Merge) という手法を提案ファインチューニングはしていない進化的モデルマージによって作成した7B や10B のLLM は「日本語での数学能力」や「汎用的な日本語能力」で70B のモデルを超える性能を達成 LLM とVLM をもとに作成したVLM も高い精度を達成進化的モデルマージは拡散モデルに対しても適用可能 20 ※SakanaAI ：元Google のAI の研究者であるLlion Jones 氏とDavid Ha 氏によって東京に設立

Slide 21

Slide 21 text

No content

Slide 22

Slide 22 text

関連するリンク公式ページ https://sakana.ai/evolutionary-model-merge-jp/ arXiv https://arxiv.org/abs/2403.13187 GitHub https://github.com/SakanaAI/evolutionary-model-merge HuggingFace EvoLLM-JP-v1-7B EvoLLM-JP-v1-10B EvoLLM-JP-A-v1-7B EvoLLM-JP-v1-10B 解説資料【論文要約】Evolutionary Optimization of Model Merging Recipes 【Claude 3 Opus 】解説動画 Paper deep dive: Evolutionary Optimization of Model Merging Recipes Open LLM Leaderboard https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard