自然着想型アプローチによる基盤モデルの研究開発 (2025/01/23, 第35回ステアラボ人工知能セミナー)

Slide 1

Slide 1 text

自然着想型アプローチによる基盤モデルの研究開発第35回ステアラボ人工知能セミナー 2025/01/23 秋葉拓哉 0

Slide 2

Slide 2 text

会社紹介：Sakana AI Llion Jones, CTO 元 Google ”Transformer” 論文著者伊藤錬, COO Co-founders David Ha, CEO 元 Google Brain Tokyo Head

Slide 3

Slide 3 text

会社紹介：Sakana AI モデルを大きくデータを大きく学習時間を大きく他にもやるべきことがあるはず

Slide 4

Slide 4 text

会社紹介：Sakana AI “The core research focus of Sakana AI is in applying nature-inspired ideas, such as evolution and collective intelligence, to improve foundation models’ performance”

Slide 5

Slide 5 text

No content

Slide 6

Slide 6 text

No content

Slide 7

Slide 7 text

No content

Slide 8

Slide 8 text

目次 1. モデルマージ 2. 進化的モデルマージ [Akiba-Shing-Tang-Sun-Ha, 2024] 3. 多様化とモデルマージ [Kuroki-Nakamura-Akiba-Tang, 2024]

Slide 9

Slide 9 text

進化的モデルマージ画像はOmar Sansevieroさん作

Slide 10

Slide 10 text

モデルマージとは？ LLMnew = Merge(LLM1, LLM2, LLM3, … ) 2つ以上のモデルを元に1つの新たなモデルを作るアプローチ2つ 1. 重みレベルのモデルマージ 2. レイヤーレベルのモデルマージ

Slide 11

Slide 11 text

アプローチ1 重みレベルのモデルマージ ↑動画はこちら：https://sakana.ai/evolutionary-model-merge-jp/

Slide 12

Slide 12 text

アプローチ1 重みレベルのモデルマージ手法1: 線形補間 𝜃new = 𝛼𝜃1 + 1 − 𝛼 𝜃2 （𝜃1 , 𝜃2 , 𝜃new：LLMの重み、 𝛼 ：混ぜ合わせの設定パラメタ） • 既存の重みの線形補完で新たなモデルを作る • 同じアーキテクチャのモデル同士でないとできない • 同じbase modelからのfine-tuneでないと基本成功しない

Slide 13

Slide 13 text

• 同様に、重みをelement-wiseでマージする手法がいくつかある • 大体、線形補間のちょい発展版みたいなもんだと思っておけば一旦OK [2203.05482] Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time [2212.04089] Editing Models with Task Arithmetic [2306.01708] TIES-Merging: Resolving Interference When Merging Models [2311.03099] Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch [2403.19522] Model Stock: All we need is just a few fine-tuned models アプローチ1 重みレベルのモデルマージ

Slide 14

Slide 14 text

実例： •Open LLM Leaderboard を見れば無数にある •例えば Mistral-7B-Merge-14-v0.1は Mistral 7Bのfine-tuneを14個マージ（そしてこいつが更にマージされ別のモデルが作られているというカオス） •Stable DiffusionのLoRAのマージとかも同じ話アプローチ1 重みレベルのモデルマージ

Slide 15

Slide 15 text

アプローチ2 レイヤーレベルのモデルマージ ↑動画はこちら：https://sakana.ai/evolutionary-model-merge-jp/

Slide 16

Slide 16 text

• 重み自体は弄らず、レイヤーを重ね合わせる（レイヤー = transformer block） • パラメータ数が増減するアプローチ2 レイヤーレベルのモデルマージ

Slide 17

Slide 17 text

論文 • [2312.15166] SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling • [2401.02415] LLaMA Pro: Progressive LLaMA with Block Expansion モデル • alpindale/goliath-120b • cognitivecomputations/MegaDolphin-120b • Undi95/Mistral-11B-v0.1 アプローチ2 レイヤーレベルのモデルマージ

Slide 18

Slide 18 text

人は何を求めてモデルをマージする？ ①アンサンブル（的な何か）モデルをマージするとOpen LLM Leaderboardのスコアが上がる。しかも学習不要で新しいモデルが作れる。皆こぞって謎のマージを作りLeaderboardに提出。（※ただし後述の通りこれはめっちゃLeaderboardにoverfitしてると思う） [1803.05407] Averaging Weights Leads to Wider Optima and Better Generalization [2203.05482] Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time

Slide 19

Slide 19 text

人は何を求めてモデルをマージする？ ②複数の能力を統合 https://github.com/mkshing/ziplora-pytorch

Slide 20

Slide 20 text

人は何を求めてモデルをマージする？ ②複数の能力を統合 [2311.03099] Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch [2310.04799] Chat Vector: A Simple Approach to Equip LLMs with Instruction Following and Model Alignment in New Languages

Slide 21

Slide 21 text

日本での盛り上がりは今一つ？英語圏では無数にマージモデルが日々生み出されている一方、日本語圏ではそこまででもない。何故？理由 • マージ元のモデルが少ない（1つの日本語base modelからの派生に限ると） • マージが難しい（より広い範囲のモデルを使おうとすると）

Slide 22

Slide 22 text

日本での盛り上がりは今一つ？何故マージが難しい？ • 多くの日本語LLMは英語LLMからの継続事前学習で作られている • 継続事前学習では数十B〜数百Bトークンの学習が行われ、元の英語LLMの重みからだいぶ離れてしまっている DAREの論文でもCodeLlama (Llama-2から500B token学習) のマージが難しい話が同様に議論されている実際、私も最初は手動でマージのレシピを探ろうとしましたが、なかなか上手くいかない…… → 自動探索！

Slide 23

Slide 23 text

進化的モデルマージ

Slide 24

Slide 24 text

No content

Slide 25

Slide 25 text

進化的モデルマージ ↑動画はこちら：https://sakana.ai/evolutionary-model-merge-jp/

Slide 26

Slide 26 text

進化的アルゴリズム A Visual Guide to Evolution Strategies https://blog.otoro.net/2017/10/29/visual-evolution-strategies/

Slide 27

Slide 27 text

進化的アルゴリズム HTML5 Genetic Algorithm 2D Car Thingy https://rednuht.org/genetic_cars_2/

Slide 28

Slide 28 text

結果1: 日本語数学LLM

Slide 29

Slide 29 text

結果1: 日本語数学LLM 日本語LLM + 英語数学LLM → 日本語数学LLM 元の「日本語能力」と「英語数学能力」を維持出来ただけでなく、その両方を日本語数学能力として組合せて発揮出来る

Slide 30

Slide 30 text

結果2: 日本語VLM (Vision Language Model)

Slide 31

Slide 31 text

結果2: 日本語VLM (Vision Language Model) 前提知識 LLaVaというVLMは、vision encoder (ViT)とLLMをくっつけた上で fine-tuneして作られている我々のマージ • LLaVaのLLM部分に日本語LLMをブレンド • 他の部分はLLaVaのまま LLM (base: Mistral 7B Instuct-v0.2) Llava-v1.6-mistral-7b 日本語LLM + 英語VLM → 日本語VLM

Slide 32

Slide 32 text

結果2: 日本語VLM (Vision Language Model)

Slide 33

Slide 33 text

結果2: 日本語VLM (Vision Language Model)

Slide 34

Slide 34 text

結果2: 日本語VLM Version 2

Slide 35

Slide 35 text

結果2: 日本語VLM Version 2 「複数の画像を扱える英語VLM」＋「日本語LLM」 → 「複数の画像を扱える日本語のVLM」

Slide 36

Slide 36 text

結果3: 日本語画像生成モデル

Slide 37

Slide 37 text

多様化とモデルマージ

Slide 38

Slide 38 text

ICLR’25 採択

Slide 39

Slide 39 text

CycleQD 39 Quality-Diversity Optimizationとは？ • 進化計算の新しいパラダイム • 自然界の進化が持つ多様性と局所適応の両立を模倣 • 問題空間全体で多様かつ高品質な解の集合を生成 Jean-Baptiste Mouret, Jeff Clune: Illuminating search spaces by mapping elites. CoRR abs/1504.04909 (2015) 多様なスキルをLLMに獲得

Slide 40

Slide 40 text

CycleQD 40 挑戦: 進化的モデルマージ ✕ Quality Diversity ✕ Agentic Tasks 新手法 “Cycle QD” を考案

Slide 41

Slide 41 text

課題 LLMにエージェント系スキルを習得させるための学習の課題 (1)データ比率のバランス (2)目的関数の調整提案 QDとモデルマージを組み合わせ、それらを循環的に適用することで、トレーニングデータや目標の分離を可能にする。 https://arxiv.org/abs/2410.14735

Slide 42

Slide 42 text

Methods MAP-Elitesをベースに 3つの鍵となるアイディア差分 #1 Alternating Quality (Q) and Behavior Characteristics (BCs) in each generation 差分 #2 Model merging as crossover Illustration of model merging 差分 #3 SVD-based mutation Illustration of SVD-based mutation

Slide 43

Slide 43 text

Major Results 結果 #1: コンピュータ操作に関する複数のスキルの獲得に成功結果 #2: Cycle QDは他の基礎スキルを忘却しない結果 #3: 画像系基盤モデル(SAM)にも適用可

Slide 44

Slide 44 text

目次 1. モデルマージ 2. 進化的モデルマージ [Akiba-Shing-Tang-Sun-Ha, 2024] 3. 多様化とモデルマージ [Kuroki-Nakamura-Akiba-Tang, 2024]