Slide 1

Slide 1 text

早稲田大学 森島繁生研究室 D5 綱島秀樹 アプリケーションから知るモデルマージ

Slide 2

Slide 2 text

自己紹介 2 綱島 秀樹 ◆所属 早稲田大学 博士5年-森島繁生研究室 ◆研究テーマ 修士課程:深層画像生成モデルの計算量・パラメータ削減 博士課程1年:複数物体を対象とした教師無し前景背景分解 博士課程2年:Embodied AI関連 博士課程3年〜:常識獲得,系統的汎化 産総研(元):服と人のペアデータを必要としない仮想試着 ◆趣味 筋トレ,アメフト,読書,音楽ゲーム,FPS, ゴルフ,飲酒,麻雀,ビリヤード,写真,etc...

Slide 3

Slide 3 text

モデルマージとは?

Slide 4

Slide 4 text

モデルマージ 4 [1] Yang et al., “Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities”, arXiv preprint, 2024. モデルマージとは誤解を恐れずに言えば,ニューラルネットワークをがっちゃんこ※して 複数モデルの能力を発現させる技術 ※ 厳密にはニューラルネットワークの重み(パラメータ)を足し合わせる モデルマージ概念図 [1]

Slide 5

Slide 5 text

モデルマージのアプリケーション例 5 ⚫ テキストからの音声合成のモデルマージ ⚫ 画像生成のモデルマージ

Slide 6

Slide 6 text

モデルマージのアプリケーション例 6 [1] 凛音エルちゃん比較用(オリジナル), “https://www.youtube.com/watch?v=cgEWYx3A-oU”, 2024年10月18日閲覧. [2] 凛音エルちゃん差分マージ囁き1, “https://www.youtube.com/watch?v=MtnkiyS2vro&t=18s”, 2024年10月18日閲覧. ⚫ テキストからの音声合成のモデルマージ Aさんが普通に喋っているモデル + (Bさんが囁いているモデル – Bさんが普通に喋っているモデル) = Aさんが囁いているモデル Aさんが普通に喋っているモデル [1] モデルマージ後のAさんが囁いているモデル [2]

Slide 7

Slide 7 text

モデルマージのアプリケーション例 7 ⚫ 画像生成のモデルマージ 日本語特化の画像生成モデル(低品質) + 英語をベースとした画像生成モデル(高品質) = 高品質な日本語特化の画像生成モデル 高品質な日本語特化の画像生成モデル + 高速な処理が可能な英語をベースとした画像生成モデル = 高品質な日本語特化で高速な処理が可能な画像生成モデル プロンプトは「ラーメン、浮世絵、葛飾北斎」,「折り紙弁当」,「(下町ロケット,東京サラリーマン),浮世絵」, 「可愛いゾウの編みぐるみ」などで高品質な日本語特化で高速な処理が可能な画像生成モデルで生成した画像 [1] [1] 画像生成モデルへの進化的モデルマージの適用 日本語対応した高速な画像生成モデルを教育目的で公開, “https://sakana.ai/evosdxl-jp/”, 2024年10月18日閲覧.

Slide 8

Slide 8 text

Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫ モデルマージの長所短所,今後の展望 8

Slide 9

Slide 9 text

Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫ モデルマージの長所短所,今後の展望 9

Slide 10

Slide 10 text

モデルマージでできること 10 ⚫ 複数モデルの能力の統合 ⚫ ベクトル演算のようなことを重み空間で可能にする ⚫ 能力の削除 ⚫ 攻撃 ⚫ 汎化性能向上 ⚫ 破滅的忘却の抑制 ⚫ 連合学習への適応

Slide 11

Slide 11 text

モデルマージでできること 11 [1] Wolfe, “Model Merging: A Survey”, “https://cameronrwolfe.substack.com/p/model-merging”, 2024年10月18日閲覧. [2] Li et al., “Deep Model Fusion: A Survey”, arXiv preprint, 2023. [3] Yang et al., “Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities”, arXiv preprint, 2024. ⚫ 複数モデルの能力の統合 [1, 2, 3] ➢ 同モダリティでの能力統合(例:英語に強いLLM + 数学に強いLLM) ➢ 目的関数が違うモデルの能力統合(例:解決能力特化LLM + 安全性特化LLM) ➢ LoRAのマージ(例:Llamaを日本語でLoRA FTとLlamaを数学でLoRA FTのLoRA部分) ➢ 副次的にレイテンシを減らせる(アンサンブルする必要がない)

Slide 12

Slide 12 text

モデルマージでできること 12 ⚫ ベクトル演算のようなことを重み空間で可能にする(タスク算術;Task Arithmetic) Aさんが普通に喋っているモデル + (Bさんが囁いているモデル – Bさんが普通に喋っているモデル) = Aさんが囁いているモデル タスク算術概念図 [1] [1] Li et al., “Deep Model Fusion: A Survey”, arXiv preprint, 2023.

Slide 13

Slide 13 text

モデルマージでできること 13 ⚫ 能力の削除 ➢ 解毒;Detoxification(例:トキシックな発言(例:人種差別)をするLLMから毒性除去) 毒性モデルA - (毒性モデルB – 良性モデルB) = 良性モデルA(毒性ベクトルの減算) ➢ 学習棄却;Unlearning(例:個人情報をペラペラ喋るLLMから個人情報を取り除く) 個人情報モリモリモデルA - (個人情報モリモリモデルB – 良性モデルB)= 良性モデルA ⚫ 攻撃:モデルプール(マージするモデル群)に毒性モデルを混ぜることで,良性モデルを汚染可能 良性モデルA + 毒性モデルB(攻撃モデル) + 良性モデルC = 毒性モデルD ⚫ 汎化性能向上:訓練チェックポイントをいくつかマージすることで汎化性能が上昇 モデルA(10,000 iter)+ モデルB(50,000 iter)+ モデルC(500,000 iter)= モデルD ⚫ 破滅的忘却の抑制:事前学習モデルとfine-tunedモデルをマージして破滅的忘却を抑制 事前学習モデル + fine-tunedモデル = 事前学習内容も保持したfine-tunedモデル

Slide 14

Slide 14 text

モデルマージでできること 14 ⚫ 連合学習への適応:学習データ量に応じた重み付けなどでマージする 0.2 x モデルA + 0.5 x モデルB + 0.3 x モデルC = UpdatedモデルD 中央集約型連合学習と分散連合学習 [1] [1] Li et al., “Deep Model Fusion: A Survey”, arXiv preprint, 2023.

Slide 15

Slide 15 text

Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫ モデルマージの長所短所,今後の展望 15

Slide 16

Slide 16 text

Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫ モデルマージの長所短所,今後の展望 16

Slide 17

Slide 17 text

モデルマージのトレンド 17 ⚫ 応用面 ⚫ 理論面

Slide 18

Slide 18 text

モデルマージのトレンド 18 ⚫ 応用面 ➢ タスク算術,線型補完,フランケンマージ(パススルーマージ)

Slide 19

Slide 19 text

モデルマージのトレンド 19 ⚫ 応用面 ➢ タスク算術,線型補完,フランケンマージ(パススルーマージ) 進化的モデルマージ※ [1] ※ フランケンマージはレイヤーががちゃんがちゃん結合するので,わかりやすい概念として紹介 [1] 進化的アルゴリズムによる基盤モデルの構築, “https://sakana.ai/evolutionary-model-merge-jp/”, 2024年10月29日閲覧.

Slide 20

Slide 20 text

モデルマージのトレンド 20 ⚫ 応用面 ➢ タスク算術,線型補完,フランケンマージ(パススルーマージ) ➢ mergekit [1] を使った手軽なマージ(言語モデルのマージ) ただ,手軽ゆえにマージモデルが乱立している,,, [1] mergekit, “https://github.com/arcee-ai/mergekit”.

Slide 21

Slide 21 text

モデルマージのトレンド 21 ⚫ 理論面 ➢ モード接続性(最頻値接続性※) ※ 綱島の造語.おそらく日本語に直すとこうなる 簡単に言うと,2つのモデルの重みを補完するパスの中に,テスト誤差が一定になる領域が存在し ていること その中でも以下の3点がメジャー  線形接続性  非線形接続性  重みアライメント (例:Re-basin) モード接続性の概念図 [1] [1] Li et al., “Deep Model Fusion: A Survey”, arXiv preprint, 2023.

Slide 22

Slide 22 text

モデルマージのトレンド 22 ⚫ 理論面 ➢ モード接続性(最頻値接続性※) ※ 綱島の造語.おそらく日本語に直すとこうなる 簡単に言うと,2つのモデルの重みを補完するパスの中に,テスト誤差が一定になる領域が存在し ていること その中でも以下の3点がメジャー  線形接続性  非線形接続性  重みアライメント (例:Re-basin) 重みアライメントの概念図 [1] [1] Li et al., “Deep Model Fusion: A Survey”, arXiv preprint, 2023.

Slide 23

Slide 23 text

モデルマージのトレンド 23 ⚫ 理論面 ➢ モード接続性(最頻値接続性) ➢ スパース性解析 巨大でよく学習されているモデルは,パラメータがスパース(疎,まばら)になっており, マージが機能しやすいとも言われている それゆえ,スパース性について解析することがモデルマージを解き明かすことの一つと なり得る可能性がある ちなみに余談ですが,幼児も急激に脳内のニューロンが増加した後に,段々とニューロン数 が減少していきます(ニューラルネットの剪定(pruning)と同等の処理が起きている)[1] [1] 山口真美, 金沢創. 乳幼児心理学〔改訂版〕 (放送大学教材), 放送大学教育振興会, 2016.

Slide 24

Slide 24 text

Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫ モデルマージの長所短所,今後の展望 24

Slide 25

Slide 25 text

Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫ モデルマージの長所短所,今後の展望 25

Slide 26

Slide 26 text

モデルマージが弱いこと 26 ⚫ スクラッチからの学習では基本的に適用できない 事前学習モデルからではなく,スクラッチで学習したモデル同士だとモード接続性がなく, マージが機能しない ⚫ アーキテクチャが異なるマージは基本的にできない 一応,アーキテクチャを同一のモデルに変換(同一のモデルで答えが元のモデルに一致するように 蒸留という学習をする)する方法もあるが,学習コストがそもそも高いモデルには適用が困難

Slide 27

Slide 27 text

モデルマージの非自明なこと 27 ⚫ アーキテクチャが異なるマルチモーダルLLM(MLLM)などのマージ ⚫ 入力空間が異なるマージ(例:ハイパースペクトルカメラのデータが入力) ⚫ 別モダリティでの能力統合(例:音のモデルと画像のモデルのマージ)

Slide 28

Slide 28 text

Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫ モデルマージの長所短所,今後の展望 28

Slide 29

Slide 29 text

Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫ モデルマージの長所短所,今後の展望 29

Slide 30

Slide 30 text

モデルマージはいつから? 30 モデルを統合して処理をするという観点では,アンサンブル・連合学習・蒸留など古くから 議論がされてきた ただ,近年のモデルの重みを足し合わせるという考え方はある論文からブームが始まっている モデルスープ

Slide 31

Slide 31 text

モデルマージはいつから? 31 ⚫ モデルスープ 事前学習済みモデルから複数のハイパラでモデルを学習させ,一様にマージすると分布シフトに 頑健になり,正解率がある閾値以上のモデルのみ貪欲にマージさせるとさらにいい精度に モデルスープの結果一覧 [1] [1] M. Wortsman et al., “Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time”, ICML, 2022.

Slide 32

Slide 32 text

Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫ モデルマージの長所短所,今後の展望 32

Slide 33

Slide 33 text

Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫ モデルマージの長所短所,今後の展望 33

Slide 34

Slide 34 text

モデルマージの長所短所 34 ⚫ 長所 ✓ 複数モデルの能力の統合 ✓ ベクトル演算のようなことを重み空間で可能にする ✓ 能力の削除 ✓ 攻撃 ✓ 汎化性能向上 ✓ 破滅的忘却の抑制 ✓ 連合学習への適応 ⚫ 短所  スクラッチからの学習では基本的に適用できない  アーキテクチャが異なるマージが基本的にはできない

Slide 35

Slide 35 text

モデルマージの今後の展望 35 ⚫ アーキテクチャが異なるマルチモーダルLLM(MLLM)などのマージ ⚫ 入力空間が異なる時のマージ(ハイパースペクトルカメラの入力など) ⚫ 理論的解析 ⚫ 単にタスク算術と線型補完などでは,LLM + RAGのように人間が局所解に陥ってしまうので, 非自明な点についてを扱う問題に取り組む必要あり