Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
アプリケーションから知るモデルマージ
Search
maguro27
December 18, 2024
Research
0
430
アプリケーションから知るモデルマージ
複数のニューラルネットワークの重みを結合する技術であるモデルマージについて,アプリケーションから紹介し,理論的なおもしろさや,展望についてまとめたスライドです.
maguro27
December 18, 2024
Tweet
Share
More Decks by maguro27
See All by maguro27
「人間にAIはどのように辿り着けばよいのか?ー 系統的汎化からの第一歩 ー」@第22回 Language and Robotics研究会
maguro27
0
920
【スキルアップAIキャンプ】第79回『 生成モデルはまだまだ進化している! GAN の研究動向紹介』
maguro27
1
5.8k
第9回全日本コンピュータビジョン勉強会「StyleNeRF: A Style-based 3D Aware Generator for High-resolution Image Synthesis」発表資料
maguro27
3
4.5k
SPACE: Unsupervised Object-Oriented Scene Representation via Spatial Attention and Decomposition
maguro27
1
1.3k
VAEを用いた株価予想
maguro27
0
1.4k
Other Decks in Research
See All in Research
社内データ分析AIエージェントを できるだけ使いやすくする工夫
fufufukakaka
1
870
その推薦システムの評価指標、ユーザーの感覚とズレてるかも
kuri8ive
1
310
空間音響処理における物理法則に基づく機械学習
skoyamalab
0
190
説明可能な機械学習と数理最適化
kelicht
2
910
機械学習と数理最適化の融合 (MOAI) による革新
mickey_kubo
1
470
病院向け生成AIプロダクト開発の実践と課題
hagino3000
0
520
2025-11-21-DA-10th-satellite
yegusa
0
110
第二言語習得研究における 明示的・暗示的知識の再検討:この分類は何に役に立つか,何に役に立たないか
tam07pb915
0
1k
Proposal of an Information Delivery Method for Electronic Paper Signage Using Human Mobility as the Communication Medium / ICCE-Asia 2025
yumulab
0
160
Collective Predictive Coding and World Models in LLMs: A System 0/1/2/3 Perspective on Hierarchical Physical AI (IEEE SII 2026 Plenary Talk)
tanichu
1
240
AIスパコン「さくらONE」の オブザーバビリティ / Observability for AI Supercomputer SAKURAONE
yuukit
2
1.1k
生成AI による論文執筆サポート・ワークショップ ─ サーベイ/リサーチクエスチョン編 / Workshop on AI-Assisted Paper Writing Support: Survey/Research Question Edition
ks91
PRO
0
140
Featured
See All Featured
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.4k
My Coaching Mixtape
mlcsv
0
46
Site-Speed That Sticks
csswizardry
13
1.1k
Side Projects
sachag
455
43k
Docker and Python
trallard
47
3.7k
Getting science done with accelerated Python computing platforms
jacobtomlinson
2
110
How To Speak Unicorn (iThemes Webinar)
marktimemedia
1
370
How to Ace a Technical Interview
jacobian
281
24k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
9.9k
GraphQLとの向き合い方2022年版
quramy
50
14k
GraphQLの誤解/rethinking-graphql
sonatard
74
11k
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
1
97
Transcript
早稲田大学 森島繁生研究室 D5 綱島秀樹 アプリケーションから知るモデルマージ
自己紹介 2 綱島 秀樹 ◆所属 早稲田大学 博士5年-森島繁生研究室 ◆研究テーマ 修士課程:深層画像生成モデルの計算量・パラメータ削減 博士課程1年:複数物体を対象とした教師無し前景背景分解
博士課程2年:Embodied AI関連 博士課程3年〜:常識獲得,系統的汎化 産総研(元):服と人のペアデータを必要としない仮想試着 ◆趣味 筋トレ,アメフト,読書,音楽ゲーム,FPS, ゴルフ,飲酒,麻雀,ビリヤード,写真,etc...
モデルマージとは?
モデルマージ 4 [1] Yang et al., “Model Merging in LLMs,
MLLMs, and Beyond: Methods, Theories, Applications and Opportunities”, arXiv preprint, 2024. モデルマージとは誤解を恐れずに言えば,ニューラルネットワークをがっちゃんこ※して 複数モデルの能力を発現させる技術 ※ 厳密にはニューラルネットワークの重み(パラメータ)を足し合わせる モデルマージ概念図 [1]
モデルマージのアプリケーション例 5 ⚫ テキストからの音声合成のモデルマージ ⚫ 画像生成のモデルマージ
モデルマージのアプリケーション例 6 [1] 凛音エルちゃん比較用(オリジナル), “https://www.youtube.com/watch?v=cgEWYx3A-oU”, 2024年10月18日閲覧. [2] 凛音エルちゃん差分マージ囁き1, “https://www.youtube.com/watch?v=MtnkiyS2vro&t=18s”, 2024年10月18日閲覧.
⚫ テキストからの音声合成のモデルマージ Aさんが普通に喋っているモデル + (Bさんが囁いているモデル – Bさんが普通に喋っているモデル) = Aさんが囁いているモデル Aさんが普通に喋っているモデル [1] モデルマージ後のAさんが囁いているモデル [2]
モデルマージのアプリケーション例 7 ⚫ 画像生成のモデルマージ 日本語特化の画像生成モデル(低品質) + 英語をベースとした画像生成モデル(高品質) = 高品質な日本語特化の画像生成モデル 高品質な日本語特化の画像生成モデル
+ 高速な処理が可能な英語をベースとした画像生成モデル = 高品質な日本語特化で高速な処理が可能な画像生成モデル プロンプトは「ラーメン、浮世絵、葛飾北斎」,「折り紙弁当」,「(下町ロケット,東京サラリーマン),浮世絵」, 「可愛いゾウの編みぐるみ」などで高品質な日本語特化で高速な処理が可能な画像生成モデルで生成した画像 [1] [1] 画像生成モデルへの進化的モデルマージの適用 日本語対応した高速な画像生成モデルを教育目的で公開, “https://sakana.ai/evosdxl-jp/”, 2024年10月18日閲覧.
Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫
モデルマージの長所短所,今後の展望 8
Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫
モデルマージの長所短所,今後の展望 9
モデルマージでできること 10 ⚫ 複数モデルの能力の統合 ⚫ ベクトル演算のようなことを重み空間で可能にする ⚫ 能力の削除 ⚫ 攻撃
⚫ 汎化性能向上 ⚫ 破滅的忘却の抑制 ⚫ 連合学習への適応
モデルマージでできること 11 [1] Wolfe, “Model Merging: A Survey”, “https://cameronrwolfe.substack.com/p/model-merging”, 2024年10月18日閲覧.
[2] Li et al., “Deep Model Fusion: A Survey”, arXiv preprint, 2023. [3] Yang et al., “Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities”, arXiv preprint, 2024. ⚫ 複数モデルの能力の統合 [1, 2, 3] ➢ 同モダリティでの能力統合(例:英語に強いLLM + 数学に強いLLM) ➢ 目的関数が違うモデルの能力統合(例:解決能力特化LLM + 安全性特化LLM) ➢ LoRAのマージ(例:Llamaを日本語でLoRA FTとLlamaを数学でLoRA FTのLoRA部分) ➢ 副次的にレイテンシを減らせる(アンサンブルする必要がない)
モデルマージでできること 12 ⚫ ベクトル演算のようなことを重み空間で可能にする(タスク算術;Task Arithmetic) Aさんが普通に喋っているモデル + (Bさんが囁いているモデル – Bさんが普通に喋っているモデル)
= Aさんが囁いているモデル タスク算術概念図 [1] [1] Li et al., “Deep Model Fusion: A Survey”, arXiv preprint, 2023.
モデルマージでできること 13 ⚫ 能力の削除 ➢ 解毒;Detoxification(例:トキシックな発言(例:人種差別)をするLLMから毒性除去) 毒性モデルA - (毒性モデルB –
良性モデルB) = 良性モデルA(毒性ベクトルの減算) ➢ 学習棄却;Unlearning(例:個人情報をペラペラ喋るLLMから個人情報を取り除く) 個人情報モリモリモデルA - (個人情報モリモリモデルB – 良性モデルB)= 良性モデルA ⚫ 攻撃:モデルプール(マージするモデル群)に毒性モデルを混ぜることで,良性モデルを汚染可能 良性モデルA + 毒性モデルB(攻撃モデル) + 良性モデルC = 毒性モデルD ⚫ 汎化性能向上:訓練チェックポイントをいくつかマージすることで汎化性能が上昇 モデルA(10,000 iter)+ モデルB(50,000 iter)+ モデルC(500,000 iter)= モデルD ⚫ 破滅的忘却の抑制:事前学習モデルとfine-tunedモデルをマージして破滅的忘却を抑制 事前学習モデル + fine-tunedモデル = 事前学習内容も保持したfine-tunedモデル
モデルマージでできること 14 ⚫ 連合学習への適応:学習データ量に応じた重み付けなどでマージする 0.2 x モデルA + 0.5 x
モデルB + 0.3 x モデルC = UpdatedモデルD 中央集約型連合学習と分散連合学習 [1] [1] Li et al., “Deep Model Fusion: A Survey”, arXiv preprint, 2023.
Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫
モデルマージの長所短所,今後の展望 15
Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫
モデルマージの長所短所,今後の展望 16
モデルマージのトレンド 17 ⚫ 応用面 ⚫ 理論面
モデルマージのトレンド 18 ⚫ 応用面 ➢ タスク算術,線型補完,フランケンマージ(パススルーマージ)
モデルマージのトレンド 19 ⚫ 応用面 ➢ タスク算術,線型補完,フランケンマージ(パススルーマージ) 進化的モデルマージ※ [1] ※ フランケンマージはレイヤーががちゃんがちゃん結合するので,わかりやすい概念として紹介
[1] 進化的アルゴリズムによる基盤モデルの構築, “https://sakana.ai/evolutionary-model-merge-jp/”, 2024年10月29日閲覧.
モデルマージのトレンド 20 ⚫ 応用面 ➢ タスク算術,線型補完,フランケンマージ(パススルーマージ) ➢ mergekit [1] を使った手軽なマージ(言語モデルのマージ)
ただ,手軽ゆえにマージモデルが乱立している,,, [1] mergekit, “https://github.com/arcee-ai/mergekit”.
モデルマージのトレンド 21 ⚫ 理論面 ➢ モード接続性(最頻値接続性※) ※ 綱島の造語.おそらく日本語に直すとこうなる 簡単に言うと,2つのモデルの重みを補完するパスの中に,テスト誤差が一定になる領域が存在し ていること
その中でも以下の3点がメジャー 線形接続性 非線形接続性 重みアライメント (例:Re-basin) モード接続性の概念図 [1] [1] Li et al., “Deep Model Fusion: A Survey”, arXiv preprint, 2023.
モデルマージのトレンド 22 ⚫ 理論面 ➢ モード接続性(最頻値接続性※) ※ 綱島の造語.おそらく日本語に直すとこうなる 簡単に言うと,2つのモデルの重みを補完するパスの中に,テスト誤差が一定になる領域が存在し ていること
その中でも以下の3点がメジャー 線形接続性 非線形接続性 重みアライメント (例:Re-basin) 重みアライメントの概念図 [1] [1] Li et al., “Deep Model Fusion: A Survey”, arXiv preprint, 2023.
モデルマージのトレンド 23 ⚫ 理論面 ➢ モード接続性(最頻値接続性) ➢ スパース性解析 巨大でよく学習されているモデルは,パラメータがスパース(疎,まばら)になっており, マージが機能しやすいとも言われている
それゆえ,スパース性について解析することがモデルマージを解き明かすことの一つと なり得る可能性がある ちなみに余談ですが,幼児も急激に脳内のニューロンが増加した後に,段々とニューロン数 が減少していきます(ニューラルネットの剪定(pruning)と同等の処理が起きている)[1] [1] 山口真美, 金沢創. 乳幼児心理学〔改訂版〕 (放送大学教材), 放送大学教育振興会, 2016.
Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫
モデルマージの長所短所,今後の展望 24
Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫
モデルマージの長所短所,今後の展望 25
モデルマージが弱いこと 26 ⚫ スクラッチからの学習では基本的に適用できない 事前学習モデルからではなく,スクラッチで学習したモデル同士だとモード接続性がなく, マージが機能しない ⚫ アーキテクチャが異なるマージは基本的にできない 一応,アーキテクチャを同一のモデルに変換(同一のモデルで答えが元のモデルに一致するように 蒸留という学習をする)する方法もあるが,学習コストがそもそも高いモデルには適用が困難
モデルマージの非自明なこと 27 ⚫ アーキテクチャが異なるマルチモーダルLLM(MLLM)などのマージ ⚫ 入力空間が異なるマージ(例:ハイパースペクトルカメラのデータが入力) ⚫ 別モダリティでの能力統合(例:音のモデルと画像のモデルのマージ)
Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫
モデルマージの長所短所,今後の展望 28
Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫
モデルマージの長所短所,今後の展望 29
モデルマージはいつから? 30 モデルを統合して処理をするという観点では,アンサンブル・連合学習・蒸留など古くから 議論がされてきた ただ,近年のモデルの重みを足し合わせるという考え方はある論文からブームが始まっている モデルスープ
モデルマージはいつから? 31 ⚫ モデルスープ 事前学習済みモデルから複数のハイパラでモデルを学習させ,一様にマージすると分布シフトに 頑健になり,正解率がある閾値以上のモデルのみ貪欲にマージさせるとさらにいい精度に モデルスープの結果一覧 [1] [1] M.
Wortsman et al., “Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time”, ICML, 2022.
Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫
モデルマージの長所短所,今後の展望 32
Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫
モデルマージの長所短所,今後の展望 33
モデルマージの長所短所 34 ⚫ 長所 ✓ 複数モデルの能力の統合 ✓ ベクトル演算のようなことを重み空間で可能にする ✓ 能力の削除
✓ 攻撃 ✓ 汎化性能向上 ✓ 破滅的忘却の抑制 ✓ 連合学習への適応 ⚫ 短所 スクラッチからの学習では基本的に適用できない アーキテクチャが異なるマージが基本的にはできない
モデルマージの今後の展望 35 ⚫ アーキテクチャが異なるマルチモーダルLLM(MLLM)などのマージ ⚫ 入力空間が異なる時のマージ(ハイパースペクトルカメラの入力など) ⚫ 理論的解析 ⚫ 単にタスク算術と線型補完などでは,LLM
+ RAGのように人間が局所解に陥ってしまうので, 非自明な点についてを扱う問題に取り組む必要あり