Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
アプリケーションから知るモデルマージ
Search
maguro27
December 18, 2024
Research
0
110
アプリケーションから知るモデルマージ
複数のニューラルネットワークの重みを結合する技術であるモデルマージについて,アプリケーションから紹介し,理論的なおもしろさや,展望についてまとめたスライドです.
maguro27
December 18, 2024
Tweet
Share
More Decks by maguro27
See All by maguro27
「人間にAIはどのように辿り着けばよいのか?ー 系統的汎化からの第一歩 ー」@第22回 Language and Robotics研究会
maguro27
0
610
【スキルアップAIキャンプ】第79回『 生成モデルはまだまだ進化している! GAN の研究動向紹介』
maguro27
1
5.5k
第9回全日本コンピュータビジョン勉強会「StyleNeRF: A Style-based 3D Aware Generator for High-resolution Image Synthesis」発表資料
maguro27
3
4.3k
SPACE: Unsupervised Object-Oriented Scene Representation via Spatial Attention and Decomposition
maguro27
1
1.2k
VAEを用いた株価予想
maguro27
0
1.3k
Other Decks in Research
See All in Research
打率7割を実現する、プロダクトディスカバリーの7つの極意(pmconf2024)
geshi0820
0
120
文化が形作る音楽推薦の消費と、その逆
kuri8ive
0
200
精度を無視しない推薦多様化の評価指標
kuri8ive
1
290
snlp2024_multiheadMoE
takase
0
460
SNLP2024:Planning Like Human: A Dual-process Framework for Dialogue Planning
yukizenimoto
1
360
メタヒューリスティクスに基づく汎用線形整数計画ソルバーの開発
snowberryfield
3
610
Composed image retrieval for remote sensing
satai
2
130
機械学習でヒトの行動を変える
hiromu1996
1
380
The many faces of AI and the role of mathematics
gpeyre
1
1.4k
メールからの名刺情報抽出におけるLLM活用 / Use of LLM in extracting business card information from e-mails
sansan_randd
2
220
[ECCV2024読み会] 衛星画像からの地上画像生成
elith
1
870
PetiteSRE_GenAIEraにおけるインフラのあり方観察
ichichi
0
190
Featured
See All Featured
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
33
1.9k
GraphQLとの向き合い方2022年版
quramy
44
13k
Facilitating Awesome Meetings
lara
50
6.1k
Practical Orchestrator
shlominoach
186
10k
Mobile First: as difficult as doing things right
swwweet
222
9k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
330
21k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
32
2.7k
Scaling GitHub
holman
458
140k
KATA
mclloyd
29
14k
Into the Great Unknown - MozCon
thekraken
33
1.5k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
232
17k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
132
33k
Transcript
早稲田大学 森島繁生研究室 D5 綱島秀樹 アプリケーションから知るモデルマージ
自己紹介 2 綱島 秀樹 ◆所属 早稲田大学 博士5年-森島繁生研究室 ◆研究テーマ 修士課程:深層画像生成モデルの計算量・パラメータ削減 博士課程1年:複数物体を対象とした教師無し前景背景分解
博士課程2年:Embodied AI関連 博士課程3年〜:常識獲得,系統的汎化 産総研(元):服と人のペアデータを必要としない仮想試着 ◆趣味 筋トレ,アメフト,読書,音楽ゲーム,FPS, ゴルフ,飲酒,麻雀,ビリヤード,写真,etc...
モデルマージとは?
モデルマージ 4 [1] Yang et al., “Model Merging in LLMs,
MLLMs, and Beyond: Methods, Theories, Applications and Opportunities”, arXiv preprint, 2024. モデルマージとは誤解を恐れずに言えば,ニューラルネットワークをがっちゃんこ※して 複数モデルの能力を発現させる技術 ※ 厳密にはニューラルネットワークの重み(パラメータ)を足し合わせる モデルマージ概念図 [1]
モデルマージのアプリケーション例 5 ⚫ テキストからの音声合成のモデルマージ ⚫ 画像生成のモデルマージ
モデルマージのアプリケーション例 6 [1] 凛音エルちゃん比較用(オリジナル), “https://www.youtube.com/watch?v=cgEWYx3A-oU”, 2024年10月18日閲覧. [2] 凛音エルちゃん差分マージ囁き1, “https://www.youtube.com/watch?v=MtnkiyS2vro&t=18s”, 2024年10月18日閲覧.
⚫ テキストからの音声合成のモデルマージ Aさんが普通に喋っているモデル + (Bさんが囁いているモデル – Bさんが普通に喋っているモデル) = Aさんが囁いているモデル Aさんが普通に喋っているモデル [1] モデルマージ後のAさんが囁いているモデル [2]
モデルマージのアプリケーション例 7 ⚫ 画像生成のモデルマージ 日本語特化の画像生成モデル(低品質) + 英語をベースとした画像生成モデル(高品質) = 高品質な日本語特化の画像生成モデル 高品質な日本語特化の画像生成モデル
+ 高速な処理が可能な英語をベースとした画像生成モデル = 高品質な日本語特化で高速な処理が可能な画像生成モデル プロンプトは「ラーメン、浮世絵、葛飾北斎」,「折り紙弁当」,「(下町ロケット,東京サラリーマン),浮世絵」, 「可愛いゾウの編みぐるみ」などで高品質な日本語特化で高速な処理が可能な画像生成モデルで生成した画像 [1] [1] 画像生成モデルへの進化的モデルマージの適用 日本語対応した高速な画像生成モデルを教育目的で公開, “https://sakana.ai/evosdxl-jp/”, 2024年10月18日閲覧.
Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫
モデルマージの長所短所,今後の展望 8
Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫
モデルマージの長所短所,今後の展望 9
モデルマージでできること 10 ⚫ 複数モデルの能力の統合 ⚫ ベクトル演算のようなことを重み空間で可能にする ⚫ 能力の削除 ⚫ 攻撃
⚫ 汎化性能向上 ⚫ 破滅的忘却の抑制 ⚫ 連合学習への適応
モデルマージでできること 11 [1] Wolfe, “Model Merging: A Survey”, “https://cameronrwolfe.substack.com/p/model-merging”, 2024年10月18日閲覧.
[2] Li et al., “Deep Model Fusion: A Survey”, arXiv preprint, 2023. [3] Yang et al., “Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities”, arXiv preprint, 2024. ⚫ 複数モデルの能力の統合 [1, 2, 3] ➢ 同モダリティでの能力統合(例:英語に強いLLM + 数学に強いLLM) ➢ 目的関数が違うモデルの能力統合(例:解決能力特化LLM + 安全性特化LLM) ➢ LoRAのマージ(例:Llamaを日本語でLoRA FTとLlamaを数学でLoRA FTのLoRA部分) ➢ 副次的にレイテンシを減らせる(アンサンブルする必要がない)
モデルマージでできること 12 ⚫ ベクトル演算のようなことを重み空間で可能にする(タスク算術;Task Arithmetic) Aさんが普通に喋っているモデル + (Bさんが囁いているモデル – Bさんが普通に喋っているモデル)
= Aさんが囁いているモデル タスク算術概念図 [1] [1] Li et al., “Deep Model Fusion: A Survey”, arXiv preprint, 2023.
モデルマージでできること 13 ⚫ 能力の削除 ➢ 解毒;Detoxification(例:トキシックな発言(例:人種差別)をするLLMから毒性除去) 毒性モデルA - (毒性モデルB –
良性モデルB) = 良性モデルA(毒性ベクトルの減算) ➢ 学習棄却;Unlearning(例:個人情報をペラペラ喋るLLMから個人情報を取り除く) 個人情報モリモリモデルA - (個人情報モリモリモデルB – 良性モデルB)= 良性モデルA ⚫ 攻撃:モデルプール(マージするモデル群)に毒性モデルを混ぜることで,良性モデルを汚染可能 良性モデルA + 毒性モデルB(攻撃モデル) + 良性モデルC = 毒性モデルD ⚫ 汎化性能向上:訓練チェックポイントをいくつかマージすることで汎化性能が上昇 モデルA(10,000 iter)+ モデルB(50,000 iter)+ モデルC(500,000 iter)= モデルD ⚫ 破滅的忘却の抑制:事前学習モデルとfine-tunedモデルをマージして破滅的忘却を抑制 事前学習モデル + fine-tunedモデル = 事前学習内容も保持したfine-tunedモデル
モデルマージでできること 14 ⚫ 連合学習への適応:学習データ量に応じた重み付けなどでマージする 0.2 x モデルA + 0.5 x
モデルB + 0.3 x モデルC = UpdatedモデルD 中央集約型連合学習と分散連合学習 [1] [1] Li et al., “Deep Model Fusion: A Survey”, arXiv preprint, 2023.
Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫
モデルマージの長所短所,今後の展望 15
Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫
モデルマージの長所短所,今後の展望 16
モデルマージのトレンド 17 ⚫ 応用面 ⚫ 理論面
モデルマージのトレンド 18 ⚫ 応用面 ➢ タスク算術,線型補完,フランケンマージ(パススルーマージ)
モデルマージのトレンド 19 ⚫ 応用面 ➢ タスク算術,線型補完,フランケンマージ(パススルーマージ) 進化的モデルマージ※ [1] ※ フランケンマージはレイヤーががちゃんがちゃん結合するので,わかりやすい概念として紹介
[1] 進化的アルゴリズムによる基盤モデルの構築, “https://sakana.ai/evolutionary-model-merge-jp/”, 2024年10月29日閲覧.
モデルマージのトレンド 20 ⚫ 応用面 ➢ タスク算術,線型補完,フランケンマージ(パススルーマージ) ➢ mergekit [1] を使った手軽なマージ(言語モデルのマージ)
ただ,手軽ゆえにマージモデルが乱立している,,, [1] mergekit, “https://github.com/arcee-ai/mergekit”.
モデルマージのトレンド 21 ⚫ 理論面 ➢ モード接続性(最頻値接続性※) ※ 綱島の造語.おそらく日本語に直すとこうなる 簡単に言うと,2つのモデルの重みを補完するパスの中に,テスト誤差が一定になる領域が存在し ていること
その中でも以下の3点がメジャー 線形接続性 非線形接続性 重みアライメント (例:Re-basin) モード接続性の概念図 [1] [1] Li et al., “Deep Model Fusion: A Survey”, arXiv preprint, 2023.
モデルマージのトレンド 22 ⚫ 理論面 ➢ モード接続性(最頻値接続性※) ※ 綱島の造語.おそらく日本語に直すとこうなる 簡単に言うと,2つのモデルの重みを補完するパスの中に,テスト誤差が一定になる領域が存在し ていること
その中でも以下の3点がメジャー 線形接続性 非線形接続性 重みアライメント (例:Re-basin) 重みアライメントの概念図 [1] [1] Li et al., “Deep Model Fusion: A Survey”, arXiv preprint, 2023.
モデルマージのトレンド 23 ⚫ 理論面 ➢ モード接続性(最頻値接続性) ➢ スパース性解析 巨大でよく学習されているモデルは,パラメータがスパース(疎,まばら)になっており, マージが機能しやすいとも言われている
それゆえ,スパース性について解析することがモデルマージを解き明かすことの一つと なり得る可能性がある ちなみに余談ですが,幼児も急激に脳内のニューロンが増加した後に,段々とニューロン数 が減少していきます(ニューラルネットの剪定(pruning)と同等の処理が起きている)[1] [1] 山口真美, 金沢創. 乳幼児心理学〔改訂版〕 (放送大学教材), 放送大学教育振興会, 2016.
Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫
モデルマージの長所短所,今後の展望 24
Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫
モデルマージの長所短所,今後の展望 25
モデルマージが弱いこと 26 ⚫ スクラッチからの学習では基本的に適用できない 事前学習モデルからではなく,スクラッチで学習したモデル同士だとモード接続性がなく, マージが機能しない ⚫ アーキテクチャが異なるマージは基本的にできない 一応,アーキテクチャを同一のモデルに変換(同一のモデルで答えが元のモデルに一致するように 蒸留という学習をする)する方法もあるが,学習コストがそもそも高いモデルには適用が困難
モデルマージの非自明なこと 27 ⚫ アーキテクチャが異なるマルチモーダルLLM(MLLM)などのマージ ⚫ 入力空間が異なるマージ(例:ハイパースペクトルカメラのデータが入力) ⚫ 別モダリティでの能力統合(例:音のモデルと画像のモデルのマージ)
Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫
モデルマージの長所短所,今後の展望 28
Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫
モデルマージの長所短所,今後の展望 29
モデルマージはいつから? 30 モデルを統合して処理をするという観点では,アンサンブル・連合学習・蒸留など古くから 議論がされてきた ただ,近年のモデルの重みを足し合わせるという考え方はある論文からブームが始まっている モデルスープ
モデルマージはいつから? 31 ⚫ モデルスープ 事前学習済みモデルから複数のハイパラでモデルを学習させ,一様にマージすると分布シフトに 頑健になり,正解率がある閾値以上のモデルのみ貪欲にマージさせるとさらにいい精度に モデルスープの結果一覧 [1] [1] M.
Wortsman et al., “Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time”, ICML, 2022.
Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫
モデルマージの長所短所,今後の展望 32
Contents ⚫ モデルマージでできること ⚫ モデルマージのトレンド ⚫ モデルマージの弱いこと,非自明なこと ⚫ そもそもモデルマージはいつから? ⚫
モデルマージの長所短所,今後の展望 33
モデルマージの長所短所 34 ⚫ 長所 ✓ 複数モデルの能力の統合 ✓ ベクトル演算のようなことを重み空間で可能にする ✓ 能力の削除
✓ 攻撃 ✓ 汎化性能向上 ✓ 破滅的忘却の抑制 ✓ 連合学習への適応 ⚫ 短所 スクラッチからの学習では基本的に適用できない アーキテクチャが異なるマージが基本的にはできない
モデルマージの今後の展望 35 ⚫ アーキテクチャが異なるマルチモーダルLLM(MLLM)などのマージ ⚫ 入力空間が異なる時のマージ(ハイパースペクトルカメラの入力など) ⚫ 理論的解析 ⚫ 単にタスク算術と線型補完などでは,LLM
+ RAGのように人間が局所解に陥ってしまうので, 非自明な点についてを扱う問題に取り組む必要あり