[Journal club] TIES-Merging: Resolving Interference When Merging Models

TIES-Merging: Resolving Interference When Merging Models Prateek Yadav1, Derek Tam1,
Leshem Choshen2,3, Colin Raffel1, Mohit Bansal1 1: University of North Carolina at Chapel Hill 2: IBM Research 3: MIT 慶應義塾大学杉浦孔明研究室小槻誠太郎 P. Yadav, D. Tam, L. Choshen, C. Raffel, and M. Bansal, “TIES-Merging: Resolving Interference When Merging Models,” in NeurIPS, 2023. NeurIPS23 (Poster)

Model Merging: タスク特化モデルを合成 à マルチタスクモデル Model Mergingにおける最終的なモデルの性能を劣化させる原因としてパラメータ干渉を指摘パラメータ干渉の影響を低減するため TIES-Mergingを提案
性能への寄与が少ない冗長な値の削除正負が異なる際, 優位なパラメータを採用複数のモダリティ, タスク, モデル, fine-tuning設定で既存手法を上回る 2 SUMMARY – TIES-Merging

Model Merging: 複数のモデルをパラメータを組み合わせることで合成複数のタスク特化モデルを合成し, 単一のマルチタスクモデルを作成追加学習なしを仮定合成方法: 各モデルのパラメータの荷重平均をパラメータとする (本研究では特に各モデルの元となる事前学習済みモデルが同一である条件を考える)
イメージ: 3 背景・前提 – Model Merging Model for MNIST 𝜃! Model for Cars 𝜃" Model for MNIST & Cars 𝜃# = 𝛼! 𝜃! + 𝛼" 𝜃"

4 関連研究 – パラメータ補間の成否とloss landscapeが関連基本的にneural networkの損失関数は凸でないにも関わらず, 異なる学習を経たモデル同士のパラメータを損失を増加させずに補間できる場合がある (定義域がパラメータであるloss
landscape上でmode-connected (like..↑)) 概要 [Frankle+, ICML’20] 最適化の軌道を一部共有しているモデル同士は性能を劣化させずに補間可能 [Neyshabur+, NeurIPS’20] モデル同士が完全に異なる最適化の軌道を辿っていた場合, 愚直に補間すると破局的な性能劣化 [Entezari+, ’21] [仮説]: 順列対称性によって, 同じデータセットで学習した同じ構造のモデルは線形補間可能 à [Wang+, ICLR’20]がpermutationを考慮, [Singh+, NeurIPS’20]が最適輸送を利用してfrom scratchモデル同士を損失を増加させずに合成

5 関連研究 – 複数の合成方法が提案されている概要 RegMean [Jin+, ICLR’23] マルチタスクモデル内の線形層の出力をタスク特化モデル内の線形層の出力に近づける線形回帰を解き,
マルチタスクモデルのパラメータを閉形式で導出 Fisher Merging [Matena+, NeurIPS’21] Fisher情報量行列 ! 𝐹% の値によってパラメータに重み付けを行い, 加重和をマルチタスクモデルのパラメータとする Task Arithmetic [Ilharco+, ICLR’23] Fine-tuningでのパラメータ差分をtask vectorとして定義し, その加減算によってマルチタスクモデルのパラメータを導出

モデルの性能は絶対値が大きい一部のパラメータに依存絶対値が大きいものだけ20% 残してもほぼ性能が落ちない 6 動機 – パラメータ干渉が合成後のモデルの性能を劣化させる後述するモデル (IA)3
のマルチタスク平均パフォーマンス 11個のデータセットを合成したマルチタスクデータセットで学習タスク: sentence completion, NLI, ...

モデルの性能は絶対値が大きい一部のパラメータに依存絶対値が大きいものだけ20% 残してもほぼ性能が落ちない 2つのモデルを合成するだけでも正負の不整合が発生 4つ合成すれば1割不整合が発生 7 動機 –
パラメータ干渉が合成後のモデルの性能を劣化させる

モデルの性能は絶対値が大きい一部のパラメータに依存絶対値が大きいものだけ20% 残してもほぼ性能が落ちない 2つのモデルを合成するだけでも正負の不整合が発生 4つ合成すれば1割不整合が発生 8 動機 –
パラメータ干渉が合成後のモデルの性能を劣化させる Intuition: Model Mergingによってパラメータの絶対値が減少 à 重要なパラメータに影響 à合成後のモデルの性能が劣化

新規性性能への寄与が少ない冗長な値の削除パラメータの正負が異なる際の処理: 優位な符号を採用し, その符号に合致するパラメータのみを合成 9 提案 – TIES-Merging (TrIm,
Elect Sign & Merge)

1. Task vector 𝜏% = 𝜃% − 𝜃&'&( (fine-tuningでのパラメータ差分) を作成
2. Trim: 絶対値が大きい上位k%を残して𝜏% をゼロ埋め (冗長な値の削除) 3. Elect: task vectorの総和の符号𝛾) = sgn(∑%*+ , 𝜏%)を記録 4. Disjoint Merge: 𝜏% の内, 符号が𝛾) と同一のものだけを採用して平均することで合成 10 TIES-Merging – アルゴリズムの全体像

2. Trim: 絶対値が大きい上位k%を残して𝜏% をゼロ埋め (冗長な値の削除) 3. Elect: task vectorの総和の符号𝛾) = sgn(∑%*+ , 𝜏%)を記録 (優位な符号) 4. Disjoint Merge: 𝜏% の内, 符号が𝛾) と同一のものだけを採用して平均することで合成 11 TIES-Merging – アルゴリズムの全体像

2. Trim: 絶対値が大きい上位k%を残して𝜏% をゼロ埋め (冗長な値の削除) 3. Elect: task vectorの総和の符号𝛾) = sgn(∑%*+ , 𝜏%)を記録 4. Disjoint Merge: 𝜏% の内, 符号が𝛾) と同一のものだけを採用して平均することで合成 5. 合成して得たパラメータ差分を𝜆倍して事前学習モデルに適用 (scaling) (𝜆 はハイパラ) 14 TIES-Merging – アルゴリズムの全体像

ベースライン: Averaging, RegMean, Fisher Merging, Task Arithmetic その他の条件: à 追加学習なし
Fine-tuned: 単一タスクでfine-tuning Multitask: 全てのタスクのデータを使ったマルチタスク学習 15 実験設定 – 複数のモデルからマルチタスクモデルを合成 Validation setを使ったハイパラ調整の有無各タスクの平均で比較

ドメインが異なる8つのタスク E.g.: Cars, MNIST, EuroSAT (衛星画像), ... 事前学習済みモデル: CLIP (ViT-B/32,
ViT-L/14) 16 定量的結果 – 画像分類タスクにおいて既存手法を上回る性能

異なる7つのNLPタスク E.g.: Question Answering, Sentence Completion, Coreference Resolution, ... 事前学習済みモデル:
T5-Base, T5-Large 17 定量的結果 – NLPタスクにおいて既存手法を上回る性能

異なる11個のNLPタスク E.g.: Sentence Completion, Coreference Resolution, ... 事前学習済みモデル: T0-3B 18
定量的結果 – 少ない追加パラメータを学習する条件でも優位 (IA)3 [Liu+, NeurIPS22]: 学習可能ベクトルを用意して事前学習済みモデルの特定の線形層の出力を重み付け

異なる7つのNLPタスクでfine-tuning E.g.: Question Answering, Sentence Completion, Coreference Resolution, ... 事前学習済みモデル:
T5-Base, T5-Large 学習に使用したデータセットに含まれない6つのデータセットで評価 19 定量的結果 – 分布外汎化においても既存手法を上回る性能

ベースライン: 単純な平均, Task Arithmetic 縦軸: Average Normalized Accuracy 各タスクの精度について, そのタスクのみでfine-tuningしたモデルの
精度で正規化した値 (Normalized Accuracy) を算出し, 平均値を計算 20 定量的結果 – タスク数を増やした場合の性能劣化が小さい

同じタスクでFine-tuningした上位10個のモデルから頑健なモデルを合成ベースライン: 全てのモデルのアンサンブル, 単純な平均 Fisher Merging, Task Arithmetic モデル: base
sized BERT 21 定量的結果 – 同じタスクでfine-tuningしたモデルの合成においてアンサンブルの性能を上回る

GLUEベンチマークから8つのタスクを抽出, 1つのタスクXを除いた7つのタスクでModel Mergingを行い, タスクXのfine-tuningの初期値とするベースライン: 事前学習モデルの初期値 (PTM Init), 単純な平均, Task
Arithmetic モデル: base sized BERT 22 定量的結果 – TIES-Mergingで合成したマルチタスクモデルは初期パラメータとして事前学習モデルより優位

Ablation Study: Disjoint mergeとscaling が最も影響大符号選択の際に, マルチタスク学習で得たモデル (オラクル条件) のパラメータの符号を採用
à 性能がオラクル条件に近づく 23 追加分析 – 合成時の符号の選択が非常に重要

Model Merging: タスク特化モデルを合成 à マルチタスクモデル Model Mergingにおける最終的なモデルの性能を劣化させる原因としてパラメータ干渉を指摘パラメータ干渉の影響を低減するため TIES-Mergingを提案
性能への寄与が少ない冗長な値の削除正負が異なる際, 優位なパラメータを採用複数のモダリティ, タスク, モデル, fine-tuning設定で既存手法を上回る 24 SUMMARY – TIES-Merging

Strength 提案内容が明確かつ単純多様な実験で提案手法の評価を行っている Weakness 理論的な側面の議論, 分析が少ないその他符号選択について, オラクル条件との差がかなり大きく見えるので, もう少し符号選択について分析,
後続研究が欲しい (引用の会議名のスタイルが統一がされていない) 25 おきもち

Appendix

Paper: https://openreview.net/pdf?id=xtaX3WyCj1 Code: https://github.com/prateeky2806/ties-merging Open Review: https://openreview.net/forum?id=xtaX3WyCj1 27 Links

[Journal club] TIES-Merging: Resolving Interfe...

[Journal club] TIES-Merging: Resolving Interference When Merging Models

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

TIES-Merging: Resolving Interference When Merging Models Prateek Yadav1, Derek Tam1,

Model Merging: タスク特化モデルを合成 à マルチタスクモデル Model Mergingにおける最終的なモデルの性能を劣化させる原因としてパラメータ干渉を指摘パラメータ干渉の影響を低減するため TIES-Mergingを提案

5 関連研究 – 複数の合成方法が提案されている概要 RegMean [Jin+, ICLR’23] マルチタスクモデル内の線形層の出力をタスク特化モデル内の線形層の出力に近づける線形回帰を解き,

モデルの性能は絶対値が大きい一部のパラメータに依存絶対値が大きいものだけ20% 残してもほぼ性能が落ちない 6 動機 – パラメータ干渉が合成後のモデルの性能を劣化させる後述するモデル (IA)3

モデルの性能は絶対値が大きい一部のパラメータに依存絶対値が大きいものだけ20% 残してもほぼ性能が落ちない 2つのモデルを合成するだけでも正負の不整合が発生 4つ合成すれば1割不整合が発生 7 動機 –

モデルの性能は絶対値が大きい一部のパラメータに依存絶対値が大きいものだけ20% 残してもほぼ性能が落ちない 2つのモデルを合成するだけでも正負の不整合が発生 4つ合成すれば1割不整合が発生 8 動機 –

新規性性能への寄与が少ない冗長な値の削除パラメータの正負が異なる際の処理: 優位な符号を採用し, その符号に合致するパラメータのみを合成 9 提案 – TIES-Merging (TrIm,

1. Task vector 𝜏% = 𝜃% − 𝜃&'&( (fine-tuningでのパラメータ差分) を作成

1. Task vector 𝜏% = 𝜃% − 𝜃&'&( (fine-tuningでのパラメータ差分) を作成

1. Task vector 𝜏% = 𝜃% − 𝜃&'&( (fine-tuningでのパラメータ差分) を作成

1. Task vector 𝜏% = 𝜃% − 𝜃&'&( (fine-tuningでのパラメータ差分) を作成

1. Task vector 𝜏% = 𝜃% − 𝜃&'&( (fine-tuningでのパラメータ差分) を作成

ベースライン: Averaging, RegMean, Fisher Merging, Task Arithmetic その他の条件: à 追加学習なし

ドメインが異なる8つのタスク E.g.: Cars, MNIST, EuroSAT (衛星画像), ... 事前学習済みモデル: CLIP (ViT-B/32,

異なる7つのNLPタスク E.g.: Question Answering, Sentence Completion, Coreference Resolution, ... 事前学習済みモデル:

異なる11個のNLPタスク E.g.: Sentence Completion, Coreference Resolution, ... 事前学習済みモデル: T0-3B 18

異なる7つのNLPタスクでfine-tuning E.g.: Question Answering, Sentence Completion, Coreference Resolution, ... 事前学習済みモデル:

ベースライン: 単純な平均, Task Arithmetic 縦軸: Average Normalized Accuracy 各タスクの精度について, そのタスクのみでfine-tuningしたモデルの

同じタスクでFine-tuningした上位10個のモデルから頑健なモデルを合成ベースライン: 全てのモデルのアンサンブル, 単純な平均 Fisher Merging, Task Arithmetic モデル: base

GLUEベンチマークから8つのタスクを抽出, 1つのタスクXを除いた7つのタスクでModel Mergingを行い, タスクXのfine-tuningの初期値とするベースライン: 事前学習モデルの初期値 (PTM Init), 単純な平均, Task

Ablation Study: Disjoint mergeとscaling が最も影響大符号選択の際に, マルチタスク学習で得たモデル (オラクル条件) のパラメータの符号を採用

Model Merging: タスク特化モデルを合成 à マルチタスクモデル Model Mergingにおける最終的なモデルの性能を劣化させる原因としてパラメータ干渉を指摘パラメータ干渉の影響を低減するため TIES-Mergingを提案

Strength 提案内容が明確かつ単純多様な実験で提案手法の評価を行っている Weakness 理論的な側面の議論, 分析が少ないその他符号選択について, オラクル条件との差がかなり大きく見えるので, もう少し符号選択について分析,

Appendix

Paper: https://openreview.net/pdf?id=xtaX3WyCj1 Code: https://github.com/prateeky2806/ties-merging Open Review: https://openreview.net/forum?id=xtaX3WyCj1 27 Links