Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] TIES-Merging: Resolving Interference When Merging Models

[Journal club] TIES-Merging: Resolving Interference When Merging Models

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. TIES-Merging: Resolving Interference When Merging Models Prateek Yadav1, Derek Tam1,

    Leshem Choshen2,3, Colin Raffel1, Mohit Bansal1 1: University of North Carolina at Chapel Hill 2: IBM Research 3: MIT 慶應義塾大学 杉浦孔明研究室 小槻誠太郎 P. Yadav, D. Tam, L. Choshen, C. Raffel, and M. Bansal, “TIES-Merging: Resolving Interference When Merging Models,” in NeurIPS, 2023. NeurIPS23 (Poster)
  2. Model Merging: タスク特化モデルを合成 à マルチタスクモデル Model Mergingにおける最終的なモデルの性能を劣化させる原因として パラメータ干渉を指摘 パラメータ干渉の影響を低減するため TIES-Mergingを提案

    性能への寄与が少ない冗長な値の削除 正負が異なる際, 優位なパラメータを採用 複数のモダリティ, タスク, モデル, fine-tuning設定で既存手法を上回る 2 SUMMARY – TIES-Merging
  3. 4 関連研究 – パラメータ補間の成否とloss landscapeが関連 基本的にneural networkの損失関数は凸でないにも関わらず, 異なる学習を経たモデル同士のパラメータを損失を増加させずに 補間できる場合がある (定義域がパラメータであるloss

    landscape上でmode-connected (like..↑)) 概要 [Frankle+, ICML’20] 最適化の軌道を一部共有しているモデル同士は 性能を劣化させずに補間可能 [Neyshabur+, NeurIPS’20] モデル同士が完全に異なる最適化の軌道を辿って いた場合, 愚直に補間すると破局的な性能劣化 [Entezari+, ’21] [仮説]: 順列対称性によって, 同じデータセットで 学習した同じ構造のモデルは線形補間可能 à [Wang+, ICLR’20]がpermutationを考慮, [Singh+, NeurIPS’20]が 最適輸送を利用してfrom scratchモデル同士を損失を増加させずに合成
  4. 5 関連研究 – 複数の合成方法が提案されている 概要 RegMean [Jin+, ICLR’23] マルチタスクモデル内の線形層の出力をタスク特化 モデル内の線形層の出力に近づける線形回帰を解き,

    マルチタスクモデルのパラメータを閉形式で導出 Fisher Merging [Matena+, NeurIPS’21] Fisher情報量行列 ! 𝐹% の値によってパラメータに 重み付けを行い, 加重和をマルチタスクモデルの パラメータとする Task Arithmetic [Ilharco+, ICLR’23] Fine-tuningでのパラメータ差分をtask vectorとして 定義し, その加減算によってマルチタスクモデルの パラメータを導出
  5. モデルの性能は絶対値が大きい 一部のパラメータに依存 絶対値が大きいものだけ20% 残してもほぼ性能が落ちない 6 動機 – パラメータ干渉が合成後のモデルの性能を劣化させる 後述するモデル (IA)3

    の マルチタスク平均パフォーマンス 11個のデータセットを合成したマル チタスクデータセットで学習 タスク: sentence completion, NLI, ...
  6. モデルの性能は絶対値が大きい 一部のパラメータに依存 絶対値が大きいものだけ20% 残してもほぼ性能が落ちない 2つのモデルを合成するだけでも 正負の不整合が発生 4つ合成すれば1割不整合が発生 8 動機 –

    パラメータ干渉が合成後のモデルの性能を劣化させる Intuition: Model Mergingによってパラメータの絶対値が減少 à 重要なパラメータに影響 à合成後のモデルの性能が劣化
  7. 1. Task vector 𝜏% = 𝜃% − 𝜃&'&( (fine-tuningでのパラメータ差分) を作成

    2. Trim: 絶対値が大きい上位k%を残して𝜏% をゼロ埋め (冗長な値の削除) 3. Elect: task vectorの総和の符号𝛾) = sgn(∑%*+ , 𝜏%)を記録 4. Disjoint Merge: 𝜏% の内, 符号が𝛾) と同一のものだけを採用して平均することで合成 10 TIES-Merging – アルゴリズムの全体像
  8. 1. Task vector 𝜏% = 𝜃% − 𝜃&'&( (fine-tuningでのパラメータ差分) を作成

    2. Trim: 絶対値が大きい上位k%を残して𝜏% をゼロ埋め (冗長な値の削除) 3. Elect: task vectorの総和の符号𝛾) = sgn(∑%*+ , 𝜏%)を記録 (優位な符号) 4. Disjoint Merge: 𝜏% の内, 符号が𝛾) と同一のものだけを採用して平均することで合成 11 TIES-Merging – アルゴリズムの全体像
  9. 1. Task vector 𝜏% = 𝜃% − 𝜃&'&( (fine-tuningでのパラメータ差分) を作成

    2. Trim: 絶対値が大きい上位k%を残して𝜏% をゼロ埋め (冗長な値の削除) 3. Elect: task vectorの総和の符号𝛾) = sgn(∑%*+ , 𝜏%)を記録 (優位な符号) 4. Disjoint Merge: 𝜏% の内, 符号が𝛾) と同一のものだけを採用して平均することで合成 12 TIES-Merging – アルゴリズムの全体像
  10. 1. Task vector 𝜏% = 𝜃% − 𝜃&'&( (fine-tuningでのパラメータ差分) を作成

    2. Trim: 絶対値が大きい上位k%を残して𝜏% をゼロ埋め (冗長な値の削除) 3. Elect: task vectorの総和の符号𝛾) = sgn(∑%*+ , 𝜏%)を記録 (優位な符号) 4. Disjoint Merge: 𝜏% の内, 符号が𝛾) と同一のものだけを採用して平均することで合成 13 TIES-Merging – アルゴリズムの全体像
  11. 1. Task vector 𝜏% = 𝜃% − 𝜃&'&( (fine-tuningでのパラメータ差分) を作成

    2. Trim: 絶対値が大きい上位k%を残して𝜏% をゼロ埋め (冗長な値の削除) 3. Elect: task vectorの総和の符号𝛾) = sgn(∑%*+ , 𝜏%)を記録 4. Disjoint Merge: 𝜏% の内, 符号が𝛾) と同一のものだけを採用して平均することで合成 5. 合成して得たパラメータ差分を𝜆倍して事前学習モデルに適用 (scaling) (𝜆 はハイパラ) 14 TIES-Merging – アルゴリズムの全体像
  12. ベースライン: Averaging, RegMean, Fisher Merging, Task Arithmetic その他の条件: à 追加学習なし

    Fine-tuned: 単一タスクでfine-tuning Multitask: 全てのタスクのデータを使ったマルチタスク学習 15 実験設定 – 複数のモデルからマルチタスクモデルを合成 Validation setを使った ハイパラ調整の有無 各タスクの平均で比較
  13. ドメインが異なる8つのタスク E.g.: Cars, MNIST, EuroSAT (衛星画像), ... 事前学習済みモデル: CLIP (ViT-B/32,

    ViT-L/14) 16 定量的結果 – 画像分類タスクにおいて既存手法を上回る性能
  14. 異なる7つのNLPタスク E.g.: Question Answering, Sentence Completion, Coreference Resolution, ... 事前学習済みモデル:

    T5-Base, T5-Large 17 定量的結果 – NLPタスクにおいて既存手法を上回る性能
  15. 異なる11個のNLPタスク E.g.: Sentence Completion, Coreference Resolution, ... 事前学習済みモデル: T0-3B 18

    定量的結果 – 少ない追加パラメータを学習する条件でも優位 (IA)3 [Liu+, NeurIPS22]: 学習可能ベクトルを用意して 事前学習済みモデルの特定の 線形層の出力を重み付け
  16. 異なる7つのNLPタスクでfine-tuning E.g.: Question Answering, Sentence Completion, Coreference Resolution, ... 事前学習済みモデル:

    T5-Base, T5-Large 学習に使用したデータセットに含まれない6つのデータセットで評価 19 定量的結果 – 分布外汎化においても既存手法を上回る性能
  17. ベースライン: 単純な平均, Task Arithmetic 縦軸: Average Normalized Accuracy 各タスクの精度について, そのタスクのみでfine-tuningしたモデルの

    精度で正規化した値 (Normalized Accuracy) を算出し, 平均値を計算 20 定量的結果 – タスク数を増やした場合の性能劣化が小さい
  18. GLUEベンチマークから8つのタスクを抽出, 1つのタスクXを除いた7つのタスクでModel Mergingを行い, タスクXのfine-tuningの初期値とする ベースライン: 事前学習モデルの初期値 (PTM Init), 単純な平均, Task

    Arithmetic モデル: base sized BERT 22 定量的結果 – TIES-Mergingで合成したマルチタスクモデルは 初期パラメータとして事前学習モデルより優位
  19. Model Merging: タスク特化モデルを合成 à マルチタスクモデル Model Mergingにおける最終的なモデルの性能を劣化させる原因として パラメータ干渉を指摘 パラメータ干渉の影響を低減するため TIES-Mergingを提案

    性能への寄与が少ない冗長な値の削除 正負が異なる際, 優位なパラメータを採用 複数のモダリティ, タスク, モデル, fine-tuning設定で既存手法を上回る 24 SUMMARY – TIES-Merging