Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[論文紹介] Evolutionary Optimization of Model Mergi...

h0jicha
August 27, 2024

[論文紹介] Evolutionary Optimization of Model Merging Recipes

h0jicha

August 27, 2024
Tweet

Other Decks in Research

Transcript

  1. Evolutionary Optimization of Model Merging Recipes Takuya Akiba, Makoto Shing,

    Yujin Tang, Qi Sun, David Ha Sakana AI https://arxiv.org/abs/2403.13187 (v1: 2024/03/19) スライド作成:h0jicha (https://x.com/_h0jicha)
  2. Abstract コスト効率の良い基盤モデルの作成手法であるモデルマージは 実験設定が 人間の直感や知識に依存 していて探索に制限がある 課題 以下のモデルを 自動的に 作成することができた ①

    日本語 LLM + 数学推論 LLM → 日本語数学推論 LLM ② 日本語 LLM + 英語 VLM → 日本語 VLM 結果 進化的モデルマージ:モデルマージに適した設定を進化計算で探索する 手法 2
  3. Introduction 大規模言語モデル(LLM)のモデル構造 Advances in Transformer Models From Transformers to LLaMA

    and Mistral https://www.linkedin.com/pulse/advances-transformer-models-from-transformers-llama-mistral-kavadiki-ofowc/ 4
  4. Advances in Transformer Models From Transformers to LLaMA and Mistral

    https://www.linkedin.com/pulse/advances-transformer-models-from-transformers-llama-mistral-kavadiki-ofowc/ Introduction 大規模言語モデル(LLM)のモデル構造 ① Feed Forward や Attention に 学習可能な重み が存在する ② 同一の構造を持つ層 が複数積み重なっている 5
  5. Background and Related Work TIES-Merging (TRIM, ELECT SIGN & MERGE)

    単純な重み加算によるモデルマージに発生する情報の欠落を改善 より性能の良い TIES-Merging with DARE もある TIES-Merging: Resolving Interference When Merging Models (NeurIPS2023) https://arxiv.org/abs/2306.01708 9
  6. Background and Related Work CMA-ES (Covariance Matrix Adaptation Evolution Strategy)

    進化戦略によるブラックボックス最適化 多変量正規分布のパラメタを更新しながら解空間を探索する 図は On the Eclipsing Phenomenon with Phase Codes https://ieeexplore.ieee.org/document/9078918 から引用 参考: Optunaから簡単に利用できる「CMA-ES」進化計算で最も有力な連続最適化問題のアルゴリズム https://logmi.jp/tech/articles/325461 10
  7. Method 進化計算による最適化 • 設計変数 • PS マージ: TIES-Merging with DARE

    で使用されるパラメタ • DFS マージ: 層の接続の順番・モデル横断時に使用される W • 目的関数:対象タスクの評価指標(ベンチマークスコア) • 最適化アルゴリズム • 基本的には CMA-ES • 多目的の場合は NSGA-II 15
  8. Experiments ① 日本語 LLM + 数学推論 LLM → 日本語数学推論 LLM

    ② 日本語 LLM + 英語 VLM → 日本語 VLM 16
  9. Experiments ① 日本語 LLM + 数学推論 LLM → 日本語数学推論 LLM

    日本語 LLM shisa-gamma-7b-v1 数学推論 LLM WizardMath-7B-V1.1 Abel-7B-002 進化的モデルマージ 日本語数学推論 LLM 17
  10. Experiments ① 日本語 LLM + 数学推論 LLM → 日本語数学推論 LLM

    日本語数学推論 日本語一般推論 小さいモデルサイズで高い日本語数学推論性能を獲得 19
  11. Experiments ② 日本語 LLM + 英語 VLM → 日本語 VLM

    日本語 LLM shisa-gamma-7b-v1 英語 VLM LLaVA-1.6-Mistral-7B 進化的モデルマージ 日本語 VLM 21
  12. Experiments ② 日本語 LLM + 英語 VLM → 日本語 VLM

    LLaVA-1.6-Mistral-7B (VLM) のモデル構造イメージ Mistral-7B-v0.1 (LLM) VLM 内で使用される LLM をマージ対象とする Visual Instruction Tuning (NeurIPS2023) https://arxiv.org/abs/2304.08485 22
  13. ② 日本語 LLM + 英語 VLM → 日本語 VLM Experiments

    日本語 VQA 日本語 複雑な視覚的質問応答 日本語の視覚的質問応答タスクに適切に回答 23
  14. Method DFS マージの計算量 • 全マージ対象モデルの層の総数を M 、マージ後モデルの推論層数 を T とすると、マージ時の層の探索空間のサイズは

    (M + 1)^T (軽量な設定 M = 64, T = 60 でも、天文学的な値となる) • 探索空間のサイズを下げるために Indicator array I を導入する • T = M × r とすると、探索空間のサイズは 2^T に削減される • このサイズであれば、進化計算で探索可能 27
  15. Method DFS マージにおける重み行列 W について • Wij は モデル 1

    の層 i と モデル 2 の層 j を接続するときの 分布シフトを緩和するために導入する重み • Wij も進化計算による最適化の対象 • 実際は FC 層としてモデリングする 28
  16. Experiments ① 日本語 LLM + 数学推論 LLM → 日本語数学推論 LLM

    MGSM (Multilingual Grade School Math) 問題 カーラは200ギガバイトのファイルをダウンロードしようとしています。 通常であれば1分あたり2ギガバイトの速度でダウンロードが可能なのですが、ダウンロードが40%進ん だところで、ウィンドウズがアップデートのインストールのため20分かけて再起動してしまいます。 その後、カーラは最初からダウンロードをし直すことになりました。ファイルのダウンロードにはどれほど の時間がかかりますか? 正解 160 (分) Juletxara/mgsm (https://huggingface.co/datasets/juletxara/mgsm) 日本語テストセットから抜粋 29
  17. Experiments ① 日本語 LLM + 数学推論 LLM → 日本語数学推論 LLM

    日本語 LLM 層 数学 LLM 層 ・推論前半で 日本語 LLM の最終層を除く全層 が使用される ・進化が進むと使用される層の数が減少する 進化に伴う推論時データフロー(層選択)の変化 30
  18. Experiments ② 日本語 LLM + 英語 VLM → 日本語 VLM

    主な実験設定 • ① パラメタ空間におけるマージ のみを適用 • アルゴリズムは日本語数学推論 LLM を作成したときと同様 • 最適化には Japanese Visual Genome VQA を使用 • https://github.com/yahoojapan/ja-vg-vqa 31