Upgrade to Pro — share decks privately, control downloads, hide ads and more …

アプリケーションから知るモデルマージ

maguro27
December 18, 2024

 アプリケーションから知るモデルマージ

複数のニューラルネットワークの重みを結合する技術であるモデルマージについて,アプリケーションから紹介し,理論的なおもしろさや,展望についてまとめたスライドです.

maguro27

December 18, 2024
Tweet

More Decks by maguro27

Other Decks in Research

Transcript

  1. 自己紹介 2 綱島 秀樹 ◆所属 早稲田大学 博士5年-森島繁生研究室 ◆研究テーマ 修士課程:深層画像生成モデルの計算量・パラメータ削減 博士課程1年:複数物体を対象とした教師無し前景背景分解

    博士課程2年:Embodied AI関連 博士課程3年〜:常識獲得,系統的汎化 産総研(元):服と人のペアデータを必要としない仮想試着 ◆趣味 筋トレ,アメフト,読書,音楽ゲーム,FPS, ゴルフ,飲酒,麻雀,ビリヤード,写真,etc...
  2. モデルマージ 4 [1] Yang et al., “Model Merging in LLMs,

    MLLMs, and Beyond: Methods, Theories, Applications and Opportunities”, arXiv preprint, 2024. モデルマージとは誤解を恐れずに言えば,ニューラルネットワークをがっちゃんこ※して 複数モデルの能力を発現させる技術 ※ 厳密にはニューラルネットワークの重み(パラメータ)を足し合わせる モデルマージ概念図 [1]
  3. モデルマージのアプリケーション例 6 [1] 凛音エルちゃん比較用(オリジナル), “https://www.youtube.com/watch?v=cgEWYx3A-oU”, 2024年10月18日閲覧. [2] 凛音エルちゃん差分マージ囁き1, “https://www.youtube.com/watch?v=MtnkiyS2vro&t=18s”, 2024年10月18日閲覧.

    ⚫ テキストからの音声合成のモデルマージ Aさんが普通に喋っているモデル + (Bさんが囁いているモデル – Bさんが普通に喋っているモデル) = Aさんが囁いているモデル Aさんが普通に喋っているモデル [1] モデルマージ後のAさんが囁いているモデル [2]
  4. モデルマージのアプリケーション例 7 ⚫ 画像生成のモデルマージ 日本語特化の画像生成モデル(低品質) + 英語をベースとした画像生成モデル(高品質) = 高品質な日本語特化の画像生成モデル 高品質な日本語特化の画像生成モデル

    + 高速な処理が可能な英語をベースとした画像生成モデル = 高品質な日本語特化で高速な処理が可能な画像生成モデル プロンプトは「ラーメン、浮世絵、葛飾北斎」,「折り紙弁当」,「(下町ロケット,東京サラリーマン),浮世絵」, 「可愛いゾウの編みぐるみ」などで高品質な日本語特化で高速な処理が可能な画像生成モデルで生成した画像 [1] [1] 画像生成モデルへの進化的モデルマージの適用 日本語対応した高速な画像生成モデルを教育目的で公開, “https://sakana.ai/evosdxl-jp/”, 2024年10月18日閲覧.
  5. モデルマージでできること 11 [1] Wolfe, “Model Merging: A Survey”, “https://cameronrwolfe.substack.com/p/model-merging”, 2024年10月18日閲覧.

    [2] Li et al., “Deep Model Fusion: A Survey”, arXiv preprint, 2023. [3] Yang et al., “Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities”, arXiv preprint, 2024. ⚫ 複数モデルの能力の統合 [1, 2, 3] ➢ 同モダリティでの能力統合(例:英語に強いLLM + 数学に強いLLM) ➢ 目的関数が違うモデルの能力統合(例:解決能力特化LLM + 安全性特化LLM) ➢ LoRAのマージ(例:Llamaを日本語でLoRA FTとLlamaを数学でLoRA FTのLoRA部分) ➢ 副次的にレイテンシを減らせる(アンサンブルする必要がない)
  6. モデルマージでできること 13 ⚫ 能力の削除 ➢ 解毒;Detoxification(例:トキシックな発言(例:人種差別)をするLLMから毒性除去) 毒性モデルA - (毒性モデルB –

    良性モデルB) = 良性モデルA(毒性ベクトルの減算) ➢ 学習棄却;Unlearning(例:個人情報をペラペラ喋るLLMから個人情報を取り除く) 個人情報モリモリモデルA - (個人情報モリモリモデルB – 良性モデルB)= 良性モデルA ⚫ 攻撃:モデルプール(マージするモデル群)に毒性モデルを混ぜることで,良性モデルを汚染可能 良性モデルA + 毒性モデルB(攻撃モデル) + 良性モデルC = 毒性モデルD ⚫ 汎化性能向上:訓練チェックポイントをいくつかマージすることで汎化性能が上昇 モデルA(10,000 iter)+ モデルB(50,000 iter)+ モデルC(500,000 iter)= モデルD ⚫ 破滅的忘却の抑制:事前学習モデルとfine-tunedモデルをマージして破滅的忘却を抑制 事前学習モデル + fine-tunedモデル = 事前学習内容も保持したfine-tunedモデル
  7. モデルマージでできること 14 ⚫ 連合学習への適応:学習データ量に応じた重み付けなどでマージする 0.2 x モデルA + 0.5 x

    モデルB + 0.3 x モデルC = UpdatedモデルD 中央集約型連合学習と分散連合学習 [1] [1] Li et al., “Deep Model Fusion: A Survey”, arXiv preprint, 2023.
  8. モデルマージのトレンド 21 ⚫ 理論面 ➢ モード接続性(最頻値接続性※) ※ 綱島の造語.おそらく日本語に直すとこうなる 簡単に言うと,2つのモデルの重みを補完するパスの中に,テスト誤差が一定になる領域が存在し ていること

    その中でも以下の3点がメジャー  線形接続性  非線形接続性  重みアライメント (例:Re-basin) モード接続性の概念図 [1] [1] Li et al., “Deep Model Fusion: A Survey”, arXiv preprint, 2023.
  9. モデルマージのトレンド 22 ⚫ 理論面 ➢ モード接続性(最頻値接続性※) ※ 綱島の造語.おそらく日本語に直すとこうなる 簡単に言うと,2つのモデルの重みを補完するパスの中に,テスト誤差が一定になる領域が存在し ていること

    その中でも以下の3点がメジャー  線形接続性  非線形接続性  重みアライメント (例:Re-basin) 重みアライメントの概念図 [1] [1] Li et al., “Deep Model Fusion: A Survey”, arXiv preprint, 2023.
  10. モデルマージのトレンド 23 ⚫ 理論面 ➢ モード接続性(最頻値接続性) ➢ スパース性解析 巨大でよく学習されているモデルは,パラメータがスパース(疎,まばら)になっており, マージが機能しやすいとも言われている

    それゆえ,スパース性について解析することがモデルマージを解き明かすことの一つと なり得る可能性がある ちなみに余談ですが,幼児も急激に脳内のニューロンが増加した後に,段々とニューロン数 が減少していきます(ニューラルネットの剪定(pruning)と同等の処理が起きている)[1] [1] 山口真美, 金沢創. 乳幼児心理学〔改訂版〕 (放送大学教材), 放送大学教育振興会, 2016.
  11. モデルマージの長所短所 34 ⚫ 長所 ✓ 複数モデルの能力の統合 ✓ ベクトル演算のようなことを重み空間で可能にする ✓ 能力の削除

    ✓ 攻撃 ✓ 汎化性能向上 ✓ 破滅的忘却の抑制 ✓ 連合学習への適応 ⚫ 短所  スクラッチからの学習では基本的に適用できない  アーキテクチャが異なるマージが基本的にはできない