Slide 1

Slide 1 text

画風変換LoRAの内部パラメータによる モデルの埋め込み表現の獲得 (静岡大学) (兵庫県立大学) (筑波大学) (兵庫県立大学) (LINEヤフー株式会社) (静岡大学) WebDB2025 大江 優真 ファム フーロン (静岡大学) 金田 悠路 加藤 誠 大島 裕明 藤田 澄男 莊司 慶行 3B-2

Slide 2

Slide 2 text

大量のLoRAモデルの効率的な管理が必要! 1 メタデータや出力サンプルなしでも類似度計算を可能にしたい! 各業務用の LoRA を 大量に管理する必要 ロゴLoRA ブランドロゴ製作 独自の 画像生成AI マニュアル製作 図解LoRA 生成AIの実利用ではLoRAが必須 メタデータや出力例のないLoRAがあったとき… 類似するLoRAがわかれば どんなLoRAかを知る手がかりに! LoRA ? は ロゴLoRA と似ている! メタデータ 出力例 なし なし LoRA ? このLoRA、何用に 作られたLoRAだっけ?

Slide 3

Slide 3 text

アプローチ:画風変換LoRAの持つパラメータからLoRAモデルを直接embedding 2 入力 LoRAモデル本体 提案手法 LoRAの特徴を 反映したベクトル 出力 ≒ 数百次元の意味のある数列 ≒ 数千万個のパラメータ など詳細情報がないモデルでも メタデータ 出力サンプル モデルのパラメータからベクトル化が可能に!

Slide 4

Slide 4 text

LoRAモデルをベクトル化することのメリット 3 ➀LoRAモデル間の距離計算が可能 ➁LoRA自体を機械学習によって分析可能 LoRA1 ベクトル空間内で どちらが近い? LoRA2 LoRA3 LoRAモデルをベクトルで管理することで 類似度判定、クラスタリングができる LoRAモデルの特徴を考慮した比較が可能に LoRA1 LoRA2 LoRA3 機械学習 モデル ベクトルに変換し入力可能! 機械学習によって分類、ランキングが可能 内部パラメータによるLoRAモデル検索も

Slide 5

Slide 5 text

本研究の強み LoRAの持つパラメータさえあれば未知なモデルもベクトル化可能 4 モデルのパラメータ 提案 エンコーダ LoRAの特徴を 反映したベクトル 既存のモデルベクトル化 付随する情報を持たない未知モデルのベクトル化が不可能! モデルのパラメータの特徴から未知モデルをベクトル化可能! モデル関連の情報 からベクトル化 LoRA ? モデルの内部パラメータがあればベクトル化可能 強み 図解 LoRA イメージエンコーダ LoRAベクトル として代替 LoRAの代替となる ・メタデータ ・出力例 ・学習データ がベクトル化に必須 出力例 出力画像 ベクトル

Slide 6

Slide 6 text

本研究のアプローチ:次元圧縮×距離学習 5 LoRAのパラメータ モデルのパラメータを NNで扱いやすい形に変換 NNによる 距離学習 LoRAの特徴を 反映したベクトル 次元圧縮 ・ ・ ・ 一つのLoRAを 次元圧縮ベクトル系列に LoRAモデルのパラメータから によってベクトル化 前処理 モデルのパラメータが持つ 相対的な距離関係を学習 メイン処理 入力 出力 ・次元圧縮 ・距離学習

Slide 7

Slide 7 text

提案手法の概要 6 ➀LoRAのパラメータをレイヤ単位で復元しflat化 ➁各LoRAのflat化したベクトルを レイヤ単位でPCAによる次元圧縮 ③Triplet Networkによる距離学習 前処理フェーズ メイン処理フェーズ

Slide 8

Slide 8 text

提案手法の概要 7 ➀LoRAのパラメータをレイヤ単位で復元しflat化 ➁各LoRAのflat化したベクトルを レイヤ単位でPCAによる次元圧縮 ③Triplet Networkによる距離学習 前処理フェーズ メイン処理フェーズ

Slide 9

Slide 9 text

8 LoRAの パラメータ レイヤ単位でflat化 ・ ・ ・ Text_encoder 1層目 Text_encoder 2層目 ➀LoRAのパラメータをレイヤ単位で復元しflat化 低ランク 圧縮行列 低ランク 復元行列 Text_encoder 1層目 Text_encoder 2層目 LoRAのパラメータ ・ ・ ・ レイヤごとに 低ランク行列を 掛け合わせて 元の行列を復元 ・ ・ ・ 異なるランクの LoRAを同じ次元で扱う工夫 パラメータのもつ特徴や構造的情報を保持しつつ共通の形式に変換 LoRAのパラメータ (Flat後) 目的 LoRAのもつ特徴をなるべく保持しながら次元圧縮で扱える形に変換

Slide 10

Slide 10 text

提案手法の概要 9 ➀LoRAのパラメータをレイヤ単位で復元しflat化 ➁各LoRAのflat化したベクトルを レイヤ単位でPCAによる次元圧縮 ③Triplet Networkによる距離学習 前処理フェーズ メイン処理フェーズ

Slide 11

Slide 11 text

10 LoRA1のパラメータ (Flat後) レイヤ単位でflat後 ・ ・ ・ Text_encoder 1層目 Text_encoder 2層目 Text_encoder 3層目 ➁各LoRAをレイヤ単位のflat化したベクトルでまとめてPCAによる次元圧縮 レイヤ単位で PCAによる次元圧縮 LoRAを各レイヤ内に含まれる特徴を保持した レイヤ数分の次元圧縮ベクトル系列に構成 ・ ・ ・ Text_encoder 1層目 Text_encoder 2層目 Text_encoder 3層目 LoRA2 ・・・ Incremental PCA ・ ・ ・ Text_encoder 1 Text_encoder 2 Text_encoder 3 LoRA1のパラメータ (次元圧縮後) ・ ・ ・ Text_encoder 1 Text_encoder 2 Text_encoder 3 ・・・ LoRA2 レイヤごとに 特徴量を抽出 目的 各LoRAのもつレイヤ内の特徴を保持しながらNNで扱える形に変換

Slide 12

Slide 12 text

提案手法の概要 11 ➀LoRAのパラメータをレイヤ単位で復元しflat化 ➁各LoRAのflat化したベクトルを レイヤ単位でPCAによる次元圧縮 ③Triplet Networkによる距離学習 前処理フェーズ メイン処理フェーズ

Slide 13

Slide 13 text

12 ③Triplet Networkによる距離学習 LoRA1 LoRA2 学習時の入力 anchor LoRA3 positive negative 学習時の出力 LoRA1 Transformer Encoder 提案エンコーダ MLP層 提案エンコーダ 提案エンコーダ LoRA2 LoRA3 仮定 LoRA同士の類似性は絶対的ではなく相対的 Triplet Lossで学習後の潜在空間 anchor positive negative Triplet Lossによる相対的類似性の学習 より人間の直感に近い形で モデルの類似関係を学習 似ているペアを近くに 似ていないペアを 遠くに学習 目的 モデルパラメータが持つ特徴を相対的な類似性から学習 Triplet Loss

Slide 14

Slide 14 text

13 提案エンコーダの詳細構成 LoRAのレイヤ間の相互関係と構造的重要度を考慮した表現学習 エンコーダの目的: MLP層で構造的重要度を考慮 Transformer Encoderで レイヤ間の相互関係を考慮 レイヤ間の関連度を考慮 各レイヤの構造的重要度を考慮 ・絶対位置encoding で レイヤ構造情報を付与 ・Attentionでレイヤ間の相互関係を学習 絶対 位置 encoding Multi Head Attention FFN Transformer Encoder 全 結 合 層 ReLU MLP層 全 結 合 層 2.4 レイヤ単体 の重要度 0.21 Soft max LoRA内での レイヤの重み LoRAレイヤは異なる変換機能を担い 相互に意味的な影響を与えている 仮定 Transformer Encoder の出力 加重 平均 算出 LoRAのレイヤごとで比較時の重要度が異なる 仮定 レイヤの 重要度 LoRAモデルの類似性に関する 識別タスク(Triplet Loss) を解くのにどれくらい重要か になるように学習

Slide 15

Slide 15 text

メタデータや出力例のないLoRAの類似度計算が可能に 14 LoRAの パラメータ Triplet 距離学習 LoRAの特徴を 反映したベクトル 復元&Flat化 次元圧縮 ・ ・ ・ 一つのLoRAを 次元圧縮ベクトル系列に 提案手法 入力 出力 入力 出力 似ているLoRAを パラメータからベクトル演算で算出可能に + MLP Transformer Encoder

Slide 16

Slide 16 text

提案手法の評価 15 ➀推論性能に関するアブレーションテスト 提案手法に加えた工夫の組み合わせが有効か 人間の考えるモデルの類似性を学習できているか 提案手法から得られる埋め込み表現が検索タスクに有効か ➁埋め込み表現と人間の類似性判断との一致度 ③埋め込み表現を用いたモデル検索性能

Slide 17

Slide 17 text

16 「Civitai」から収集した Stable Diffusion用のLoRAを対象 学習データと比較手法 タグの類似度ベースで正解Tripletsを構築 アンカーLoRAに対して ・タグの類似度が0.6以上のLoRAをpositive ・タグの類似度が0.4以下のLoRAをnegative *タグの類似度分布から閾値を決定 データセット構成 種類 LoRA数 Triplets 学習 600 648,195 検証 100 7,365 評価 100 11,685 学習データ 比較手法 手法名 詳細 提案手法 絶対位置encodingと MLPによる加重平均を 組み合わせたエンコーダ MLPなし Transformerの出力を MLPによる加重平均 →ただの平均で算出 位置情報なし 提案手法から絶対位置 エンコーディングを 抜いた手法 ベースライン 絶対位置encodingと MLPによる加重平均を 抜いたエンコーダ 距離学習なし エンコーダを抜き、 次元圧縮ベクトル系列の 平均をLoRAベクトルに

Slide 18

Slide 18 text

実験結果➀:推論性能に関するアブレーションテスト 17 知見➀ の二つの組み合わせが埋め込み表現の質を向上 ・位置埋め込み ・MLPによる加重平均 LoRAの持つレイヤの構造情報に基づく重要度に応じた集約がLoRAの埋め込み表現の質を向上 手法名 Triplet Loss (エラー率) Triplet Acc (正解率) 提案手法 0.136 0.871 MLPなし 0.147 0.856 位置情報なし 0.208 0.779 ベースライン 0.157 0.832 距離学習無し 0.418 0.545 アブレーションテストの結果 ・距離学習により構造的類似性を学習 ・提案手法が最も高い結果に(統計的に有意) #ロゴ作成 ロゴ LoRA ロゴ LoRA キャラ LoRA 図解 LoRA ➁推論時の正解とするTripletの作成 positive negative ➀タグの類似度をLoRAの類似度として算出 Sim 0.94 Sim:0.24 Anchor Label LoRA ③作成した正解Tripletsをもとに推論 #キャラ作成 キャラ LoRA #図解 図解 LoRA ・距離学習ありでは位置情報なしが最も性能低下 二つの工夫を併用することで レイヤの構造的重要度に応じた集約が可能に

Slide 19

Slide 19 text

実験結果➁:埋め込み表現と人間の類似性判断との一致度 18 知見➁ 学習時の正解としたタグの類似性が変換画像の類似性と不一致 手法名 Triplet Loss Triplet Accuracy 提案手法 0.432 0.500 MLPなし 0.426 0.527 位置情報なし 0.414 0.507 ベースライン 0.408 0.569 人手でラベル付けしたTripletsに対する推論評価結果 ・提案手法がほかの手法と比べてやや劣る結果に (統計的有意差なし) 学習時の正解とした LoRAモデルにつく タグの類似性 実験時の正解とした LoRAモデルの 変換特徴の類似性 正解としたLoRAモデルに付与されたタグの類似性をモデルの特徴とするには不十分 ➀LoRAの変換画像の類似性を LoRAの類似性として被験者がラベル付け 似ている! 似ていない! ロゴ LoRA キャラ LoRA 図解 LoRA ➁推論時の正解とするTripletの作成 positive negative Anchor Label LoRA ③作成した正解Tripletsをもとに推論 ロゴLoRA キャラLoRA 図解LoRA ・全体的に低精度

Slide 20

Slide 20 text

実験結果③:埋め込み表現を用いたモデル検索性能 19 知見③ 検索タスクにおいて「Triplet Lossによる局所的順序関係の学習」では不十分 検索タスクに適用するには全体の順序最適化を図る損失関数の導入が必要 変換画像をもとにしたランキング性能結果 手法名 MAP@10 nDCG@10 MRR 提案手法 0.463 0.850 0.581 MLPなし 0.442 0.850 0.517 位置情報なし 0.429 0.868 0.508 ベースライン 0.434 0.847 0.490 ・nDCG@10以外で 提案手法が最も高い精度(統計的有意差なし) ・どの指標において手法間で大きな差なし 三つ組の相対的な類似性を 学習するTriplet Lossは 全体的な順序の最適化が不十分 ロゴ LoRA 手法➀ ➀クエリLoRAに類似するLoRAランキングを 推論したLoRAベクトルの類似度から作成 クエリ 順位 LoRA 1 ステッカー 2 キャラ 3 図解 … … ➁作成したクエリに類似するLoRAランキングを LoRAの変換画像の類似度合から被験者が点数付け 順位 LoRA 変換画像 1 ステッカー 2 キャラ 3 図解 … … ロゴ LoRA クエリ 4 2 3 ③点数とランキング順位をもとに ランキング上位の順序整合性を評価

Slide 21

Slide 21 text

実験結果のまとめ 20 ➀推論性能に関するアブレーションテスト ➁埋め込み表現と人間の類似性判断との一致度 ③埋め込み表現を用いたモデル検索性能 ・LoRAの重みのみから特徴を抽出する枠組みが技術的に可能 ・位置埋め込み ・MLPによる加重平均 ・提案手法を構成する の二つの組み合わせが埋め込み表現の質を向上 ・正解としたLoRAモデルに付与されたタグの類似性をモデルの特徴とするには不十分 ・人間の視覚的な類似性判断が埋め込み表現と必ずしも一致しない ・検索タスクに適用するには全体の順序最適化に改善が必要 ・手法間で差がなく「Triplet Lossによる局所的順序関係の学習」では検索性能が不十分

Slide 22

Slide 22 text

実験結果のまとめ 21 ➀推論性能に関するアブレーションテスト ➁埋め込み表現と人間の類似性判断との一致度 ③埋め込み表現を用いたモデル検索性能 ・LoRAの重みのみから特徴を抽出する枠組みが技術的に可能 ・位置埋め込み ・MLPによる加重平均 ・提案手法を構成する の二つの組み合わせが埋め込み表現の質を向上 ・正解としたLoRAモデルに付与されたタグの類似性をモデルの特徴とするには不十分 ・人間の視覚的な類似性判断が埋め込み表現と必ずしも一致しない ・検索タスクに適用するには全体の順序最適化に改善が必要 ・手法間で差がなく「Triplet Lossによる局所的順序関係の学習」では検索性能が不十分 LoRAの重みのみから特徴を抽出する枠組み が技術的に可能! 精度的には改善が必要!

Slide 23

Slide 23 text

本発表のまとめ 22 内部パラメータによる画像生成LoRAの埋め込み表現獲得 前処理フェーズ ➀LoRAのパラメータをレイヤ単位で復元しFlatten ➁各LoRAのFlattenベクトルをレイヤ単位でPCAによる次元圧縮 メイン処理フェーズ ③Triplet Net型のTransformer Encoderによる距離学習 提案手法の評価 ➀推論性能に関するアブレーションテスト ➁埋め込み表現と人間の類似性判断との一致度 ③埋め込み表現を用いたモデル検索性能 実験結果のまとめ ・LoRAの重みのみから特徴を抽出する枠組みが技術的に可能 ・検索タスクに適用するには全体の順序最適化に改善が必要