画風変換LoRAの内部パラメータによる変換特徴を考慮したモデルの埋め込み表現の獲得

Embed

Start on current slide

Slide 1

Slide 1 text

画風変換LoRAの内部パラメータによる変換特徴を考慮したモデルの埋め込み表現の獲得（静岡大学）（兵庫県立大学）（筑波大学・国立情報学研究所）（兵庫県立大学）（LINEヤフー株式会社）（静岡大学）第18回データ工学と情報マネジメントに関するフォーラム大江優真ファムフーロン（静岡大学）金田悠路加藤誠大島裕明藤田澄男莊司慶行 3F-01

Slide 2

Slide 2 text

大量のLoRAモデルの効率的な管理が必要！ 1 メタデータや出力サンプルなしでも類似度計算を可能にしたい！各業務用の LoRA を大量に管理する必要ロゴLoRA ブランドロゴ製作独自の画像生成AI マニュアル製作図解LoRA 生成AIの実利用ではLoRAが必須メタデータや出力例のないLoRAがあったとき… 類似するLoRAがわかればどんなLoRAかを知る手がかりに！ LoRA ？はロゴLoRA と似ている！メタデータ出力例なしなし LoRA ？このLoRA、何用に作られたLoRAだっけ？

Slide 3

Slide 3 text

アプローチ：画風変換LoRAの持つパラメータからLoRAモデルを直接embedding 2 入力 LoRAモデル本体提案手法 LoRAの特徴を反映したベクトル出力 ≒ 数百次元の意味のある数列 ≒ 数千万個のパラメータなど詳細情報がないモデルでもメタデータ出力サンプルモデルのパラメータからベクトル化が可能に！

Slide 4

Slide 4 text

LoRAモデルをベクトル化することのメリット 3 ➀LoRAモデル間の距離計算が可能 ➁LoRA自体を機械学習によって分析可能 LoRA1 ベクトル空間内でどちらが近い？ LoRA2 LoRA3 LoRAモデルをベクトルで管理することで類似度判定、クラスタリングができる LoRAモデルの特徴を考慮した比較が可能に LoRA1 LoRA2 LoRA3 機械学習モデルベクトルに変換し入力可能！機械学習によって分類、ランキングが可能内部パラメータによるLoRAモデル検索も

Slide 5

Slide 5 text

本研究の強み LoRAの持つパラメータさえあれば未知なモデルもベクトル化可能 4 モデルのパラメータ提案エンコーダ LoRAの特徴を反映したベクトル既存のモデルベクトル化付随する情報を持たない未知モデルのベクトル化が不可能！モデル自体が持つ特徴から未知モデルをベクトル化可能！モデルの外側にある情報からベクトル化 LoRA ？モデルの内部パラメータがあればベクトル化可能強み図解 LoRA イメージエンコーダ LoRAベクトルとして代替 LoRAの代替となる・メタデータ・出力例・学習データがベクトル化に必須出力例出力画像ベクトル

Slide 6

Slide 6 text

本研究のアプローチ：次元圧縮×距離学習 5 LoRAのパラメータモデルのパラメータを NNで扱いやすい形に変換 NNによる距離学習 LoRAの特徴を反映したベクトル次元圧縮・・・一つのLoRAを次元圧縮ベクトル系列に LoRAモデルのパラメータからによってベクトル化前処理モデル間の相対的な類似関係を学習メイン処理入力出力・次元圧縮・距離学習

Slide 7

Slide 7 text

提案手法の概要 6 ➀複数のレイヤからなるLoRAのパラメータをレイヤ単位でflat化・PCAによる次元圧縮 ➁TransformerベースのTriplet Networkによる距離学習前処理フェーズメイン処理フェーズ

Slide 8

Slide 8 text

提案手法の概要 7 ➀複数のレイヤからなるLoRAのパラメータをレイヤ単位でflat化・PCAによる次元圧縮 ➁TransformerベースのTriplet Networkによる距離学習前処理フェーズメイン処理フェーズ

Slide 9

Slide 9 text

8 LoRAのパラメータ・・・ Text_encoder 1層目 Text_encoder 2層目 ➀LoRAのパラメータをレイヤ単位でflat化・PCAによる次元圧縮低ランク圧縮行列低ランク復元行列 Text_encoder 1層目 Text_encoder 2層目 LoRAのパラメータ・・・ NNで計算可能な圧縮ベクトル系列に LoRAのパラメータ（Flat後）目的複数のレイヤからなるLoRAのもつ特徴を保持しながらNNで扱える形に変換 Incremental PCA Text_encoder 3層目 Text_encoder 3層目 Text_encoder 1層目 Text_encoder 2層目 Text_encoder 3層目 LoRAのパラメータ（次元圧縮後）・・・レイヤ内の特徴量を抽出レイヤごとの処理でLoRAを… LoRAのもつパラメータ特徴や構造的特徴を保持

Slide 10

Slide 10 text

提案手法の概要 9 ➀複数のレイヤからなるLoRAのパラメータをレイヤ単位でflat化・PCAによる次元圧縮 ➁TransformerベースのTriplet Networkによる距離学習前処理フェーズメイン処理フェーズ

Slide 11

Slide 11 text

10 ③Triplet Networkによる距離学習仮定人間に判断可能なLoRA同士の類似性は絶対的ではなく相対的目的モデルパラメータが持つ特徴を相対的な類似性から学習 LoRAモデルの類似性を人間が判断ゴッホLoRA ポップアート風LoRA ピカソLoRA ゴッホLoRAに対してどれくらい似ている？ゴッホLoRAに対してどっちが似ている？人間の類似性判断を距離学習で摸倣し LoRAの類似関係を学習距離学習の狙い絶対評価相対評価

Slide 12

Slide 12 text

11 ③Triplet Networkによる距離学習 LoRA1 LoRA2 学習時の入力アンカー例 LoRA3 正例負例学習時の出力 LoRA1 Transformer Encoder 提案エンコーダ MLP層提案エンコーダ提案エンコーダ LoRA2 LoRA3 仮定人間に判断可能なLoRA同士の類似性は絶対的ではなく相対的 Triplet Lossで学習後の潜在空間アンカー例正例負例 Triplet Lossによる相対的類似性の学習より人間の直感に近い形でモデルの類似関係を学習似ているペアを近くに似ていないペアを遠くに学習目的モデルパラメータが持つ特徴を相対的な類似性から学習 Triplet Loss 重みの共有重みの共有

Slide 13

Slide 13 text

12 提案エンコーダの詳細構成：Transformerによる相互関係の学習 LoRAのレイヤ間の相互関係と構造的重要度を考慮した表現学習エンコーダの目標：系列間の相互関係学習が得意なTransformer Encoderを採用 LoRAを系列データとしてレイヤ間の相互関係を学習絶対位置encoding でレイヤ構造情報を付与絶対位置 encoding Multi Head Attention FFN Transformer Encoder LoRAレイヤのもつ変換機能がレイヤをまたいで相互に依存仮定 LoRAの圧縮ベクトル系列 LoRAのレイヤ意味ベクトル列 ×N Attentionでレイヤ間の相互関係を学習 Text_encoder 1層目 Text_encoder 2層目 Unet_up_blocks 4層目 … Text_encoder 1層目 Text_encoder 2層目 Unet_up_blocks 4層目 …

Slide 14

Slide 14 text

13 提案エンコーダの詳細構成：MLPによるLoRA識別に対するレイヤの重要度学習 LoRAのレイヤ間の相互関係と構造的重要度を考慮した表現学習エンコーダの目標：仮定レイヤごとのMLPでLoRA識別に対する重要度を考慮 LoRAのもつレイヤごとでLoRA識別時に重要度が異なる全結合層 MLP層全結合層 Soft max 重みベクトル GeLU 0.3 0.2 0.5 レイヤ意味ベクトル列 … … MLP MLP MLP 重みの共有重みの共有重みベクトルレイヤ意味ベクトル LoRAの特徴を反映したベクトルあるレイヤがLoRA識別タスクにどれくらい寄与するかを重みとして算出各レイヤのLoRA識別に対する重要度を考慮したLoRAベクトルを獲得 × LoRA識別タスクに対する各レイヤがもつ構造的な重要度を学習 Text_encoder 1層目 Text_encoder 2層目 Unet_up_blocks 4層目

Slide 15

Slide 15 text

メタデータや出力例のないLoRAの類似度計算が可能に 14 LoRAのパラメータ Triplet 距離学習 LoRAの特徴を反映したベクトル Flat化次元圧縮・・・一つのLoRAを次元圧縮ベクトル系列に提案手法入力出力入力出力似ているLoRAをパラメータからベクトル演算で算出可能に + MLP Transformer Encoder

Slide 16

Slide 16 text

提案手法の評価 15 ➀学習の妥当性に関する自動評価人間の考えるモデルの類似性を学習できているか提案手法から得られる埋め込み表現が検索タスクに有効か ➁埋め込み表現と人間の類似性判断との一致度 ③埋め込み表現を用いたLoRAモデル検索の性能自動評価被験者評価被験者評価提案手法を構成する工夫によって適切に学習されたか

Slide 17

Slide 17 text

16 「Civitai」からSD1.5用の画風変換LoRAを対象学習・評価データと構築方法似ている画像に変換するLoRAを似ているLoRAとして出力画像の類似度からTripletを構築データセット学習・自動評価用正解Tripletデータ人間がLoRAモデルの類似性を出力例から判断することを利用した正解データ作成評価対象LoRA 類似度0.6以上類似度0.5以下ベースLoRA 正例LoRA 負例LoRA *出力画像の類似度分布から閾値を決定正解Triplet 種類 LoRA数 Triplets 学習 549 464,477 評価 150 48,937 未知モデルを対象に評価前処理（Flat化/次元圧縮）含め学習データと別で実施

Slide 18

Slide 18 text

17 比較手法と選定理由手法名詳細提案手法絶対位置encodingとMLPによる加重平均を組み合わせたエンコーダ MLPなし Transformerの出力をMLPによる加重平均 →ただの平均で算出位置Eなし提案手法から絶対位置エンコーディングを抜いた手法位置E・MLPなし絶対位置encodingとMLPによる加重平均を抜いたエンコーダベースラインエンコーダを抜き、次元圧縮ベクトル系列の平均をLoRAベクトルとして使用・距離学習の効果検証・絶対位置encoding、 MLPによる集約の二つの工夫効果検証選定理由

Slide 19

Slide 19 text

実験結果： ➀学習の妥当性に関する自動評価 18 知見➀ の二つの組み合わせが埋め込み表現の質を向上・位置埋め込み・MLPによる集約 LoRAのレイヤ構造学習と重要度に応じた集約が埋め込み表現の質を向上手法名 Triplet Loss （エラー率） Triplet Acc （正解率）提案手法 0.2179 0.7311 MLPなし 0.2212 ***0.7199 位置Eなし 0.2716 ***0.6313 位置E・MLPなし 0.2987 ***0.5941 ベースライン 0.3220 ***0.5048 アブレーションテストの結果・距離学習により構造的類似性を学習・提案手法が最も高い結果に（統計的に有意） ➁作成した正解Tripletをもとに推論類似度 0.6以上類似度 0.5以下ベース LoRA 正例LoRA 負例LoRA 評価対象LoRAから自動評価用tripletを作成 ➀学習データと同様に評価対象LoRAから出力画像の類似度からtriplet作成・LoRAを系列データとして扱うことが有効・LoRAレイヤの相互関係を踏まえた集約が有効

Slide 20

Slide 20 text

アンカー例 LoRA ID 10243 10321 13210 正例負例 Label アンカ例アンカー例 LoRA ID 10243 10321 13210 正例負例 Label アンカ例アンカー例 LoRA ID 10243 10321 13210 正例負例 Label アンカ例実験詳細：➁埋め込み表現と人間の類似性判断との一致度 19 LoRAの変換特徴に注目した被験者ラベルに対する推論精度を評価 ➀元画像とLoRAによる変換画像から被験者がラベル付け候補➀ ➁被験者ラベルをもとに正解Tripletを作成元画像ベースLoRAによる変換画像候補➀ 候補➁ Q. 元画像からの変換過程と似た変換をしているのは？候補➀ 候補➁ A B C … アンカー例 LoRA ID 10243 10321 13210 正例負例相対評価で変換特徴を考慮したラベル付け ➂作成した正解Tripletをもとに推論提案手法がLoRAの変換特徴に対する人間の解釈をどれだけ学習できているか Label アンカ例

Slide 21

Slide 21 text

実験結果➁：埋め込み表現と人間の類似性判断との一致度 20 知見➁ 人間の解釈に近いモデルの類似関係を学習人手でラベル付けしたTripletに対する推論結果・位置Encoding を加えた二手法が高い精度提案手法が人間の解釈と一致するモデルの類似関係を学習位置Encodingを加えた LoRAの構造的特徴の学習が人間の解釈と類似手法名 Triplet Loss Triplet Acc 提案手法 0.170 0.780 MLPなし 0.182 0.772 位置Eなし 0.211 ***0.712 位置E・MLPなし 0.195 **0.741 ベースライン 0.256 ***0.621 ・提案手法が最も高精度

Slide 22

Slide 22 text

実験詳細：③埋め込み表現を用いたLoRAモデル検索の性能 21 ➀クエリLoRAに類似する LoRAランキングを作成クエリLoRA ID：22371 手法➀ 手法➁ ・・・順位 LoRA 1 12763 ２ 13652 ３ 21303 … … 順位 LoRA 1 64263 ２ 10052 ３ 12345 … … ・・・人間のモデルの類似性判断に合わせたランキング評価人間の解釈に基づく未知モデル検索が可能か候補➀ 元画像クエリLoRA による変換画像候補➀ 候補➁ Q. 元画像からの変換過程と似た変換をしているのは？候補➀ 候補➁ A B C … ➁LoRAランキング内のLoRAからペアワイズで被験者ラベル付けベクトル化＆cos類似度算出実験➁と同様の評価方法全順序化で正解ランキング作成

Slide 23

Slide 23 text

実験結果③：埋め込み表現を用いたLoRAモデル検索の性能 22 知見③ 提案手法が安定した検索性能を保持未知モデル検索において提案手法が安定して実用可能！変換画像をもとにしたランキング性能結果手法名 Recall@10 (± Std) NDCG@10 (± Std) 提案手法 0.420(±0.106) 0.513(±0.117) MLPなし **0.337(±0.140) **0.411(±0.123) 位置Eなし **0.310(±0.161) *0.401(±0.165) 位置E・MLPなし *0.323(±0.168) **0.406(±0.167) ベースライン *0.353(±0.131) *0.437(±0.119) クエリに依存せず安定して提案手法が検索タスクに有効・提案手法が Recall@10、NDCG@10ともに最高精度（統計的に有意）・提案手法の結果の揺れ（標準偏差）が小さい

Slide 24

Slide 24 text

元画像クエリLoRA による変換画像人間の回答（GT）１位２位３位提案手法ベースラインレース衣服LoRA 細部美化LoRA 花柄ドレスLoRA 夏用ドレスLoRA 細部美化LoRA 夏用ドレスLoRA 日本日常着LoRA アニメ足LoRA ポールダンスLoRA イラスト作家LoRA 未知モデル検索タスクにおけるケーススタディ 23 衣装の変換を行うクエリLoRAに対して同様の衣装変換LoRAを提案手法が上位に

Slide 25

Slide 25 text

実験結果のまとめ 24 ➀学習の妥当性に関する自動評価位置Encodingを加えた提案手法が人間の解釈と一致したモデルの類似関係を学習！未知モデル検索において提案手法が安定して実用可能！ ➁埋め込み表現と人間の類似性判断との一致度 ③埋め込み表現を用いたLoRAモデル検索の性能自動評価被験者評価被験者評価提案フレームワークによって LoRA重みに基づくモデルの類似性学習が効果的に機能！

Slide 26

Slide 26 text

本発表のまとめ 25 内部パラメータによる変換特徴を考慮したLoRAの埋め込み表現得られた知見提案手法が人間の解釈と一致した LoRAモデルの類似関係を反映した未知モデル検索を可能に ➀LoRAのパラメータをレイヤ単位で Flat化・Incremental PCA による次元圧縮 ➁Triplet Net型のTransformer Encoder + MLPによる距離学習メイン処理フェーズ前処理フェーズ