Slide 1

Slide 1 text

画風変換LoRAの内部パラメータによる 変換特徴を考慮したモデルの埋め込み表現の獲得 (静岡大学) (兵庫県立大学) (筑波大学・国立情報学研究所) (兵庫県立大学) (LINEヤフー株式会社) (静岡大学) 第18回データ工学と情報マネジメントに関するフォーラム 大江 優真 ファム フーロン (静岡大学) 金田 悠路 加藤 誠 大島 裕明 藤田 澄男 莊司 慶行 3F-01

Slide 2

Slide 2 text

大量のLoRAモデルの効率的な管理が必要! 1 メタデータや出力サンプルなしでも類似度計算を可能にしたい! 各業務用の LoRA を 大量に管理する必要 ロゴLoRA ブランドロゴ製作 独自の 画像生成AI マニュアル製作 図解LoRA 生成AIの実利用ではLoRAが必須 メタデータや出力例のないLoRAがあったとき… 類似するLoRAがわかれば どんなLoRAかを知る手がかりに! LoRA ? は ロゴLoRA と似ている! メタデータ 出力例 なし なし LoRA ? このLoRA、何用に 作られたLoRAだっけ?

Slide 3

Slide 3 text

アプローチ:画風変換LoRAの持つパラメータからLoRAモデルを直接embedding 2 入力 LoRAモデル本体 提案手法 LoRAの特徴を 反映したベクトル 出力 ≒ 数百次元の意味のある数列 ≒ 数千万個のパラメータ など詳細情報がないモデルでも メタデータ 出力サンプル モデルのパラメータからベクトル化が可能に!

Slide 4

Slide 4 text

LoRAモデルをベクトル化することのメリット 3 ➀LoRAモデル間の距離計算が可能 ➁LoRA自体を機械学習によって分析可能 LoRA1 ベクトル空間内で どちらが近い? LoRA2 LoRA3 LoRAモデルをベクトルで管理することで 類似度判定、クラスタリングができる LoRAモデルの特徴を考慮した比較が可能に LoRA1 LoRA2 LoRA3 機械学習 モデル ベクトルに変換し入力可能! 機械学習によって分類、ランキングが可能 内部パラメータによるLoRAモデル検索も

Slide 5

Slide 5 text

本研究の強み LoRAの持つパラメータさえあれば未知なモデルもベクトル化可能 4 モデルのパラメータ 提案 エンコーダ LoRAの特徴を 反映したベクトル 既存のモデルベクトル化 付随する情報を持たない未知モデルのベクトル化が不可能! モデル自体が持つ特徴から未知モデルをベクトル化可能! モデルの外側にある情報からベクトル化 LoRA ? モデルの内部パラメータがあればベクトル化可能 強み 図解 LoRA イメージエンコーダ LoRAベクトル として代替 LoRAの代替となる ・メタデータ ・出力例 ・学習データ がベクトル化に必須 出力例 出力画像 ベクトル

Slide 6

Slide 6 text

本研究のアプローチ:次元圧縮×距離学習 5 LoRAのパラメータ モデルのパラメータを NNで扱いやすい形に変換 NNによる 距離学習 LoRAの特徴を 反映したベクトル 次元圧縮 ・ ・ ・ 一つのLoRAを 次元圧縮ベクトル系列に LoRAモデルのパラメータから によってベクトル化 前処理 モデル間の 相対的な類似関係を学習 メイン処理 入力 出力 ・次元圧縮 ・距離学習

Slide 7

Slide 7 text

提案手法の概要 6 ➀複数のレイヤからなるLoRAのパラメータを レイヤ単位でflat化・PCAによる次元圧縮 ➁TransformerベースのTriplet Networkによる距離学習 前処理フェーズ メイン処理フェーズ

Slide 8

Slide 8 text

提案手法の概要 7 ➀複数のレイヤからなるLoRAのパラメータを レイヤ単位でflat化・PCAによる次元圧縮 ➁TransformerベースのTriplet Networkによる距離学習 前処理フェーズ メイン処理フェーズ

Slide 9

Slide 9 text

8 LoRAの パラメータ ・ ・ ・ Text_encoder 1層目 Text_encoder 2層目 ➀LoRAのパラメータをレイヤ単位でflat化・PCAによる次元圧縮 低ランク 圧縮行列 低ランク 復元行列 Text_encoder 1層目 Text_encoder 2層目 LoRAのパラメータ ・ ・ ・ NNで計算可能な圧縮ベクトル系列に LoRAのパラメータ (Flat後) 目的 複数のレイヤからなるLoRAのもつ特徴を保持しながらNNで扱える形に変換 Incremental PCA Text_encoder 3層目 Text_encoder 3層目 Text_encoder 1層目 Text_encoder 2層目 Text_encoder 3層目 LoRAのパラメータ (次元圧縮後) ・ ・ ・ レイヤ内の 特徴量を抽出 レイヤごとの処理でLoRAを… LoRAのもつパラメータ特徴や構造的特徴を保持

Slide 10

Slide 10 text

提案手法の概要 9 ➀複数のレイヤからなるLoRAのパラメータを レイヤ単位でflat化・PCAによる次元圧縮 ➁TransformerベースのTriplet Networkによる距離学習 前処理フェーズ メイン処理フェーズ

Slide 11

Slide 11 text

10 ③Triplet Networkによる距離学習 仮定 人間に判断可能なLoRA同士の類似性は絶対的ではなく相対的 目的 モデルパラメータが持つ特徴を相対的な類似性から学習 LoRAモデルの類似性を人間が判断 ゴッホLoRA ポップアート風LoRA ピカソLoRA ゴッホLoRAに対して どれくらい似ている? ゴッホLoRAに対して どっちが似ている? 人間の類似性判断を 距離学習で摸倣し LoRAの類似関係を学習 距離学習の狙い 絶対評価 相対評価

Slide 12

Slide 12 text

11 ③Triplet Networkによる距離学習 LoRA1 LoRA2 学習時の入力 アンカー例 LoRA3 正例 負例 学習時の出力 LoRA1 Transformer Encoder 提案エンコーダ MLP層 提案エンコーダ 提案エンコーダ LoRA2 LoRA3 仮定 人間に判断可能なLoRA同士の類似性は絶対的ではなく相対的 Triplet Lossで学習後の潜在空間 アンカー例 正例 負例 Triplet Lossによる相対的類似性の学習 より人間の直感に近い形で モデルの類似関係を学習 似ているペアを近くに 似ていないペアを 遠くに学習 目的 モデルパラメータが持つ特徴を相対的な類似性から学習 Triplet Loss 重みの共有 重みの共有

Slide 13

Slide 13 text

12 提案エンコーダの詳細構成:Transformerによる相互関係の学習 LoRAのレイヤ間の相互関係と構造的重要度を考慮した表現学習 エンコーダの目標: 系列間の相互関係学習が得意なTransformer Encoderを採用 LoRAを系列データとしてレイヤ間の相互関係を学習 絶対位置encoding で レイヤ構造情報を付与 絶対 位置 encoding Multi Head Attention FFN Transformer Encoder LoRAレイヤのもつ変換機能がレイヤをまたいで相互に依存 仮定 LoRAの 圧縮ベクトル系列 LoRAの レイヤ意味ベクトル列 ×N Attentionでレイヤ間の 相互関係を学習 Text_encoder 1層目 Text_encoder 2層目 Unet_up_blocks 4層目 … Text_encoder 1層目 Text_encoder 2層目 Unet_up_blocks 4層目 …

Slide 14

Slide 14 text

13 提案エンコーダの詳細構成:MLPによるLoRA識別に対するレイヤの重要度学習 LoRAのレイヤ間の相互関係と構造的重要度を考慮した表現学習 エンコーダの目標: 仮定 レイヤごとのMLPでLoRA識別に対する重要度を考慮 LoRAのもつレイヤごとでLoRA識別時に重要度が異なる 全 結 合 層 MLP層 全 結 合 層 Soft max 重み ベクトル GeLU 0.3 0.2 0.5 レイヤ意味ベクトル列 … … MLP MLP MLP 重みの共有 重みの共有 重みベクトル レイヤ意味ベクトル LoRAの特徴を 反映したベクトル あるレイヤがLoRA識別タスクに どれくらい寄与するかを重みとして算出 各レイヤのLoRA識別に対する 重要度を考慮したLoRAベクトルを獲得 × LoRA識別タスクに対する各レイヤがもつ構造的な重要度を学習 Text_encoder 1層目 Text_encoder 2層目 Unet_up_blocks 4層目

Slide 15

Slide 15 text

メタデータや出力例のないLoRAの類似度計算が可能に 14 LoRAの パラメータ Triplet 距離学習 LoRAの特徴を 反映したベクトル Flat化 次元圧縮 ・ ・ ・ 一つのLoRAを 次元圧縮ベクトル系列に 提案手法 入力 出力 入力 出力 似ているLoRAを パラメータからベクトル演算で算出可能に + MLP Transformer Encoder

Slide 16

Slide 16 text

提案手法の評価 15 ➀学習の妥当性に関する自動評価 人間の考えるモデルの類似性を学習できているか 提案手法から得られる埋め込み表現が検索タスクに有効か ➁埋め込み表現と人間の類似性判断との一致度 ③埋め込み表現を用いたLoRAモデル検索の性能 自動評価 被験者評価 被験者評価 提案手法を構成する工夫によって適切に学習されたか

Slide 17

Slide 17 text

16 「Civitai」からSD1.5用の 画風変換LoRAを対象 学習・評価データと構築方法 似ている画像に変換するLoRAを似ているLoRAとして出力画像の類似度からTripletを構築 データセット 学習・自動評価用正解Tripletデータ 人間がLoRAモデルの類似性を出力例から判断することを利用した正解データ作成 評価対象LoRA 類似度0.6以上 類似度0.5以下 ベースLoRA 正例LoRA 負例LoRA *出力画像の類似度分布から閾値を決定 正解Triplet 種類 LoRA数 Triplets 学習 549 464,477 評価 150 48,937 未知モデルを対象に評価 前処理(Flat化/次元圧縮)含め 学習データと別で実施

Slide 18

Slide 18 text

17 比較手法と選定理由 手法名 詳細 提案手法 絶対位置encodingとMLPによる 加重平均を組み合わせたエンコーダ MLPなし Transformerの出力をMLPによる加重平均 →ただの平均で算出 位置Eなし 提案手法から絶対位置 エンコーディングを抜いた手法 位置E・MLPなし 絶対位置encodingとMLPによる 加重平均を抜いたエンコーダ ベースライン エンコーダを抜き、次元圧縮ベクトル系列の 平均をLoRAベクトルとして使用 ・距離学習の効果検証 ・絶対位置encoding、 MLPによる集約の 二つの工夫効果検証 選定理由

Slide 19

Slide 19 text

実験結果: ➀学習の妥当性に関する自動評価 18 知見➀ の二つの組み合わせが埋め込み表現の質を向上 ・位置埋め込み ・MLPによる集約 LoRAのレイヤ構造学習と重要度に応じた集約が埋め込み表現の質を向上 手法名 Triplet Loss (エラー率) Triplet Acc (正解率) 提案手法 0.2179 0.7311 MLPなし 0.2212 ***0.7199 位置Eなし 0.2716 ***0.6313 位置E・MLPなし 0.2987 ***0.5941 ベースライン 0.3220 ***0.5048 アブレーションテストの結果 ・距離学習により構造的類似性を学習 ・提案手法が最も高い結果に(統計的に有意) ➁作成した正解Tripletをもとに推論 類似度 0.6以上 類似度 0.5以下 ベース LoRA 正例LoRA 負例LoRA 評価対象LoRAから自動評価用tripletを作成 ➀学習データと同様に評価対象LoRAから 出力画像の類似度からtriplet作成 ・LoRAを系列データとして扱うことが有効 ・LoRAレイヤの相互関係を踏まえた集約が有効

Slide 20

Slide 20 text

アンカー例 LoRA ID 10243 10321 13210 正例 負例 Label アンカ例 アンカー例 LoRA ID 10243 10321 13210 正例 負例 Label アンカ例 アンカー例 LoRA ID 10243 10321 13210 正例 負例 Label アンカ例 実験詳細:➁埋め込み表現と人間の類似性判断との一致度 19 LoRAの変換特徴に注目した被験者ラベルに対する推論精度を評価 ➀元画像とLoRAによる変換画像から被験者がラベル付け 候補➀ ➁被験者ラベルをもとに 正解Tripletを作成 元画像 ベースLoRAによる変換画像 候補➀ 候補➁ Q. 元画像からの変換過程と 似た変換をしているのは? 候補➀ 候補➁ A B C … アンカー例 LoRA ID 10243 10321 13210 正例 負例 相対評価で変換特徴を考慮したラベル付け ➂作成した正解Tripletをもとに推論 提案手法がLoRAの変換特徴に対する人間の解釈をどれだけ学習できているか Label アンカ例

Slide 21

Slide 21 text

実験結果➁:埋め込み表現と人間の類似性判断との一致度 20 知見➁ 人間の解釈に近いモデルの類似関係を学習 人手でラベル付けしたTripletに対する推論結果 ・位置Encoding を加えた二手法が高い精度 提案手法が人間の解釈と一致するモデルの類似関係を学習 位置Encodingを加えた LoRAの構造的特徴の学習が 人間の解釈と類似 手法名 Triplet Loss Triplet Acc 提案手法 0.170 0.780 MLPなし 0.182 0.772 位置Eなし 0.211 ***0.712 位置E・MLPなし 0.195 **0.741 ベースライン 0.256 ***0.621 ・ 提案手法が最も高精度

Slide 22

Slide 22 text

実験詳細:③埋め込み表現を用いたLoRAモデル検索の性能 21 ➀クエリLoRAに類似する LoRAランキングを作成 クエリLoRA ID:22371 手法➀ 手法➁ ・・・ 順位 LoRA 1 12763 2 13652 3 21303 … … 順位 LoRA 1 64263 2 10052 3 12345 … … ・・・ 人間のモデルの類似性判断に合わせたランキング評価 人間の解釈に基づく未知モデル検索が可能か 候補➀ 元画像 クエリLoRA による変換画像 候補➀ 候補➁ Q. 元画像からの変換過程と 似た変換をしているのは? 候補➀ 候補➁ A B C … ➁LoRAランキング内のLoRAから ペアワイズで被験者ラベル付け ベクトル化&cos類似度算出 実験➁と同様の評価方法 全順序化で正解 ランキング作成

Slide 23

Slide 23 text

実験結果③:埋め込み表現を用いたLoRAモデル検索の性能 22 知見③ 提案手法が安定した検索性能を保持 未知モデル検索において提案手法が安定して実用可能! 変換画像をもとにしたランキング性能結果 手法名 Recall@10 (± Std) NDCG@10 (± Std) 提案手法 0.420(±0.106) 0.513(±0.117) MLPなし **0.337(±0.140) **0.411(±0.123) 位置Eなし **0.310(±0.161) *0.401(±0.165) 位置E・MLPなし *0.323(±0.168) **0.406(±0.167) ベースライン *0.353(±0.131) *0.437(±0.119) クエリに依存せず安定して 提案手法が検索タスクに有効 ・提案手法が Recall@10、NDCG@10ともに最高精度 (統計的に有意) ・提案手法の結果の揺れ(標準偏差)が小さい

Slide 24

Slide 24 text

元画像 クエリLoRA による変換画像 人間の回答(GT) 1位 2位 3位 提案手法 ベースライン レース 衣服LoRA 細部美化LoRA 花柄ドレスLoRA 夏用ドレスLoRA 細部美化LoRA 夏用ドレスLoRA 日本日常着LoRA アニメ足LoRA ポールダンスLoRA イラスト作家LoRA 未知モデル検索タスクにおけるケーススタディ 23 衣装の変換を行うクエリLoRAに対して同様の衣装変換LoRAを提案手法が上位に

Slide 25

Slide 25 text

実験結果のまとめ 24 ➀学習の妥当性に関する自動評価 位置Encodingを加えた提案手法が 人間の解釈と一致したモデルの類似関係を学習! 未知モデル検索において提案手法が安定して実用可能! ➁埋め込み表現と人間の類似性判断との一致度 ③埋め込み表現を用いたLoRAモデル検索の性能 自動評価 被験者評価 被験者評価 提案フレームワークによって LoRA重みに基づくモデルの類似性学習が効果的に機能!

Slide 26

Slide 26 text

本発表のまとめ 25 内部パラメータによる 変換特徴を考慮したLoRAの埋め込み表現 得られた知見 提案手法が人間の解釈と一致した LoRAモデルの類似関係を反映した未知モデル検索を可能に ➀LoRAのパラメータをレイヤ単位で Flat化・Incremental PCA による次元圧縮 ➁Triplet Net型のTransformer Encoder + MLPによる距離学習 メイン処理フェーズ 前処理フェーズ