Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[MIRU25] NaiLIA: Multimodal Retrieval of Nail D...

[MIRU25] NaiLIA: Multimodal Retrieval of Nail Designs Based on Dense Intent Descriptions

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. Motivation: 望むデザインを施術可能なネイリストを 探すためのマルチモーダル検索システムをつくる - 2 - ▪ ネイルサロンの世界市場規模は約110億ドル ▪ 現状のネイル画像検索システムはチェックボックス選択

    ▪ 生成アプローチより検索アプローチの方が適切 • 国内最大の美容予約サイトでは生成画像の掲載を禁止  一見似ている画像に見えるが ユーザにとっては望まないデザイン https://beauty.hotpepper.jp/ 水色の人魚テーマのネイルをしたいです。 中指に人魚のヒレ、薬指に貝殻を描いて、 貝殻にはパールのパーツをつけてください。 キラキラでツヤツヤに仕上げてください。
  2. InfoNCE を用いた学習では単一テキスト・単一画像のペアのみを正例  正例ラベルは付与されていないが依頼文に適合する画像も負例として扱われる 提案手法NaiLIA (1/2): unlabeled positive を考慮した損失関数を導入 -

    4 - unlabeled positive [Yashima+, RA-L25] MLLMによりunlabeled positiveとみなせる程度を表す信頼度𝒄𝒊𝒌 を推定 “Please put long fake nails on my nails and make them pink only at the base and the rest should be a fancy design with strawberries.” 正例 1.0 0.5 0.0 依頼文𝑖, 画像𝑘
  3. 提案手法NaiLIA (2/2): 類似画像に頑健な対照学習を実現 - 5 - Confidence-based Relaxed Contrastive 損失の導入

    信頼度𝒄𝒊𝒌 を損失関数に組み込む :正例ペアについて類似度を1に近づける :unlabeled positiveペアについて 類似度𝑐𝑖𝑘 以下を𝑐𝑖𝑘 に近づける :負例ペアについて 類似度0以上を0に近づける (𝑖, 𝑗)ペアの類似度 unlabeled positiveの集合
  4. 実験設定:NAIL-STARベンチマークを構築 - 6 - ▪ 10,625枚のネイルデザイン画像に対して208人が依頼文をアノテーション 1. ペイント (連続) および装飾

    (離散) から構成 2. ユーザの意図を詳細かつ多層的に表現した依頼文 3. 多様な地域(42カ国)の投稿者による画像 ▪ fine-grainedな長文を含むMarqo Fashion200Kでも実験 “I'd like a cute chocolate and biscuit- themed design with brown and white color. For the middle finger, please give a white ribbon.”
  5. 定量的結果 (1/2): NAIL-STARベンチマークにおいて既存手法を上回る - 7 - 手法 MRR [%] ↑

    R@1 [%] ↑ R@5 [%] ↑ R@10 [%] ↑ NaiLIA(提案手法) 61.0 49.5 74.7 83.4 SigLIP [Zhai+, ICCV23] 58.8 47.5 71.8 82.1 BEiT-3 [Wang+, CVPR23] 53.9 40.6 69.7 79.8 FAME-ViL [Han+, CVPR23] 45.1 31.7 60.7 71.8 Alpha-CLIP [Sun+, CVPR24] 27.1 16.1 38.7 50.3 CLIP [Radford+, ICML21] 25.2 15.5 34.6 44.4 +2.0
  6. 定量的結果 (2/2): Marqo Fashion200Kにおいても既存手法を上回る - 8 - 手法 MRR [%]

    ↑ R@1 [%] ↑ R@5 [%] ↑ R@10 [%] ↑ NaiLIA(提案手法) 80.0 72.5 89.2 93.4 SigLIP [Zhai+, ICCV23] 72.0 60.4 86.5 93.2 BEiT-3 [Wang+, CVPR23] 63.9 50.5 80.4 89.2 FAME-ViL [Han+, CVPR23] 64.1 50.4 81.4 90.0 Long-CLIP [Zhang+, ECCV24] 62.3 49.0 80.1 89.0 CLIP [Radford+, ICML21] 33.2 21.5 45.6 57.8 +12.1
  7. - 9 - “I'd like a colorful and flashy nail

    design. Please add a large flower nail stone to the ring finger. The tips of the nail tips should be square-shaped.” 正例 unlabeled positive 定性的結果 (1/2): 抽象的なシンボルを理解し1位にランク付け  花のストーンがついた画像はなし ☺ 花のキャラクター
  8. - 10 - “I'd like my nails to have a

    cute, teenage vibe. I'd love a pink base with floral patterns and maybe some character accessories. Can we do a long nail shape?” 正例 unlabeled positive 定性的結果 (2/2): 上位3件に正例 & unlabeled positiveをランク付け  関連性の低い画像 ☺ すべてにキャラクターのパーツ
  9. まとめ - 11 - ▪ 背景 依頼文を用いてネイルデザイン画像を検索できれば便利 ▪ 提案:NaiLIA •

    unlabeled positiveの信頼度を考慮した損失を導入 • 1万枚以上のネイルデザイン画像と依頼文から構成 されるNAIL-STARベンチマークの構築 ▪ 結果 複数のベンチマークにおいて既存手法を上回った