Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[SSII22] Fashion image re-search with reference images and correction instructions

[SSII22] Fashion image re-search with reference images and correction instructions

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 参照画像と修正指⽰⽂を⽤いた Multimodal Modulationによるファッション画像検索 植田 有咲, 杉浦孔明 慶應義塾大学

  2. 背景 : Eコマース市場の発展によるネットショッピング利用者の増加 2 n 問題点 : 商品検索で希望の商品を一枚の画像、キーワードで見つけることは難しい 秋物のスカートが欲しいな 画像検索

    : スカート 修正指示文 : このデザインで丈 がもう少し長かったらな、、 再検索 再検索結果 : ユーザーが本当に欲しい商品 検索結果に対して 要望(修正文) を伝えることで検索品質を向上できると便利 ネットショッピング中
  3. 問題設定 : Fashion分野における修正指示文を用いた画像再検索 3 n 対象タスク : 修正指示文を用いた画像再検索 n 検索された画像に対して修正指示文を用いて新たな画像を再検索することを想定

    “The shirt is light green in color” “is very light olive” 入力 1 : 参照画像 検索結果 入力 2 : 修正指示文 正解画像 … 正解画像が検索結果上位に くるようにしたい
  4. 関連研究 : 自然言語を用いた画像検索手法 4 n TIRG (Text Image Residual Gating)

    [Vo+, CVPR19] l 画像特徴量に修正文の言語特徴量を残差結合 l テキスト情報を加味した画像補正を可能にするモデル n CoSMo(Content-Style Modulation) [Lee+, CVPR21] l 画像特徴量と修正文の言語特徴量を組み合わせて画像補正を 行うモデルTIRGの改良版 l Style Modulatorで色, 柄などのスタイル情報を選択的に保存 ü 画像検索は商品検索や人物再認識, 顔認識など様々な分野に応用可能
  5. 提案手法:元画像と修正指示文から修正指示を満たす新しい画像を再検索 5 n 入力 : 参照画像, 修正指示文, 候補画像 n 出力

    : 参照画像, 修正指示文による512次元の画像言語特徴量 𝑣", 候補画像の画像特徴量 𝑣# n Image Encoder (Source Image Encoder, Candidate Image Encoder) : ResNet50[He+, 16]で構成 n Text Encoder : BERT [Devlin+, 18]に複数の修正指示文を<SEP>トークンで結合して入力 n Transformer Encoder:画像特徴量と修正指示文の各単語の関係性をTransformer[Vaswani+, 17]で学習
  6. Transformer Encoder : 画像言語特徴量のself-attentionを計算 6 n Image Encoder, Text Encoderからの出力を結合した画像言語特徴量

    𝑥%& のself-attentionを計算 𝑄 ( = 𝑊 + (()𝑥 %& (() , 𝐾 ( = 𝑊 / (()𝑥 %& (() , 𝑉 ( = 𝑊 1 (()𝑥 %& (() 𝑖 = 1, … . . 𝐴 𝐴 : Head数 𝑓?##@ (() = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 + F / F G HI 𝑉((), 𝑆?##@ = 𝑓?##@ K , … … . , 𝑓?##@ L 𝑑N = 𝐻/𝐴 𝐻 : 隠れ層のサイズ (768次元)
  7. 損失関数 : batch-based classification loss (BBCL) 7 n 参照画像と修正文を組み合わせた画像言語特徴量𝑣"と対象画像の画像言語特徴量𝑣#の 距離が最小となるように学習

    n 𝐾 ., . : cosine 類似度 n 最終的に類似度をランク付けして出力 → 評価指標 : Recall@k 𝐿RRST = 1 𝐵 V (WK R − 𝑙𝑜𝑔 𝑒𝑥𝑝 𝐾 𝑣",(, 𝑣#,( ∑ ^WK _ exp(𝐾 𝑣",(, 𝑣#,^ )
  8. 実験設定: Fashion IQ データセット [Wu+, CVPR21] 8 修正指示文 候補画像 対象画像

    "is black with no sleeves", "is longer" "is white and looks looser", "is lighter" ü Dresses, Shirts, Tops&Teesの三種類から構成 ü それぞれ候補画像, 対象画像, 修正指示文 (2文) で構成
  9. 定量的結果: FashionIQ datasetにおいてbaselineを上回る性能 9 n 評価指標:Recall@k (k=10) n Fashion IQデータセットのTops&Tees,

    Dresses, Shirts全てにおいて提案手法がbaseline手法を 上回る性能を記録 n Transformer Encoderを導入することでDresses, Tops&Teesでは1.5pt以上の性能向上 手法 Dresses Shirts Tops&Tees CoSMo (reproduced) [Lee+, CVPR21] 20.06 16.32 21.07 Ours 21.56 16.84 22.59 +1.5 +0.52 +1.52
  10. 定量的結果:Ablation Study (Tops&Tees) 10 n TransformerのEncoder構造, BERTを加えることでbaseline手法を上回る性能を記録 n Text EncoderとしてLSTMの代わりにBERTを用いた単語ごとの埋め込み表現を導入する

    ことが性能向上に寄与 Recall@10 Recall@50 Recall@100 CoSMo(reproduced)[Lee+, CVPR21] 21.07 44.7 57.75 ablation-1 (ours) (w/o BERT) 20.64 44.27 55.86 ablation-2 (ours) (Transformerの層数 #L:6) 21.31 45.92 58.71 full (ours) 22.59 46.78 58.71 +1.52 +2.08 +0.96
  11. 定性的結果:成功例と失敗例 11 予測結果 正解画像 参照画像 修正指示文 修正指示文 J L ・has

    shorter sleeves ・is green and The shirt is loose fitting and green in color. ・has long sleeve and is dark grey color ・has longer sleeves and is grey and purple
  12. 結論 12 n Fashion系データセットにおいて修正指示文を用いて画像再検索を行う手法の提案 lTransformerに基づく類似度計算を行うことで既存手法を上回る性能を記録