[SSII22] Fashion image re-search with reference images and correction instructions

参照画像と修正指⽰⽂を⽤いた Multimodal Modulationによるファッション画像検索植田有咲, 杉浦孔明慶應義塾大学

背景 : Eコマース市場の発展によるネットショッピング利用者の増加 2 n 問題点 : 商品検索で希望の商品を一枚の画像、キーワードで見つけることは難しい秋物のスカートが欲しいな画像検索
: スカート修正指示文 : このデザインで丈がもう少し長かったらな、、再検索再検索結果 : ユーザーが本当に欲しい商品検索結果に対して要望(修正文) を伝えることで検索品質を向上できると便利ネットショッピング中

問題設定 : Fashion分野における修正指示文を用いた画像再検索 3 n 対象タスク : 修正指示文を用いた画像再検索 n 検索された画像に対して修正指示文を用いて新たな画像を再検索することを想定
“The shirt is light green in color” “is very light olive” 入力 1 : 参照画像検索結果入力 2 : 修正指示文正解画像 … 正解画像が検索結果上位にくるようにしたい

関連研究 : 自然言語を用いた画像検索手法 4 n TIRG (Text Image Residual Gating)
[Vo+, CVPR19] l 画像特徴量に修正文の言語特徴量を残差結合 l テキスト情報を加味した画像補正を可能にするモデル n CoSMo(Content-Style Modulation) [Lee+, CVPR21] l 画像特徴量と修正文の言語特徴量を組み合わせて画像補正を行うモデルTIRGの改良版 l Style Modulatorで色, 柄などのスタイル情報を選択的に保存 ü 画像検索は商品検索や人物再認識, 顔認識など様々な分野に応用可能

提案手法：元画像と修正指示文から修正指示を満たす新しい画像を再検索 5 n 入力 : 参照画像, 修正指示文, 候補画像 n 出力
: 参照画像, 修正指示文による512次元の画像言語特徴量 𝑣", 候補画像の画像特徴量 𝑣# n Image Encoder (Source Image Encoder, Candidate Image Encoder) : ResNet50[He+, 16]で構成 n Text Encoder : BERT [Devlin+, 18]に複数の修正指示文を<SEP>トークンで結合して入力 n Transformer Encoder：画像特徴量と修正指示文の各単語の関係性をTransformer[Vaswani+, 17]で学習

Transformer Encoder : 画像言語特徴量のself-attentionを計算 6 n Image Encoder, Text Encoderからの出力を結合した画像言語特徴量
𝑥%& のself-attentionを計算 𝑄 ( = 𝑊 + (()𝑥 %& (() , 𝐾 ( = 𝑊 / (()𝑥 %& (() , 𝑉 ( = 𝑊 1 (()𝑥 %& (() 𝑖 = 1, … . . 𝐴 𝐴 : Head数 𝑓?##@ (() = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 + F / F G HI 𝑉((), 𝑆?##@ = 𝑓?##@ K , … … . , 𝑓?##@ L 𝑑N = 𝐻/𝐴 𝐻 : 隠れ層のサイズ (768次元)

損失関数 : batch-based classification loss (BBCL) 7 n 参照画像と修正文を組み合わせた画像言語特徴量𝑣"と対象画像の画像言語特徴量𝑣#の距離が最小となるように学習
n 𝐾 ., . : cosine 類似度 n 最終的に類似度をランク付けして出力 → 評価指標 : Recall@k 𝐿RRST = 1 𝐵 V (WK R − 𝑙𝑜𝑔 𝑒𝑥𝑝 𝐾 𝑣",(, 𝑣#,( ∑ ^WK _ exp(𝐾 𝑣",(, 𝑣#,^ )

実験設定: Fashion IQ データセット [Wu+, CVPR21] 8 修正指示文候補画像対象画像
"is black with no sleeves", "is longer" "is white and looks looser", "is lighter" ü Dresses, Shirts, Tops&Teesの三種類から構成 ü それぞれ候補画像, 対象画像, 修正指示文 (2文) で構成

定量的結果： FashionIQ datasetにおいてbaselineを上回る性能 9 n 評価指標：Recall@k (k=10) n Fashion IQデータセットのTops&Tees,
Dresses, Shirts全てにおいて提案手法がbaseline手法を上回る性能を記録 n Transformer Encoderを導入することでDresses, Tops&Teesでは1.5pt以上の性能向上手法 Dresses Shirts Tops&Tees CoSMo (reproduced) [Lee+, CVPR21] 20.06 16.32 21.07 Ours 21.56 16.84 22.59 +1.5 +0.52 +1.52

定量的結果：Ablation Study (Tops&Tees) 10 n TransformerのEncoder構造, BERTを加えることでbaseline手法を上回る性能を記録 n Text EncoderとしてLSTMの代わりにBERTを用いた単語ごとの埋め込み表現を導入する
ことが性能向上に寄与 Recall@10 Recall@50 Recall@100 CoSMo(reproduced)[Lee+, CVPR21] 21.07 44.7 57.75 ablation-1 (ours) (w/o BERT) 20.64 44.27 55.86 ablation-2 (ours) (Transformerの層数 #L:6) 21.31 45.92 58.71 full (ours) 22.59 46.78 58.71 +1.52 +2.08 +0.96

定性的結果：成功例と失敗例 11 予測結果正解画像参照画像修正指示文修正指示文 J L ・has
shorter sleeves ・is green and The shirt is loose fitting and green in color. ・has long sleeve and is dark grey color ・has longer sleeves and is grey and purple

結論 12 n Fashion系データセットにおいて修正指示文を用いて画像再検索を行う手法の提案 lTransformerに基づく類似度計算を行うことで既存手法を上回る性能を記録

[SSII22] Fashion image re-search with reference...

[SSII22] Fashion image re-search with reference images and correction instructions

Semantic Machine Intelligence Lab., Keio Univ.
PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

参照画像と修正指⽰⽂を⽤いた Multimodal Modulationによるファッション画像検索植田有咲, 杉浦孔明慶應義塾大学

背景 : Eコマース市場の発展によるネットショッピング利用者の増加 2 n 問題点 : 商品検索で希望の商品を一枚の画像、キーワードで見つけることは難しい秋物のスカートが欲しいな画像検索

問題設定 : Fashion分野における修正指示文を用いた画像再検索 3 n 対象タスク : 修正指示文を用いた画像再検索 n 検索された画像に対して修正指示文を用いて新たな画像を再検索することを想定

関連研究 : 自然言語を用いた画像検索手法 4 n TIRG (Text Image Residual Gating)

提案手法：元画像と修正指示文から修正指示を満たす新しい画像を再検索 5 n 入力 : 参照画像, 修正指示文, 候補画像 n 出力

Transformer Encoder : 画像言語特徴量のself-attentionを計算 6 n Image Encoder, Text Encoderからの出力を結合した画像言語特徴量

損失関数 : batch-based classification loss (BBCL) 7 n 参照画像と修正文を組み合わせた画像言語特徴量𝑣"と対象画像の画像言語特徴量𝑣#の距離が最小となるように学習

実験設定: Fashion IQ データセット [Wu+, CVPR21] 8 修正指示文候補画像対象画像

定量的結果： FashionIQ datasetにおいてbaselineを上回る性能 9 n 評価指標：Recall@k (k=10) n Fashion IQデータセットのTops&Tees,

定量的結果：Ablation Study (Tops&Tees) 10 n TransformerのEncoder構造, BERTを加えることでbaseline手法を上回る性能を記録 n Text EncoderとしてLSTMの代わりにBERTを用いた単語ごとの埋め込み表現を導入する

定性的結果：成功例と失敗例 11 予測結果正解画像参照画像修正指示文修正指示文 J L ・has

結論 12 n Fashion系データセットにおいて修正指示文を用いて画像再検索を行う手法の提案 lTransformerに基づく類似度計算を行うことで既存手法を上回る性能を記録