Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Be Your Own Prada: Fashion Synthesis with Structural Coherence
Search
tereka114
March 15, 2022
0
28
Be Your Own Prada: Fashion Synthesis with Structural Coherence
第43回 コンピュータビジョン勉強会
tereka114
March 15, 2022
Tweet
Share
More Decks by tereka114
See All by tereka114
KDD2023学会参加報告
tereka114
2
370
Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering
tereka114
0
270
Mobile-Former: Bridging MobileNet and Transformer
tereka114
0
910
DER: Dynamically Expandable Representation for Class Incremental Learning
tereka114
0
120
Jupyter Notebookを納品した話
tereka114
0
230
Multi Scale Recognition with DAG-CNNs
tereka114
0
85
How to use scikit-image for data augmentation
tereka114
0
120
面倒くさいこと考えたくないあなたへ〜Tpotと機械学習〜
tereka114
0
170
Chainerを使ったらカノジョができたお話
tereka114
0
110
Featured
See All Featured
Reflections from 52 weeks, 52 projects
jeffersonlam
345
19k
YesSQL, Process and Tooling at Scale
rocio
165
13k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
34
6.1k
The Mythical Team-Month
searls
217
42k
Debugging Ruby Performance
tmm1
70
11k
Building an army of robots
kneath
300
42k
Why Our Code Smells
bkeepers
PRO
331
56k
Infographics Made Easy
chrislema
238
18k
Why You Should Never Use an ORM
jnunemaker
PRO
51
8.7k
Become a Pro
speakerdeck
PRO
13
4.6k
How to name files
jennybc
65
94k
Designing for humans not robots
tammielis
247
25k
Transcript
Be Your Own Prada: Fashion Synthesis with Structural Coherence 第43回
コンピュータビジョン勉強会 @tereka114
⽬次 1. ⾃⼰紹介 2. 論⽂の概要 3. GANのおさらい 4. Fashion GAN
5. Segmentation Map Generation 6. Texture Rendering 7. Experiments 8. Conclusion
1. ⾃⼰紹介 1. ⼭本 ⼤輝(@tereka114) 2. Acroquest Technology株式会社 1. 画像認識、⾃然⾔語処理、推薦システムなどを従事
3. のんびりしているエンジニアの⽇記 1. http://nonbiri-tereka.hatenablog.com/ 4. 寄稿記事 1. Interface 3⽉号 ラズパイにON!Google⼈⼯知能 2. Interface 12⽉号 ⼈⼯知能ウルトラ⼤百科
2. 論⽂の概要 1. ⾐服を着た⼈物画像とテキストを⼊⼒した場合にテキストに基づ く、新しい服を着た画像を⽣成する新しいタスクに挑戦した。 1. これを⽣成するGANが提案⼿法のFashion GAN 2. 但し、体の領域を残しつつ、テキストで表現された⽂章に関連す
る画像を⽣成しなければならない。 3. 論⽂のキーアイデアとして次の2つを提案 1. Spatial Constraint 2. Compositional Mapping
2. 論⽂の概要
2. この論⽂を読んでみた理由 1. 制約を付けて新しい画像を⽣成することによって⾯⽩いこと に応⽤できそうだから。 1. 2段階で実施する意味とは何か 1. (何か⼊れ替えられそうじゃないですか。) 2.
GANを使った応⽤を勉強してみたかった。 1. トレンドを追いかけたかった。
2. Related Work 1. GANの紹介が多い。 2. Related Workで挙げられている論⽂の例 1. Conditional
GAN 1. ラベルによる制約を付けたGAN 2. Stacked GAN 1. 説明⽂とノイズから画像を⽣成(1段階⽬)+⾼解像度化(2段階⽬) 3. S^2GAN 1. 表⾯を⽣成する段階(1段階⽬)とスタイルを合成する(2段階⽬)
2. 論⽂の問題設定 1. 服を着た画像(セグメンテーション)と新しい服を説明する ⽂章があった場合に新しい画像を⽣成する問題 1. 体の領域を残す。 2. テキストで表現された⽂章に関連する画像を⽣成する。 2.
ユーザごとにセグメンテーション済みの画像とその画像に対 する説明が与えられる。
3. GANのおさらい 1. GeneratorとDiscriminatorを競わせて学習する。 1. GeneratorはDiscriminatorを騙すように学習する。 2. Discriminatorはより識別できるよう学習する。 2. GeneratorとDiscriminatorがいたちごっこになり、
Discriminatorを⾒分けられなくなるGenerator⽣まれる。
3. GANのおさらい 乱数Z 真偽判定 Generator Discriminator
4. Fashion GAN 1. Fashion GANは⽣成する形を⽣成するGANと形から着⾐した 同じ⼈物の画像を⽣成するGANの2段階構成 1. 1段階⽬の⼊⼒は低解像度セグメンテーション画像とテキストと乱 数を⽤いる(=Segmentation
Map Generation) 2. 2段階⽬は⽣成したセグメンテーション画像とテキストと乱数を⽤ いる。(=Texture Rendering) 乱数 デザイン エンコーディング デザイン エンコーディング 画像の形状
4. Fashion GAN
4. Fashion GAN
5. Segmentation Map Generation 1. 最初のGeneratorは新しく⽣成したいSegmentationのマップ を⽣成することを⽬的としている。 2. ⼊⼒は次の3つ 1.
ダウンサンプリングされたSegmentation画像 ↓m(S0) 2. デザイン・コーディングされたベクトルd 3. ガウシアンノイズz 3. 出⼒は新しく⽣成したい領域分割画像
5. Spatial Constraint 1. セグメンテーションのSを↓m(S0)へ変換する。 1. セグメンテーションの領域を限定する。 1. background, hair,
face, upper-clothsm,pantsl,shortsm legs, and arms 2. 1からbackground, hair, face, restへ変換する 2. 2つのデザイン・コーディングとセグメンテーションの相関を弱 めるためにダウンサンプリングしたS(=↓m(S0))を利⽤する。 3. ⼊⼒した形状とテキストが反した場合にうまく⽣成できない。 1. ⼊⼒形状:短い服装 2. テキスト:⻑いドレス
5. Segmentation Map Generation
5. Segmentation Map Generation
5. Design Encoding 1. Design Codingのベクトルは50次元 1. 10次元は⼈間の属性 1. 性別、髪が短い/⻑い、サングラスの有無、帽⼦の有無
2. 4次元は肌(RGBY) 3. 2次元は⼈の幅と⾼さ 2. 40次元はText Encoderを利⽤し、作成した。 1. 元論⽂は「Generative Adversarial Text to Image Synthesis」
5. Generative Adversarial Text to Image Synthesis 1. テキストと乱数を⼊⼒として、画像を作成するGAN 1.
従来のGANでは乱数のみだが、テキストをエンコードして、追加で 投⼊する。 2. RNNを使い、テキストをベクトルへエンコードする仕組みが 利⽤されている。 1. 論⽂内だといくつかあり、Char-CNN-RNN、CNNを利⽤した⽅法い くつかある。
5. Text Encoder Text Encoderは この部分
5. Fashion GAN
6. Texture Rendering • 前段で得られた画像を使って、画像を⽣成する。 • GANを使って、⽣成された画像の形状から最終的な画像を⽣成する。 • Compositional Mappingを使った合成を⾏い、より適切なレン
ダリングを実現した。 • 領域の⼀貫性やボディパーツを維持するために新規のマッピングレイ ヤーを追加した(Compositional Mapping)
7. Experiment 1 1. Attribute Detectorで得られた属性をマッチングする。 2. Deep Fashion 1.
http://mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html 3. ⽣成⼿法 1. One Step⽅式 1. One-Step GAN(8-7) 1. Segmentationのデータから直接、画像を⽣成する。 2. One-Step GAN(8-4) 1. Down samplingされたデータから直接、画像を⽣成する。 2. Non-Compositional 1. Compositional Mappingを外したニューラルネットワーク
7. Deep Fashion(Dataset)
7. Experiment 1(属性⼀致)
7. Experiment Result
7. Experiment 2 1. ⽣成された画像を8979画像枚提⽰し、ランクを参加者につけ てもらった。 1. 1が最も良く、5が最も悪い。
7. ⽣成画像(Step by Step)
7. ⽣成画像
8. Conclusion 1. 新しくテキストに基づく、着⾐した画像を⽣成するタスクに 取り組んだ。 2. テキストと画像を使ったアプローチであるFashion GANを提 案した。 1.
形状⽣成と画像⽣成を⾏うGANを利⽤した。 2. ベースラインより精度が⾼い。 3. 現状の背景は殆ど固定となっている(ショッピングサイト) がデータを増やせば、zで表現できるかも。
8. 所感 1. 形を意識する必要のあるデータへの変換だと役⽴つっぽい。 1. 他に何に使えそうかは今後の(個⼈的な)課題 2. 2段階構成による⽣成⼿法を活⽤したい。 1. テキスト・形(セグメンテーション)・ノイズといった箇所