Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Be Your Own Prada: Fashion Synthesis with Stru...
Search
tereka114
March 15, 2022
0
37
Be Your Own Prada: Fashion Synthesis with Structural Coherence
第43回 コンピュータビジョン勉強会
tereka114
March 15, 2022
Tweet
Share
More Decks by tereka114
See All by tereka114
トラブルがあったコンペに学ぶデータ分析
tereka114
2
1.1k
Harnessing Large Language Models for Training-free Video Anomaly Detection
tereka114
1
1.5k
KDD2023学会参加報告
tereka114
2
520
Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering
tereka114
0
350
Mobile-Former: Bridging MobileNet and Transformer
tereka114
0
1k
DER: Dynamically Expandable Representation for Class Incremental Learning
tereka114
0
170
Jupyter Notebookを納品した話
tereka114
0
360
Multi Scale Recognition with DAG-CNNs
tereka114
0
110
How to use scikit-image for data augmentation
tereka114
0
200
Featured
See All Featured
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.3k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
59k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
26
1.8k
Put a Button on it: Removing Barriers to Going Fast.
kastner
59
3.6k
The Cult of Friendly URLs
andyhume
78
6.1k
Statistics for Hackers
jakevdp
796
220k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
38
1.9k
GraphQLとの向き合い方2022年版
quramy
44
13k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
45
2.2k
Intergalactic Javascript Robots from Outer Space
tanoku
270
27k
Art, The Web, and Tiny UX
lynnandtonic
298
20k
How to train your dragon (web standard)
notwaldorf
88
5.7k
Transcript
Be Your Own Prada: Fashion Synthesis with Structural Coherence 第43回
コンピュータビジョン勉強会 @tereka114
⽬次 1. ⾃⼰紹介 2. 論⽂の概要 3. GANのおさらい 4. Fashion GAN
5. Segmentation Map Generation 6. Texture Rendering 7. Experiments 8. Conclusion
1. ⾃⼰紹介 1. ⼭本 ⼤輝(@tereka114) 2. Acroquest Technology株式会社 1. 画像認識、⾃然⾔語処理、推薦システムなどを従事
3. のんびりしているエンジニアの⽇記 1. http://nonbiri-tereka.hatenablog.com/ 4. 寄稿記事 1. Interface 3⽉号 ラズパイにON!Google⼈⼯知能 2. Interface 12⽉号 ⼈⼯知能ウルトラ⼤百科
2. 論⽂の概要 1. ⾐服を着た⼈物画像とテキストを⼊⼒した場合にテキストに基づ く、新しい服を着た画像を⽣成する新しいタスクに挑戦した。 1. これを⽣成するGANが提案⼿法のFashion GAN 2. 但し、体の領域を残しつつ、テキストで表現された⽂章に関連す
る画像を⽣成しなければならない。 3. 論⽂のキーアイデアとして次の2つを提案 1. Spatial Constraint 2. Compositional Mapping
2. 論⽂の概要
2. この論⽂を読んでみた理由 1. 制約を付けて新しい画像を⽣成することによって⾯⽩いこと に応⽤できそうだから。 1. 2段階で実施する意味とは何か 1. (何か⼊れ替えられそうじゃないですか。) 2.
GANを使った応⽤を勉強してみたかった。 1. トレンドを追いかけたかった。
2. Related Work 1. GANの紹介が多い。 2. Related Workで挙げられている論⽂の例 1. Conditional
GAN 1. ラベルによる制約を付けたGAN 2. Stacked GAN 1. 説明⽂とノイズから画像を⽣成(1段階⽬)+⾼解像度化(2段階⽬) 3. S^2GAN 1. 表⾯を⽣成する段階(1段階⽬)とスタイルを合成する(2段階⽬)
2. 論⽂の問題設定 1. 服を着た画像(セグメンテーション)と新しい服を説明する ⽂章があった場合に新しい画像を⽣成する問題 1. 体の領域を残す。 2. テキストで表現された⽂章に関連する画像を⽣成する。 2.
ユーザごとにセグメンテーション済みの画像とその画像に対 する説明が与えられる。
3. GANのおさらい 1. GeneratorとDiscriminatorを競わせて学習する。 1. GeneratorはDiscriminatorを騙すように学習する。 2. Discriminatorはより識別できるよう学習する。 2. GeneratorとDiscriminatorがいたちごっこになり、
Discriminatorを⾒分けられなくなるGenerator⽣まれる。
3. GANのおさらい 乱数Z 真偽判定 Generator Discriminator
4. Fashion GAN 1. Fashion GANは⽣成する形を⽣成するGANと形から着⾐した 同じ⼈物の画像を⽣成するGANの2段階構成 1. 1段階⽬の⼊⼒は低解像度セグメンテーション画像とテキストと乱 数を⽤いる(=Segmentation
Map Generation) 2. 2段階⽬は⽣成したセグメンテーション画像とテキストと乱数を⽤ いる。(=Texture Rendering) 乱数 デザイン エンコーディング デザイン エンコーディング 画像の形状
4. Fashion GAN
4. Fashion GAN
5. Segmentation Map Generation 1. 最初のGeneratorは新しく⽣成したいSegmentationのマップ を⽣成することを⽬的としている。 2. ⼊⼒は次の3つ 1.
ダウンサンプリングされたSegmentation画像 ↓m(S0) 2. デザイン・コーディングされたベクトルd 3. ガウシアンノイズz 3. 出⼒は新しく⽣成したい領域分割画像
5. Spatial Constraint 1. セグメンテーションのSを↓m(S0)へ変換する。 1. セグメンテーションの領域を限定する。 1. background, hair,
face, upper-clothsm,pantsl,shortsm legs, and arms 2. 1からbackground, hair, face, restへ変換する 2. 2つのデザイン・コーディングとセグメンテーションの相関を弱 めるためにダウンサンプリングしたS(=↓m(S0))を利⽤する。 3. ⼊⼒した形状とテキストが反した場合にうまく⽣成できない。 1. ⼊⼒形状:短い服装 2. テキスト:⻑いドレス
5. Segmentation Map Generation
5. Segmentation Map Generation
5. Design Encoding 1. Design Codingのベクトルは50次元 1. 10次元は⼈間の属性 1. 性別、髪が短い/⻑い、サングラスの有無、帽⼦の有無
2. 4次元は肌(RGBY) 3. 2次元は⼈の幅と⾼さ 2. 40次元はText Encoderを利⽤し、作成した。 1. 元論⽂は「Generative Adversarial Text to Image Synthesis」
5. Generative Adversarial Text to Image Synthesis 1. テキストと乱数を⼊⼒として、画像を作成するGAN 1.
従来のGANでは乱数のみだが、テキストをエンコードして、追加で 投⼊する。 2. RNNを使い、テキストをベクトルへエンコードする仕組みが 利⽤されている。 1. 論⽂内だといくつかあり、Char-CNN-RNN、CNNを利⽤した⽅法い くつかある。
5. Text Encoder Text Encoderは この部分
5. Fashion GAN
6. Texture Rendering • 前段で得られた画像を使って、画像を⽣成する。 • GANを使って、⽣成された画像の形状から最終的な画像を⽣成する。 • Compositional Mappingを使った合成を⾏い、より適切なレン
ダリングを実現した。 • 領域の⼀貫性やボディパーツを維持するために新規のマッピングレイ ヤーを追加した(Compositional Mapping)
7. Experiment 1 1. Attribute Detectorで得られた属性をマッチングする。 2. Deep Fashion 1.
http://mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html 3. ⽣成⼿法 1. One Step⽅式 1. One-Step GAN(8-7) 1. Segmentationのデータから直接、画像を⽣成する。 2. One-Step GAN(8-4) 1. Down samplingされたデータから直接、画像を⽣成する。 2. Non-Compositional 1. Compositional Mappingを外したニューラルネットワーク
7. Deep Fashion(Dataset)
7. Experiment 1(属性⼀致)
7. Experiment Result
7. Experiment 2 1. ⽣成された画像を8979画像枚提⽰し、ランクを参加者につけ てもらった。 1. 1が最も良く、5が最も悪い。
7. ⽣成画像(Step by Step)
7. ⽣成画像
8. Conclusion 1. 新しくテキストに基づく、着⾐した画像を⽣成するタスクに 取り組んだ。 2. テキストと画像を使ったアプローチであるFashion GANを提 案した。 1.
形状⽣成と画像⽣成を⾏うGANを利⽤した。 2. ベースラインより精度が⾼い。 3. 現状の背景は殆ど固定となっている(ショッピングサイト) がデータを増やせば、zで表現できるかも。
8. 所感 1. 形を意識する必要のあるデータへの変換だと役⽴つっぽい。 1. 他に何に使えそうかは今後の(個⼈的な)課題 2. 2段階構成による⽣成⼿法を活⽤したい。 1. テキスト・形(セグメンテーション)・ノイズといった箇所