Slide 1

Slide 1 text

Be Your Own Prada: Fashion Synthesis with Structural Coherence 第43回 コンピュータビジョン勉強会 @tereka114

Slide 2

Slide 2 text

⽬次 1. ⾃⼰紹介 2. 論⽂の概要 3. GANのおさらい 4. Fashion GAN 5. Segmentation Map Generation 6. Texture Rendering 7. Experiments 8. Conclusion

Slide 3

Slide 3 text

1. ⾃⼰紹介 1. ⼭本 ⼤輝(@tereka114) 2. Acroquest Technology株式会社 1. 画像認識、⾃然⾔語処理、推薦システムなどを従事 3. のんびりしているエンジニアの⽇記 1. http://nonbiri-tereka.hatenablog.com/ 4. 寄稿記事 1. Interface 3⽉号 ラズパイにON!Google⼈⼯知能 2. Interface 12⽉号 ⼈⼯知能ウルトラ⼤百科

Slide 4

Slide 4 text

2. 論⽂の概要 1. ⾐服を着た⼈物画像とテキストを⼊⼒した場合にテキストに基づ く、新しい服を着た画像を⽣成する新しいタスクに挑戦した。 1. これを⽣成するGANが提案⼿法のFashion GAN 2. 但し、体の領域を残しつつ、テキストで表現された⽂章に関連す る画像を⽣成しなければならない。 3. 論⽂のキーアイデアとして次の2つを提案 1. Spatial Constraint 2. Compositional Mapping

Slide 5

Slide 5 text

2. 論⽂の概要

Slide 6

Slide 6 text

2. この論⽂を読んでみた理由 1. 制約を付けて新しい画像を⽣成することによって⾯⽩いこと に応⽤できそうだから。 1. 2段階で実施する意味とは何か 1. (何か⼊れ替えられそうじゃないですか。) 2. GANを使った応⽤を勉強してみたかった。 1. トレンドを追いかけたかった。

Slide 7

Slide 7 text

2. Related Work 1. GANの紹介が多い。 2. Related Workで挙げられている論⽂の例 1. Conditional GAN 1. ラベルによる制約を付けたGAN 2. Stacked GAN 1. 説明⽂とノイズから画像を⽣成(1段階⽬)+⾼解像度化(2段階⽬) 3. S^2GAN 1. 表⾯を⽣成する段階(1段階⽬)とスタイルを合成する(2段階⽬)

Slide 8

Slide 8 text

2. 論⽂の問題設定 1. 服を着た画像(セグメンテーション)と新しい服を説明する ⽂章があった場合に新しい画像を⽣成する問題 1. 体の領域を残す。 2. テキストで表現された⽂章に関連する画像を⽣成する。 2. ユーザごとにセグメンテーション済みの画像とその画像に対 する説明が与えられる。

Slide 9

Slide 9 text

3. GANのおさらい 1. GeneratorとDiscriminatorを競わせて学習する。 1. GeneratorはDiscriminatorを騙すように学習する。 2. Discriminatorはより識別できるよう学習する。 2. GeneratorとDiscriminatorがいたちごっこになり、 Discriminatorを⾒分けられなくなるGenerator⽣まれる。

Slide 10

Slide 10 text

3. GANのおさらい 乱数Z 真偽判定 Generator Discriminator

Slide 11

Slide 11 text

4. Fashion GAN 1. Fashion GANは⽣成する形を⽣成するGANと形から着⾐した 同じ⼈物の画像を⽣成するGANの2段階構成 1. 1段階⽬の⼊⼒は低解像度セグメンテーション画像とテキストと乱 数を⽤いる(=Segmentation Map Generation) 2. 2段階⽬は⽣成したセグメンテーション画像とテキストと乱数を⽤ いる。(=Texture Rendering) 乱数 デザイン エンコーディング デザイン エンコーディング 画像の形状

Slide 12

Slide 12 text

4. Fashion GAN

Slide 13

Slide 13 text

4. Fashion GAN

Slide 14

Slide 14 text

5. Segmentation Map Generation 1. 最初のGeneratorは新しく⽣成したいSegmentationのマップ を⽣成することを⽬的としている。 2. ⼊⼒は次の3つ 1. ダウンサンプリングされたSegmentation画像 ↓m(S0) 2. デザイン・コーディングされたベクトルd 3. ガウシアンノイズz 3. 出⼒は新しく⽣成したい領域分割画像

Slide 15

Slide 15 text

5. Spatial Constraint 1. セグメンテーションのSを↓m(S0)へ変換する。 1. セグメンテーションの領域を限定する。 1. background, hair, face, upper-clothsm,pantsl,shortsm legs, and arms 2. 1からbackground, hair, face, restへ変換する 2. 2つのデザイン・コーディングとセグメンテーションの相関を弱 めるためにダウンサンプリングしたS(=↓m(S0))を利⽤する。 3. ⼊⼒した形状とテキストが反した場合にうまく⽣成できない。 1. ⼊⼒形状:短い服装 2. テキスト:⻑いドレス

Slide 16

Slide 16 text

5. Segmentation Map Generation

Slide 17

Slide 17 text

5. Segmentation Map Generation

Slide 18

Slide 18 text

5. Design Encoding 1. Design Codingのベクトルは50次元 1. 10次元は⼈間の属性 1. 性別、髪が短い/⻑い、サングラスの有無、帽⼦の有無 2. 4次元は肌(RGBY) 3. 2次元は⼈の幅と⾼さ 2. 40次元はText Encoderを利⽤し、作成した。 1. 元論⽂は「Generative Adversarial Text to Image Synthesis」

Slide 19

Slide 19 text

5. Generative Adversarial Text to Image Synthesis 1. テキストと乱数を⼊⼒として、画像を作成するGAN 1. 従来のGANでは乱数のみだが、テキストをエンコードして、追加で 投⼊する。 2. RNNを使い、テキストをベクトルへエンコードする仕組みが 利⽤されている。 1. 論⽂内だといくつかあり、Char-CNN-RNN、CNNを利⽤した⽅法い くつかある。

Slide 20

Slide 20 text

5. Text Encoder Text Encoderは この部分

Slide 21

Slide 21 text

5. Fashion GAN

Slide 22

Slide 22 text

6. Texture Rendering • 前段で得られた画像を使って、画像を⽣成する。 • GANを使って、⽣成された画像の形状から最終的な画像を⽣成する。 • Compositional Mappingを使った合成を⾏い、より適切なレン ダリングを実現した。 • 領域の⼀貫性やボディパーツを維持するために新規のマッピングレイ ヤーを追加した(Compositional Mapping)

Slide 23

Slide 23 text

7. Experiment 1 1. Attribute Detectorで得られた属性をマッチングする。 2. Deep Fashion 1. http://mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html 3. ⽣成⼿法 1. One Step⽅式 1. One-Step GAN(8-7) 1. Segmentationのデータから直接、画像を⽣成する。 2. One-Step GAN(8-4) 1. Down samplingされたデータから直接、画像を⽣成する。 2. Non-Compositional 1. Compositional Mappingを外したニューラルネットワーク

Slide 24

Slide 24 text

7. Deep Fashion(Dataset)

Slide 25

Slide 25 text

7. Experiment 1(属性⼀致)

Slide 26

Slide 26 text

7. Experiment Result

Slide 27

Slide 27 text

7. Experiment 2 1. ⽣成された画像を8979画像枚提⽰し、ランクを参加者につけ てもらった。 1. 1が最も良く、5が最も悪い。

Slide 28

Slide 28 text

7. ⽣成画像(Step by Step)

Slide 29

Slide 29 text

7. ⽣成画像

Slide 30

Slide 30 text

8. Conclusion 1. 新しくテキストに基づく、着⾐した画像を⽣成するタスクに 取り組んだ。 2. テキストと画像を使ったアプローチであるFashion GANを提 案した。 1. 形状⽣成と画像⽣成を⾏うGANを利⽤した。 2. ベースラインより精度が⾼い。 3. 現状の背景は殆ど固定となっている(ショッピングサイト) がデータを増やせば、zで表現できるかも。

Slide 31

Slide 31 text

8. 所感 1. 形を意識する必要のあるデータへの変換だと役⽴つっぽい。 1. 他に何に使えそうかは今後の(個⼈的な)課題 2. 2段階構成による⽣成⼿法を活⽤したい。 1. テキスト・形(セグメンテーション)・ノイズといった箇所